Результати пошуку для "MOE"
2026-04-24
03:21

Дані для тренування DeepSeek V4 збільшилися до 33T: нестабільність спровокувала затримку релізу

Повідомлення Gate News від 24 квітня — Технічний звіт DeepSeek V4 розкриває, що V4-Flash і V4-Pro були попередньо натреновані на 32T і 33T токенів відповідно, удвічі більше приблизно 15T токенів, використаних для V3. У звіті визнається, що під час тренування вони зіткнулися з "значними проблемами нестабільності", причому сплески loss неодноразово виникали через аномалії в шарі Mixture-of-Experts MoE; сам механізм маршрутизації загострює ці аномалії, і простий rollback не може вирішити проблему.
Більше
03:04

DeepSeek випускає серію відкритих моделей V4 із 1,6T параметрів і ліцензією MIT

Повідомлення Gate News, 24 квітня — DeepSeek випустила серію V4 відкритих моделей із відкритим вихідним кодом під ліцензією MIT, а ваги тепер доступні на Hugging Face та ModelScope. Серія включає дві (MoE) моделі mixture-of-experts: V4-Pro із 1,6 трильйонами загальних параметрів і 49 мільярдами активованих на токен на щ
Більше
13:41

Qwen Lab від Alibaba відкриває модель Qwen3.6-35B-A3B із розрідженою архітектурою MoE

Лабораторія Qwen Lab від Alibaba випустила Qwen3.6-35B-A3B — відкриту вільну велику мовну модель із розрідженою архітектурою mixture-of-experts, що має 35 мільярдів параметрів і можливості агентного програмування для інтеграції з сторонніми помічниками для кодування.
Більше
01:51

Meituan відкрила вихідний код LongCat-Next: 3B параметрів для уніфікованого візуального розуміння, генерації та мовлення

LongCat-Next, відкритий командою Meituan Longcat, — це мультимодальна модель на основі архітектури MoE, яка інтегрує п'ять можливостей: розуміння тексту, розуміння зображень, генерацію зображень та мовлення. Її основний дизайн DiNA забезпечує уніфіковану обробку завдань через дискретні токени, а у візуальній частині використовується dNaViT, який забезпечує відмінну продуктивність генерації зображень. У порівнянні з аналогічними моделями LongCat-Next демонструє передові результати за всіма тестами, що часто експлуатується в її перевагами в области мультимодального розуміння та генерації.
Більше
06:36

Cursor опублікував технічний звіт Composer2: середовище RL повністю імітує реальні сценарії користувачів, оцінка базової моделі підвищилася на 70%

Cursor опублікував технічний звіт Composer 2, який описує повний план навчання його архітектури Kimi K2.5 MoE, включаючи двофазове навчання та власний еталон CursorBench. Після навчання продуктивність Composer 2 значно покращилася і показує переваги в плані витрат на інференцію порівняно з іншими передовими моделями.
Більше
06:27

Cursor опубліковує технічний звіт Composer 2, базова модель покращила оцінку на 70%

Cursor випустив технічний звіт Composer 2 25 березня, розкривши схему навчання моделі Kimi K2.5, яка використовує архітектуру MoE з параметрами обсягом 1,04 трильйона. Навчання складається з двох етапів, із застосуванням моделювання реальних сценаріїв для навчання з підкріпленням. Остаточно модель досягла 61,3 балів на еталоні CursorBench, що являє собою підвищення на 70%, водночас витрати на виведення нижче, ніж у інших API великих мовних моделей.
Більше
02:27

Мейтуань випустила відкриту модель доведення теорем з 560 мільярдами параметрів, яка досягає 97,1% успішності за 72 кроки висновку, оновлюючи світовий рекорд у відкритому сегменті.

Команда LongCat компанії Meituan відкрила вихідний код LongCat-Flash-Prover 21 березня — MoE-моделі з 560 мільярдами параметрів, спеціалізованої на формальному доведенні теорем у Lean4. Модель поділяється на три можливості: автоматична формалізація, генерація ескізів і генерація повного доведення, інтегруючи інструменти висновків та компілятор Lean4 для перевірки в реальному часі. Навчання використовує Hybrid-Experts Iteration Framework та алгоритм HisPO для запобігання шахрайству з винагородами. Результати тестування показують, що модель встановила нові рекорди серед відкритих важельних моделей у автоматичній формалізації та доведенні теорем.
Більше
06:55

Mistral AI випустила Leanstral: перший відкритий Agent кодування на Lean 4, який може автоматично виводити формальні доведення

Mistral AI випустила open-source агента коду Leanstral, спеціально розробленого для формальної верифікації Lean 4, який може генерувати код і докази, що автоматично перевіряються. Модель використовує архітектуру розрідженої MoE, показує кращі результати порівняно з іншими провідними моделями та пропонує безплатне завантаження та виклики API.
Більше