DeepSeek выпускает серию открытых моделей V4 с 1,6T параметров и лицензией MIT

Сообщение Gate News, 24 апреля — DeepSeek выпустила серию моделей V4 с открытым исходным кодом под лицензией MIT; веса теперь доступны на Hugging Face и ModelScope. В серии есть две модели (MoE) с экспертами-смесителями: V4-Pro с 1,6 трлн общих параметров и 49 млрд активируемых на токен, и V4-Flash с 284 млрд общих параметров и 13 млрд активируемых на токен. Обе поддерживают контекстное окно в 1 млн токенов.

Архитектура включает три ключевых улучшения: гибридный механизм внимания, сочетающий сжатое разреженное внимание (CSA) и сильно сжатое внимание (HCA), что существенно снижает издержки для длинного контекста — FLOPs инференса V4-Pro для контекста 1M составляют всего 27% от V3.2, а KV-кэш (VRAM для хранения исторической информации во время инференса) равен лишь 10% от V3.2; manifold-constrained гиперсвязи (mHC) вместо традиционных residual-связей для повышения устойчивости распространения сигнала между слоями; и оптимизатор Muon для более быстрой сходимости обучения. Предобучение использовало более 32 трлн токенов данных.

Постобучение применяет двухэтапный подход: сначала обучение предметно-ориентированных экспертов с помощью supervised fine-tuning (SFT) и reinforcement learning через GRPO, затем объединение их в единую модель посредством онлайн-дистилляции. V4-Pro-Max (highest inference mode) заявляет, что это самая сильная открытая модель с топовыми бенчмарками по кодированию и существенно сократившимися разрывами с закрытыми моделями фронтира по задачам рассуждения и агентным задачам. V4-Flash-Max достигает уровня рассуждений Pro при достаточном вычислительном бюджете, но ограничена масштабом параметров в чисто знаниях и сложных агентных задачах. Веса хранятся в смешанном формате точности FP4+FP8.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

CZ заявил, что YZi Labs выделяет 70% на блокчейн и 20% на ИИ на Consensus Miami 2026

Согласно ChainCatcher, на Consensus Miami 2026 Чжао Чанпэн (CZ) заявил, что YZi Labs направляет 70% финансирования на блокчейн, 20% — на ИИ и 10% — на биотехнологии. CZ добавил, что BNB следует позиционировать как нативную валюту для AI-агентов, а все блокчейны должны быть «AI ready», чтобы поддерживать

GateNews2ч назад

Public приобретает приложение Treasury AI-инвестплатформы, чтобы расширить криптоторговлю

По данным ChainCatcher, Public объявила о приобретении платформы для AI-инвестиций Treasury App, чтобы усилить свой брокерский бизнес, ориентированный на ИИ. Сумма сделки не раскрывалась. В настоящее время Public поддерживает торги акциями, облигациями и криптовалютами, включая Bitcoin, Ethereum, а

GateNews3ч назад

Blitzy завершила $200M раунд финансирования при участии Northzone

По данным ChainCatcher, Blitzy — компания по разработке кода с помощью ИИ, сооснователем которой является бывший архитектор Nvidia Сид Пардэши, — завершила раунд финансирования на $200 млн, который возглавила Northzone. В раунде также участвовали Battery Ventures, Jump Capital и Morgan Creek Digital. Платформа может анализировать сложные системы с

GateNews4ч назад

ЕС запрещает порно с дипфейками, сгенерированными с помощью ИИ, 7 мая

Согласно Xinhua News Agency, 7 мая депутаты Европарламента и представители стран ЕС достигли консенсуса о запрете системам искусственного интеллекта генерировать порнографический контент с использованием дипфейков. Запрет будет включён в поправки к Закону об искусственном интеллекте 2024 года. Европейский парламент

GateNews5ч назад

Tether выпустила медицинскую AI-модель QVAC MedPsy и набрала 62,62 балла в версии с 17 млрд параметров

По данным Odaily, Tether AI Research Group выпустила QVAC MedPsy — медицинскую AI-модель, предназначенную для работы локально на смартфонах и носимых устройствах без зависимости от облака. Версия с 1,7 миллиарда параметров набрала 62,62 балла по семи медицинским бенчмаркам, обойдя MedGemma-1.5-4B от Google на 11,42 poi

GateNews5ч назад

Запуск B.AI API: представлены четыре новых модели, включая GPT-5.5 Instant, в течение 48 часов после релиза OpenAI

API B.AI запустил четыре новые модели: GPT-5.5 Instant, DeepSeek-v3.2, MiniMax-M2.7 и GLM-5.1. GPT-5.5 Instant завершила базовую адаптацию и интеграцию интерфейса в течение 48 часов после релиза OpenAI, обеспечив мгновенный доступ без задержек к

GateNews5ч назад
комментарий
0/400
Нет комментариев