DeepSeek Merilis Seri Model Open-Source V4 dengan 1,6T Parameter dan Lisensi MIT

Pesan Gate News, 24 April — DeepSeek telah merilis seri model open-source V4 di bawah Lisensi MIT, dengan bobot kini tersedia di Hugging Face dan ModelScope. Seri ini mencakup dua model (MoE) mixture-of-experts: V4-Pro dengan total parameter 1,6 triliun dan 49 miliar yang diaktifkan per token, serta V4-Flash dengan total parameter 284 miliar dan 13 miliar yang diaktifkan per token. Keduanya mendukung jendela konteks 1 juta token.

Arsitekturnya menampilkan tiga peningkatan kunci: mekanisme attention hibrida yang menggabungkan compressed sparse attention (CSA) dan heavily compressed attention (HCA) yang secara signifikan mengurangi overhead untuk konteks panjang—FLOPs inferensi V4-Pro untuk konteks 1M hanya 27% dari V3.2, dan KV cache (VRAM untuk menyimpan informasi historis selama inferensi) hanya 10% dari V3.2; manifold-constrained hyperconnections (mHC) menggantikan residual connection tradisional untuk meningkatkan stabilitas propagasi sinyal lintas-lapis; dan optimizer Muon untuk konvergensi pelatihan yang lebih cepat. Pra-pelatihan menggunakan lebih dari 32 triliun token data.

Pascapelatihan menggunakan pendekatan dua tahap: pertama melatih expert khusus domain melalui supervised fine-tuning (SFT) dan reinforcement learning GRPO, lalu menggabungkannya menjadi satu model melalui distilasi online. V4-Pro-Max (highest inference mode) mengklaim sebagai model open-source terkuat dengan benchmark coding kelas atas dan kesenjangan yang secara signifikan dipersempit dibandingkan model frontier closed-source dalam tugas penalaran dan agen. V4-Flash-Max mencapai performa penalaran level Pro dengan anggaran komputasi yang cukup, tetapi dibatasi oleh skala parameter pada pengetahuan murni dan tugas agen yang kompleks. Bobot disimpan dalam presisi campuran FP4+FP8.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

CZ Mengatakan YZi Labs Mengalokasikan 70% untuk Blockchain, 20% untuk AI di Consensus Miami 2026

Menurut ChainCatcher, pada Consensus Miami 2026, Zhao Changpeng (CZ) menyatakan bahwa YZi Labs mengalokasikan 70% pendanaan ke blockchain, 20% ke AI, dan 10% ke bioteknologi. CZ menambahkan bahwa BNB harus diposisikan sebagai mata uang asli untuk agen AI, dan semua blockchain perlu menjadi “AI ready” untuk mendukung

GateNews2jam yang lalu

Public Mengakuisisi Aplikasi Treasury Platform Investasi AI untuk Memperluas Perdagangan Kripto

Menurut ChainCatcher, Public mengumumkan akuisisi platform layanan investasi AI Treasury App untuk memperkuat bisnis brokeragenya berbasis AI. Nilai akuisisi tidak diungkapkan. Public saat ini mendukung perdagangan saham, obligasi, dan mata uang kripto termasuk Bitcoin, Ethereum, a

GateNews3jam yang lalu

Blitzy Menyelesaikan $200M Putaran Pendanaan yang Dipimpin oleh Northzone

Menurut ChainCatcher, Blitzy, perusahaan pengkodean berbasis AI yang didirikan bersama oleh mantan arsitek Nvidia Sid Pardeshi, telah menyelesaikan putaran pendanaan senilai 200 juta dolar AS yang dipimpin oleh Northzone. Battery Ventures, Jump Capital, dan Morgan Creek Digital turut berpartisipasi dalam putaran tersebut. Platform ini dapat mengurai sistem yang kompleks dengan

GateNews4jam yang lalu

Uni Eropa Melarang Pornografi Deepfake yang Dihasilkan AI pada 7 Mei

Menurut Xinhua News Agency, pada 7 Mei anggota Parlemen Eropa dan negara anggota mencapai kesepakatan untuk melarang sistem kecerdasan buatan menghasilkan konten pornografi deepfake. Larangan ini akan dimasukkan ke dalam amandemen Undang-Undang Kecerdasan Buatan 2024. Parlemen Eropa

GateNews4jam yang lalu

Tether Rilis Model AI MedPsy Medis QVAC, Raih Skor 62,62 pada Versi 17B Parameter

Menurut Odaily, Tether AI Research Group merilis QVAC MedPsy, model AI medis yang dirancang untuk berjalan secara lokal di smartphone dan perangkat wearable tanpa ketergantungan pada cloud. Versi berjumlah 1,7 miliar parameter itu memperoleh skor 62,62 pada tujuh tolok ukur medis, melampaui MedGemma-1.5-4B milik Google dengan selisih 11,42 poin

GateNews5jam yang lalu

B.AI Meluncurkan Empat Model Baru Termasuk GPT-5.5 Instant dalam 48 Jam Setelah Rilis OpenAI

API B.AI telah meluncurkan empat model baru: GPT-5.5 Instant, DeepSeek-v3.2, MiniMax-M2.7, dan GLM-5.1. GPT-5.5 Instant menyelesaikan adaptasi dasar dan integrasi antarmuka dalam waktu 48 jam setelah perilisan OpenAI, sehingga memungkinkan akses tanpa penundaan ke

GateNews5jam yang lalu
Komentar
0/400
Tidak ada komentar