Tin cổng, ngày 24 tháng 4 — DeepSeek đã phát hành loạt mô hình mã nguồn mở V4 theo Giấy phép MIT, với trọng số hiện đã có trên Hugging Face và ModelScope. Loạt này bao gồm hai mô hình (MoE) dạng mixture-of-experts: V4-Pro với 1,6 nghìn tỷ tham số tổng và 49 tỷ tham số được kích hoạt mỗi token, và V4-Flash với 284 tỷ tham số tổng và 13 tỷ tham số được kích hoạt mỗi token. Cả hai đều hỗ trợ cửa sổ ngữ cảnh 1 triệu token.
Kiến trúc có ba nâng cấp chính: một cơ chế attention lai kết hợp attention thưa nén (CSA) và attention nén mạnh (HCA), giúp giảm đáng kể chi phí phát sinh cho ngữ cảnh dài—FLOPs suy luận của V4-Pro cho ngữ cảnh 1M chỉ bằng 27% của V3.2, và bộ nhớ đệm KV (VRAM) để lưu thông tin lịch sử trong quá trình suy luận( chỉ bằng 10% của V3.2; các siêu liên kết ràng buộc đa tạp )mHC( thay thế các kết nối residual truyền thống để tăng cường độ ổn định lan truyền tín hiệu giữa các lớp; và bộ tối ưu hóa Muon để hội tụ huấn luyện nhanh hơn. Tiền huấn luyện sử dụng hơn 32 nghìn tỷ token dữ liệu.
Hậu huấn luyện áp dụng phương pháp hai giai đoạn: đầu tiên huấn luyện các chuyên gia theo miền thông qua supervised fine-tuning )SFT( và học tăng cường GRPO, sau đó hợp nhất chúng thành một mô hình thông qua chưng cất trực tuyến. V4-Pro-Max )highest inference mode tuyên bố là mô hình mã nguồn mở mạnh nhất với các bộ đánh giá mã hóa hàng đầu và khoảng cách thu hẹp đáng kể so với các mô hình “biên” mã nguồn đóng về các tác vụ suy luận và tác nhân. V4-Flash-Max đạt hiệu năng suy luận tầm Pro với đủ ngân sách tính toán nhưng bị giới hạn bởi quy mô tham số đối với kiến thức thuần túy và các tác vụ tác nhân phức tạp. Trọng số được lưu ở độ chính xác kết hợp FP4+FP8.
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo
Tuyên bố miễn trừ trách nhiệm.
Bài viết liên quan
Nvidia sẽ đầu tư lên đến 2,1 tỷ USD vào công ty trung tâm dữ liệu IREN
Theo Bloomberg Terminal, Nvidia thông báo hôm thứ Năm rằng công ty sẽ đầu tư lên tới 2,1 tỷ USD vào nhà phát triển trung tâm dữ liệu IREN Ltd. như một phần của quan hệ đối tác nhằm đẩy nhanh việc xây dựng hạ tầng trí tuệ nhân tạo. IREN đã cấp cho Nvidia một quyền chọn năm năm để mua tới 30 triệu sh
GateNews2giờ trước
CZ cho biết YZi Labs phân bổ 70% cho blockchain và 20% cho AI tại Consensus Miami 2026
Theo ChainCatcher, tại sự kiện Consensus Miami 2026, Zhao Changpeng (CZ) cho biết YZi Labs phân bổ 70% nguồn vốn cho blockchain, 20% cho AI và 10% cho công nghệ sinh học. CZ cho biết BNB nên được định vị như một loại tiền tệ bản địa cho các tác nhân AI, và tất cả các blockchain cần phải “sẵn sàng cho AI” để hỗ trợ
GateNews7giờ trước
Public mua lại ứng dụng kho bạc của nền tảng đầu tư AI để mở rộng giao dịch crypto
Theo ChainCatcher, Public đã công bố việc mua lại nền tảng dịch vụ đầu tư AI Treasury App để tăng cường mảng môi giới giao dịch dựa trên AI của mình. Chưa công bố số tiền mua lại. Hiện tại Public hỗ trợ giao dịch cổ phiếu, trái phiếu và tiền mã hóa, bao gồm Bitcoin, Ethereum, a
GateNews9giờ trước
Blitzy hoàn tất vòng $200M huy động vốn do Northzone dẫn dắt
Theo ChainCatcher, Blitzy, một công ty AI về lập trình được đồng sáng lập bởi cựu kiến trúc sư của Nvidia Sid Pardeshi, đã hoàn tất một vòng gọi vốn trị giá 200 triệu USD do Northzone dẫn dắt. Battery Ventures, Jump Capital và Morgan Creek Digital đã tham gia vào vòng này. Nền tảng có thể phân tích các hệ thống phức tạp với
GateNews10giờ trước
EU cấm nội dung khiêu dâm deepfake do AI tạo ra vào ngày 7 tháng 5
Theo Hãng Thông tấn Xinhua, vào ngày 7/5, các nghị sĩ Nghị viện châu Âu và các quốc gia thành viên đã đạt được đồng thuận để cấm các hệ thống trí tuệ nhân tạo tạo ra nội dung khiêu dâm deepfake. Lệnh cấm này sẽ được đưa vào các sửa đổi của Đạo luật Trí tuệ nhân tạo năm 2024. Nghị viện châu Âu
GateNews10giờ trước
Tether ra mắt mô hình AI y tế MedPsy QVAC, đạt điểm 62,62 trên phiên bản 17 tỷ tham số
Theo Odaily, Tether AI Research Group đã ra mắt QVAC MedPsy, một mô hình AI y tế được thiết kế để chạy cục bộ trên điện thoại thông minh và các thiết bị đeo mà không phụ thuộc vào đám mây. Phiên bản với 1,7 tỷ tham số đạt 62,62 trên bảy bộ tiêu chí y tế, vượt MedGemma-1.5-4B của Google thêm 11,42 điểm poi
GateNews10giờ trước