Kết quả tìm kiếm cho "MOE"
2026-04-24
08:13

Kỹ sư OpenAI Clive Chan Thách thức Khuyến nghị Phần cứng của V4, Trích dẫn Lỗi và Tính Mơ hồ so với V3

Tin tức cổng Gate, ngày 24 tháng 4 — Kỹ sư OpenAI Clive Chan đã đưa ra những phản đối chi tiết đối với chương khuyến nghị phần cứng trong báo cáo kỹ thuật V4, gọi chương này là "đáng ngạc nhiên là tầm thường và dễ gây lỗi" so với phiên bản V3 được ca ngợi. Hướng dẫn phần cứng của V3, bao gồm các buổi Q&A
Xem thêm
09:45

DeepSeek phát hành mã nguồn mở TileKernels, thư viện kernel GPU cho đào tạo và suy luận mô hình lớn

Tin tức cổng, ngày 23 tháng 4 — DeepSeek đã phát hành mã nguồn mở TileKernels theo giấy phép MIT, một thư viện kernel GPU được viết bằng TileLang cho đào tạo và suy luận mô hình ngôn ngữ lớn. TileLang là ngôn ngữ chuyên biệt do nhóm tile-ai phát triển để diễn đạt các kernel GPU hiệu năng cao trong
Xem thêm
06:25

Nhóm Seed của ByteDance phát hành Seed3D 2.0 với độ chính xác hình học nâng cao và tạo sinh vật liệu

Tin tức Cổng — Thông điệp ngày 23 tháng 4 — Nhóm Seed của ByteDance đã phát hành Seed3D 2.0, một mô hình chuyển văn bản thành 3D tạo ra các tài sản 3D có kết cấu từ một hình ảnh duy nhất. Bản nâng cấp tập trung vào độ chính xác hình học và tính chân thực của vật liệu, với API hiện đã có trên Volcano Ark. Tạo hình học sử dụng một
Xem thêm
14:05

Yifan Zhang Công Bố Thông Số Kỹ Thuật Đầy Đủ của DeepSeek V4: 1,6T Tham Số, 384 Chuyên Gia với 6 Kích Hoạt

Tin cổng, ngày 22 tháng 4 — Nghiên cứu sinh Princeton Yifan Zhang đã công bố đầy đủ thông số kỹ thuật của DeepSeek V4 trên X, sau một bản xem trước vào ngày 19 tháng 4. V4 có tổng cộng 1,6 nghìn tỷ tham số và một biến thể nhẹ, V4-Lite, với 285 tỷ tham số. Mô hình sử dụng cơ chế chú ý DSA2
Xem thêm
02:21

Google phát hành mô hình đa phương thức Gemma 4, hỗ trợ hơn 140 ngôn ngữ

Google đã phát hành mô hình đa phương thức Gemma 4 vào ngày 3 tháng 4, hỗ trợ đầu vào dạng văn bản, hình ảnh và âm thanh, đồng thời tạo ra đầu ra dạng văn bản. Cửa sổ ngữ cảnh của nó có thể chứa 256.000 token, hỗ trợ 140 ngôn ngữ và phù hợp với nhiều môi trường, bao gồm bốn loại mô hình với các quy mô khác nhau.
Xem thêm
02:27

Meituan mở nguồn mô hình chứng minh định lý với 560 tỷ tham số, 72 lần suy luận đạt tỷ lệ thành công 97,1%, thiết lập lại SOTA nguồn mở

Nhóm LongCat của Meituan đã mã nguồn mở LongCat-Flash-Prover vào ngày 21 tháng 3, một mô hình MoE với 5600 tỷ tham số, tập trung vào chứng minh định lý hình thức Lean4. Mô hình được chia thành ba khả năng: hình thức hóa tự động, tạo bản phác thảo và tạo chứng minh hoàn chỉnh, kết hợp các công cụ suy luận với trình biên dịch Lean4 để thực hiện xác minh thời gian thực. Quá trình đào tạo sử dụng Khung lặp Hybrid-Experts và thuật toán HisPO để ngăn chặn gian lận phần thưởng. Các bài kiểm tra tiêu chuẩn cho thấy mô hình này đã thiết lập kỷ lục mới cho các mô hình trọng số mã nguồn mở trong lĩnh vực hình thức hóa tự động và chứng minh định lý.
Xem thêm
08:53

Rakuten phát hành mô hình Rakuten AI 3.0, tệp cấu hình cho thấy kiến trúc cơ bản là DeepSeek V3

Tập đoàn Rakuten ngày 17 tháng 3 đã công bố mô hình AI hiệu suất cao mang tên Rakuten AI 3.0, có 671 tỷ tham số, được tối ưu hóa cho tiếng Nhật, và tuyên bố vượt qua GPT-4o trong nhiều bài kiểm tra chuẩn. Mô hình này được mở mã nguồn miễn phí theo giấy phép Apache 2.0, dựa trên việc tinh chỉnh từ mô hình DeepSeek V3, và nhận được sự hỗ trợ về năng lực huấn luyện từ chính phủ Nhật Bản.
Xem thêm
06:55

Mistral AI phát hành Leanstral: Agent mã nguồn mở Lean 4 đầu tiên, có thể tự động xuất bản chứng minh hình thức

Mistral AI phát hành Leanstral, một mã tác nhân nguồn mở, được thiết kế đặc biệt cho xác minh hóa hình thức Lean 4, có khả năng tạo mã và chứng minh có thể được tự động xác thực. Mô hình sử dụng kiến trúc MoE thưa thớt, hoạt động vượt trội so với các mô hình hàng đầu khác, và cung cấp tải xuống miễn phí và gọi API.
Xem thêm
02:57

Zhipu AI phát hành mô hình GLM-5-Turbo, tốc độ tăng 2-3 lần, giá API tăng 20%

Zhipu AI đã phát hành mô hình GLM-5-Turbo vào ngày 16 tháng 3, như một phiên bản tối ưu hóa tốc độ cao của GLM-5, được tùy chỉnh riêng cho kịch bản OpenClaw agent. Mô hình này nâng cao tốc độ 2 đến 3 lần, hỗ trợ ngữ cảnh 200K và đầu ra tối đa 128K, tối ưu hóa tính ổn định gọi công cụ và các khía cạnh khác. Trong đánh giá, nó thể hiện hiệu suất vượt trội hơn đáng kể so với GLM-5, đồng thời nâng cao giá API và phát hành gói đăng ký cho người dùng cá nhân.
Xem thêm