Meituan mở nguồn LongCat-Video-Avatar 1.5 khung hình người số hóa rút gọn còn 8 bước
Nhóm LongCat của Meituan đã mở mã nguồn LongCat-Video-Avatar 1.5, tái cấu trúc quá trình tạo âm thanh và video để nâng cao độ ổn định không gian-thời gian và tốc độ suy luận. Thay thế wav2vec2 bằng whisper-large-v3, cải thiện đồng bộ khẩu hình và khả năng chống chịu đa ngôn ngữ; thông qua học tăng cường GRPO giảm thiểu các vết giả và lỗi khung hình, tăng tính nhất quán danh tính trong video dài. Áp dụng suy luận cuộn nhiều đoạn và ngữ cảnh trước, DMD2 với 8 bước chưng cất cân bằng giữa hiệu quả và độ trung thực. Khung này có thể tổng quát hóa đến phong cách hoạt hình/động vật, hỗ trợ âm thanh đơn/kép kênh, giấy phép MIT, chủ yếu dành cho mục đích học thuật, vui lòng kiểm tra khi sử dụng thương mại.