Pesan Gate News, 20 April — Model AI teratas unggul dalam memecahkan masalah kompleks seperti matematika Olimpiade, tetapi kesulitan pada pekerjaan rutin perusahaan, menurut David Meyer dari Databricks. Beberapa model mungkin memperbaiki nomor faktur yang salah alih-alih menandainya sebagai kesalahan, sementara alat pemrograman seperti Claude juga bisa berkinerja di bawah standar pada tugas rekayasa data.
Kesenjangan ini berasal dari perbedaan mendasar antara data perusahaan dan teks web publik yang digunakan untuk melatih model besar. Data perusahaan sering menampilkan label kolom yang tidak jelas, banyak kolom kosong, dan kode yang disimpan sebagai teks biasa. Dalam satu studi akademis, skor F1 model AI, yang menyeimbangkan precision dan recall, turun dari 0.94 pada data publik menjadi 0.07 pada data perusahaan untuk tugas rekayasa data. Selain itu, model besar cenderung mengandalkan pola yang sudah familiar dari pelatihan; beberapa kembali ke Structured Query Language (SQL) bahkan setelah menerima instruksi dan dokumentasi untuk bahasa kueri proprietari milik sebuah perusahaan.
Model sumber terbuka yang lebih kecil yang disetel dengan reinforcement learning dapat menangani pekerjaan tertentu dengan lebih efisien dengan biaya pelatihan yang jauh lebih rendah dibandingkan model umum skala besar. Databricks sedang membangun agen AI yang lebih kecil untuk alur kerja spesifik, seperti KARL, yang menggunakan reinforcement learning untuk penalaran multi-langkah dengan dokumen perusahaan. Industri bergeser dari mengandalkan model raksasa ke arsitektur hibrida, di mana model kecil yang efisien menangani volume rutin, lalu hanya mengeskalasi kasus yang tidak jelas atau kompleks ke sistem yang lebih besar dan lebih mahal.
Databricks baru-baru ini mengakuisisi Quotient AI untuk membantu perusahaan besar menjalankan agen AI dengan lebih andal. Persaingan di bisnis AI kini berpusat pada menjalankan seluruh siklus hidup AI, termasuk sistem umpan balik untuk melacak kesalahan dan terus meningkatkan model dari waktu ke waktu, sehingga alat evaluasi dan penyetelan semakin bernilai setelah penerapan.
Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke
Penafian.
Artikel Terkait
Virtuals Protocol Meluncurkan OpenGradient Titan Airdrop, Membagikan 500 ribu OPG Hari Ini
Menurut pengumuman resmi Virtuals Protocol, airdrop OpenGradient Titan Launch kini sudah live per 7 Mei. Pengguna yang memenuhi syarat dapat mengklaim token OPG langsung dari akun Virtuals mereka. Sebanyak 500.000 token OPG didistribusikan hari ini untuk memberi penghargaan kepada para kontributor Virtuals
GateNews1jam yang lalu
NVIDIA meluncurkan Nemotron 3 Nano Omni, multimodal sumber terbuka
NVIDIA mengumumkan model multimoda open-source Nemotron 3 Nano Omni, yang mengintegrasikan visual, suara, dan bahasa dalam satu model sebagai lapisan persepsi untuk AI agent. Intinya adalah 30B-A3B MoE, context 256K, dan throughput 9x; mendukung input teks, gambar, audio, video, dan lainnya, dengan output berupa teks. Dipadukan dengan Nemotron 3 Super/Ultra, ditujukan untuk skenario seperti operasi komputer, kecerdasan dokumen, serta pemahaman audio-visual. Bobot dan data pelatihan dipublikasikan, dengan opsi penyebaran mencakup lokal, NIM, dan platform pihak ketiga.
ChainNewsAbmedia1jam yang lalu
NeoSoul dan AllScale Mengumumkan Kemitraan Strategis untuk Kredit Agen dan Penyelesaian Stablecoin Hari Ini
Menurut ChainCatcher, proyek AI Agent Economy NeoSoul mengumumkan kemitraan strategis dengan AllScale hari ini (7 Mei) untuk mengeksplorasi pembentukan kredit dan mekanisme penyelesaian stablecoin bagi kolaborasi otonom antar Agen. Kemitraan ini akan berfokus pada otomatisasi alur pembayaran antar Agen—seperti
GateNews2jam yang lalu
FIS dan Anthropic Mengembangkan Agen AI untuk Anti Pencucian Uang, Akan Diluncurkan ke BMO dan Amalgamated Bank pada H2 2026
FIS dan Anthropic sedang mengembangkan agen AI yang dirancang untuk mengotomatisasi investigasi kejahatan finansial, dimulai dari operasi anti pencucian uang. Agen Financial Crimes AI akan mengambil data dari sistem perbankan, mengevaluasi transaksi terhadap tipologi yang sudah dikenal, dan membantu penyelidik dalam meninjau al
GateNews3jam yang lalu
Prime Intellect Lab Meluncurkan General Availability pada 7 Mei, Menyelesaikan 10.000+ Sesi Pelatihan di Beta
Menurut Prime Intellect, platform Lab perusahaan keluar dari versi beta pada 7 Mei 2026, beralih ke ketersediaan umum sebagai lingkungan pelatihan end-to-end untuk agen AI yang dapat meningkatkan diri. Pipeline terpadu mengonsolidasikan alur kerja peningkatan model, memungkinkan pengguna untuk mendefinisikan tugas, mengonfigurasi
GateNews3jam yang lalu
Cloudflare Memicu 1 Miliar Respons HTTP 402 Harian pada Consensus 2026, Meluncurkan Kerangka Kepercayaan Agen dengan Visa dan Experian
Menurut Foresight News, Chief Strategy Officer (CSO) Cloudflare Stephanie Cohen mengumumkan pada Consensus 2026 bahwa platform tersebut memicu sekitar 1 miliar respons HTTP 402 setiap hari, yang mencerminkan permintaan agen AI akan akses berbayar ke konten web. Perusahaan tersebut, bersama Visa dan Experian, meluncurkan Agent Trust
GateNews6jam yang lalu