xAI membuka API audio Grok STT dan TTS, tingkat kesalahan kata keseluruhan STT ditekan hingga 6,9%
Berita ME News melaporkan bahwa xAI meluncurkan dua API audio independen: Grok STT dan Grok TTS, yang berasal dari tumpukan audio yang sama, mendukung Grok Voice, sistem onboard Tesla, dan layanan pelanggan Starlink.
STT menyediakan transkripsi batch melalui REST dan streaming waktu nyata melalui WebSocket, dengan cap waktu tingkat kata, pemisahan pembicara, multi-saluran, dan normalisasi teks terbalik, mencakup lebih dari 25 bahasa; TTS mendukung label internal untuk emosi dan intonasi.
Selain itu, dipublikasikan perbandingan WER, di mana Grok unggul dalam berbagai skenario, belum ada pengujian ulang dari pihak ketiga.
Harga: STT batch $0,10 per jam, streaming $0,20 per jam, TTS $4,20 per juta karakter.
STT menyediakan transkripsi batch melalui REST dan streaming waktu nyata melalui WebSocket, dengan cap waktu tingkat kata, pemisahan pembicara, multi-saluran, dan normalisasi teks terbalik, mencakup lebih dari 25 bahasa; TTS mendukung label internal untuk emosi dan intonasi.
Selain itu, dipublikasikan perbandingan WER, di mana Grok unggul dalam berbagai skenario, belum ada pengujian ulang dari pihak ketiga.
Harga: STT batch $0,10 per jam, streaming $0,20 per jam, TTS $4,20 per juta karakter.