Google представляет Gemini 3.1 Flash TTS с улучшенным выражением эмоций и возможностями для нескольких спикеров

Сообщение Gate News, 17 апреля — Google представила Gemini 3.1 Flash TTS, усовершенствованную модель преобразования текста в речь с расширенными функциями выражения эмоций и контроля, 15 апреля. Новая модель будет поэтапно внедряться через API для разработчиков, корпоративную платформу Vertex AI и инструменты для совместной работы.

Ключевые возможности модели включают аудиотеги на основе естественного языка для тонкой настройки скорости, интонации и эмоций, а также «Director Mode» для указания сцен и ролей персонажей, чтобы генерировать более нюансированную голосовую подачу. Функция нескольких спикеров позволяет одновременно генерировать диалоги, обеспечивая более естественные сценарии общения, подходящие для подкастов, аудиоконтента и ИИ‑ассистентов. Модель поддерживает более 70 языков и диалектов, отражая региональные акценты и выражения для локализованного голосового опыта по всему миру.

Google подчеркнула производительность и эффективность по стоимости, добившись высоких результатов на бенчмарках слепой оценки людьми, одновременно снижая вычислительные затраты благодаря архитектуре Flash — она предназначена для масштабного корпоративного внедрения. Сгенерированное аудио включает водяной знак SynthID, чтобы идентифицировать контент, сгенерированный ИИ, и бороться с дезинформацией.

Этот шаг отражает усиливающуюся конкуренцию в голосовых интерфейсах. OpenAI объединяет функции реального времени для голоса с разговорным ИИ для взаимодействий, похожих на человеческие, а Meta расширяет инвестиции в ИИ‑персонажей с голосовыми социальными сценариями. Наблюдатели отрасли отмечают, что хотя высокоуровневое актерское мастерство и креативная работа, вероятно, пока останутся в основном ориентированными на людей, повторяющиеся и массовые рынки производства могут постепенно перейти к использованию ИИ в дубляже, рекламе и сегменте аудиокниг.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Nvidia планирует инвестировать до 2,1 миллиарда долларов в компанию IREN, работающую в сфере дата-центров

Согласно Bloomberg Terminal, Nvidia объявила в четверг, что инвестирует до 2,1 миллиарда долларов в разработчика центров обработки данных IREN Ltd. в рамках партнерства, чтобы ускорить строительство инфраструктуры для искусственного интеллекта. IREN предоставила Nvidia пятилетний ордер на покупку до 30 миллионов sh

GateNews2ч назад

CZ заявил, что YZi Labs выделяет 70% на блокчейн и 20% на ИИ на Consensus Miami 2026

Согласно ChainCatcher, на Consensus Miami 2026 Чжао Чанпэн (CZ) заявил, что YZi Labs направляет 70% финансирования на блокчейн, 20% — на ИИ и 10% — на биотехнологии. CZ добавил, что BNB следует позиционировать как нативную валюту для AI-агентов, а все блокчейны должны быть «AI ready», чтобы поддерживать

GateNews8ч назад

Public приобретает приложение Treasury AI-инвестплатформы, чтобы расширить криптоторговлю

По данным ChainCatcher, Public объявила о приобретении платформы для AI-инвестиций Treasury App, чтобы усилить свой брокерский бизнес, ориентированный на ИИ. Сумма сделки не раскрывалась. В настоящее время Public поддерживает торги акциями, облигациями и криптовалютами, включая Bitcoin, Ethereum, а

GateNews9ч назад

Blitzy завершила $200M раунд финансирования при участии Northzone

По данным ChainCatcher, Blitzy — компания по разработке кода с помощью ИИ, сооснователем которой является бывший архитектор Nvidia Сид Пардэши, — завершила раунд финансирования на $200 млн, который возглавила Northzone. В раунде также участвовали Battery Ventures, Jump Capital и Morgan Creek Digital. Платформа может анализировать сложные системы с

GateNews10ч назад

ЕС запрещает порно с дипфейками, сгенерированными с помощью ИИ, 7 мая

Согласно Xinhua News Agency, 7 мая депутаты Европарламента и представители стран ЕС достигли консенсуса о запрете системам искусственного интеллекта генерировать порнографический контент с использованием дипфейков. Запрет будет включён в поправки к Закону об искусственном интеллекте 2024 года. Европейский парламент

GateNews10ч назад

Tether выпустила медицинскую AI-модель QVAC MedPsy и набрала 62,62 балла в версии с 17 млрд параметров

По данным Odaily, Tether AI Research Group выпустила QVAC MedPsy — медицинскую AI-модель, предназначенную для работы локально на смартфонах и носимых устройствах без зависимости от облака. Версия с 1,7 миллиарда параметров набрала 62,62 балла по семи медицинским бенчмаркам, обойдя MedGemma-1.5-4B от Google на 11,42 poi

GateNews10ч назад
комментарий
0/400
Нет комментариев