На конференцията за за разработчици Google I/O 2025 интернет компанията обяви нова версия на своя мултимодален модел с изкуствен интелект Gemini 2.5, който вече поддържа генериране на аудио и диалози в реално време. Тези възможности са достъпни за предварителен преглед чрез платформите Google AI Studio и Vertex AI.
Gemini 2.5 Flash Preview поддържа реалистични гласови взаимодействия с изкуствен интелект, включително разпознаване на емоционална реч, адаптация на интонацията и акцента, както и възможност за превключване между повече от 24 езика.
Подобреният AI модел може да игнорира фоновия шум и да използва външни инструменти като “Търсене”, за да извлича подходяща информация по време на диалог, съобщи Google в блог публикация.
В допълнение,
Gemini 2.5 предлага разширени функции за преобразуване на текст в реч (TTS), което позволява на потребителите да контролират стила, темпото и емоционалната изразителност на гласа зад кадър.
AI моделът поддържа също генериране на диалози с множество гласове – функционалност, която прави Gemini подходящ за създаване на подкасти, аудиокниги и други мултимедийни продукти.
За да гарантира прозрачност, цялото аудио, генерирано от AI модела, е маркирано с технологията SynthID, която позволява съдържанието да бъде идентифицирано като създадено от изкуствен интелект.