Новая разработка OpenAI способна клонировать голос на основе 15-секундной записи / Нейросеть

Компания-разработчик ChatGPT, OpenAI, выпустила предварительную версию своего нового голосового движка Voice Engine. Его особенность – возможность синтезировать голос человека на основе 15-секундной аудиозаписи.

Голосом, сгенерированным искусственным интеллектом, можно озвучить любой текст на языке оригинала или даже на нескольких других языках с сохранением оригинального тембра. Примеры работы технологии есть в блоге OpenAI.

Компания видит несколько путей применения технологии: оказание помощи тем людям, кто потерял голос из-за болезни, или для создания аудиокоммуникаций на разных языках, например создания голосовых ассистентов или озвучивания аудиокниг.

Видео дня

В OpenAI рассказали, что Voice Engine находится в разработке с конца 2022. Модель была обучена на "сочетании лицензированных и открытых данных". Но публичного доступа к ней нет – из-за очевидных опасений OpenAI относительно безопасности. Сейчас модель могут опробовать избранные разработчики.

Это не первая подобная технология. В 2023-м стартап ElevenLabs представил ИИ-сервис для клонирования голоса и дубляжа видео на 20 языках.

Стартап OpenAI находится на пороге следующего прорыва в ИИ-технологиях. На лето 2024 года у них запланирован запуск ChatGPT-5, новой версии самого продвинутого чат-бота. ИИ будет способен изучить любую задачу, которую люди смогут придумать.

А ранее в этом году создатели ChatGPT также представили нейросеть для генерации видеороликов по тексту. Главное отличие Sora от похожих моделей заключается в том, что она генерирует целые видео сразу, вместо того, чтобы объединять их покадрово.

Вас также могут заинтересовать новости: