По задумке создателей, новый сервис будут использовать прежде всего для создания фоновой музыки для подкастов или видео.
Компания Stability AI, разработавшая одну из самых популярных в мире нейросетей для генерации изображений по текстовому запросу – Stable Diffusion – запустила новый сервис, который может преобразовывать текст в песни или фоновое аудио. Он называется Stable Audio.
Сервис использует самую последнюю модель Stable Diffusion XL. Но ее учили не на картинках, а на большом массиве аудиофайлов – музыке, звуковых эффектах и звучании отдельных музыкальных инструментов. Примеры работы нейросети есть на сайте Stability AI.
В отличие от большинства схожих моделей, которые преобразует текст в аудио, Stable Audio способна генерировать музыкальные треки разной продолжительности, без фиксированной длины. Таким образом у создателей есть больше контроля над тем, насколько длинной будет композиция.
Для регистрации в веб-сервисе Stable Audio понадобится только адрес электронной почты. Чтобы преобразить текст в песни или фоновое аудио, пользователю достаточно ввести текстовое описание желаемого результата, а также указать продолжительность трека.
Недавно компания HeyGen презентовала нейросеть, которая может автоматически переводить слова людей на видео на другие языки и соответственно подстраивать их мимику. Нейросеть уже завирусилась среди украинских пользователей, которые принялись переводить популярные украинские видеомемы на разные языки.
А до этого среди украинских пользователей "завирусилась" нейросеть, которая делает из вас героя аниме. Несмотря на то, что весь интерфейс на китайском, сервис максимально прост в использовании.