Мимикрия синтеза речи от AudioLM. Нейросеть допишет и озвучит текст.

Новый искусственный интеллект Google AudioLM может услышать отрывок из песни, а затем продолжить воспроизведение

AudioLM, разработанный исследователями Google, генерирует звук, который соответствует стилю подсказки, включая сложные звуки, такие как фортепианная музыка или говорящие люди, таким образом, что он почти неотличим от оригинальной записи. Этот метод обещает ускорить процесс обучения ИИ генерированию звука, и в конечном итоге его можно будет использовать для автоматического создания музыки для сопровождения видео.

В сети уже выложены демо-результаты данного ИИ.

Звук, генерируемый искусственным интеллектом, является обычным явлением: голоса домашних помощников, таких как Alexa, используют обработку естественного языка. Музыкальные системы искусственного интеллекта, такие как Jukebox от OpenAI, уже показали впечатляющие результаты, но для большинства существующих методов требуются люди для подготовки транскрипций и маркировки текстовых обучающих данных, что требует много времени и человеческого труда. Jukebox, например, использует текстовые данные для создания текстов песен.

AudioLM, описанный в статье, отличается: он не требует транскрипции или маркировки. Вместо этого в программу загружаются звуковые базы данных, а машинное обучение используется для сжатия аудиофайлов в звуковые фрагменты, называемые «токенами», без потери значимого количества информации. Затем эти токенизированные обучающие данные передаются в модель машинного обучения, которая использует обработку естественного языка для изучения звуковых паттернов.

Для получения результата исходные данные (запись звука) подаются в AudioLM, который затем предсказывает, что будет дальше. Этот процесс похож на то, как языковые модели, такие как GPT-3, предсказывают, какие предложения и слова обычно следуют друг за другом.

Демо-записи , выпущенные командой, звучат довольно натурально. В частности, фортепианная музыка, созданная с помощью AudioLM, звучит более плавно, чем фортепианная музыка, созданная с использованием других методов искусственного интеллекта, которые звучать хаотично.

AudioLM не ограничивается только музыкой. Поскольку нейросеть была обучена на библиотеке записей человеческих высказываний, система может генерировать речь, которая продолжается с акцентом и интонацией оригинального говорящего, хотя полученный результат все еще может казаться нелогичными, не имеющими никакого смысла. AudioLM обучен узнавать, какие типы звуковых фрагментов часто встречаются вместе, и использует обратный процесс для создания вариантов. Он также имеет то преимущество, что может выучить паузы и восклицания, присущие разговорной речи, но не переводимые в текст.

Перспективы AudioLM

Музыку, созданную искусственным интеллектом, можно будет использовать для создания фоновых саундтреков к видео или слайд-шоу. Технология генерации речи может помочь улучшить инструменты доступа в Интернет и ботов, которые работают в государственных учреждениях. Команда Google также надеется создать более сложные звуки, например, имитирующие запись тропического леса.

Однако необходимо учитывать этические последствия технологии. Генерируемая искусственным интеллектом речь, неотличимая от реальной, может стать настолько убедительной, что упростит распространение дезинформации.