Новый искусственный интеллект OpenAI cможет моделировать целые миры

Этот ИИ самостоятельно изучает трехмерное пространство

На этой неделе OpenAI представила свой новый искусственный интеллект для преобразования текста в фотореалистичное видео под названием Sora.

Компания продемонстрировала несколько реалистичных видеороликов:

Это значительный скачок для технологии генеративного искусственного интеллекта. Фактически, OpenAI уже называет Sora «симулятором мира», способным понимать важные аспекты физического окружения, будь то вывод CGI-сцены или видео человека, идущего по улице.

«Наши результаты показывают, что масштабирование моделей генерации видео — это перспективный путь к созданию универсальных симуляторов физического мира», — написали в компании.

«Sora изучает трехмерную геометрию и согласованность», —  сообщил один из разработчиков Sora. «Мы не учитывали этот фактор — он просто возник в результате просмотра огромного количества видео для обучения нейросети».

Грубо говоря, Sora — это естественная эволюция модели диффузионного генератора, которая до сих пор в основном использовалась для создания изображений высокого разрешения с помощью искусственного интеллекта. Проще говоря, модели диффузии работают путем постепенного добавления шума к исходному изображению, а затем обучаются тому, как удалить этот шум, создавая тем самым новые кадры для видео.

Чтобы обучить Sora, OpenAI скормил нейросети огромное количество видео с подсказками, чтобы установить связь между видео и вводом текста.

Помимо создания совершенно новых кадров на основе подсказок, Сора также может расширять существующие клипы или превращать изображения, созданные ИИ, в видео.

При разработке Sora OpenAI отметили интересные новых возможностей при масштабном обучении. Согласно документации компании, Sora может «имитировать некоторые особенности людей, животных и окружающей среды из физического мира.

Созданные видеоролики показывают, что Sora может создавать кадры с динамичными и плавными перемещениями камеры, панорамированием,  масштабированием, демонстрируя базовое понимания трехмерного пространства. Эта технология вполне может быть внедрена при разработке игр.

В то же время, нейросеть Sora далека от совершенства.

Во-первых, модель до сих пор не до конца понимает причину и следствие. «человек может откусить печенье, но после этого на печенье может не остаться следа от укуса», — пишет компания. В другом ролике показано, как из стеклянной чашки вытекает содержимое, но она не разбивается.

 

Sora может стать первым шагом в будущее, в котором видео созданное искусственным интеллектом станет невозможно отличить от реального.