На этой неделе OpenAI представила свой новый искусственный интеллект для преобразования текста в фотореалистичное видео под названием Sora.
Компания продемонстрировала несколько реалистичных видеороликов:
Это значительный скачок для технологии генеративного искусственного интеллекта. Фактически, OpenAI уже называет Sora «симулятором мира», способным понимать важные аспекты физического окружения, будь то вывод CGI-сцены или видео человека, идущего по улице.
«Наши результаты показывают, что масштабирование моделей генерации видео — это перспективный путь к созданию универсальных симуляторов физического мира», — написали в компании.
«Sora изучает трехмерную геометрию и согласованность», — сообщил один из разработчиков Sora. «Мы не учитывали этот фактор — он просто возник в результате просмотра огромного количества видео для обучения нейросети».
Грубо говоря, Sora — это естественная эволюция модели диффузионного генератора, которая до сих пор в основном использовалась для создания изображений высокого разрешения с помощью искусственного интеллекта. Проще говоря, модели диффузии работают путем постепенного добавления шума к исходному изображению, а затем обучаются тому, как удалить этот шум, создавая тем самым новые кадры для видео.
Чтобы обучить Sora, OpenAI скормил нейросети огромное количество видео с подсказками, чтобы установить связь между видео и вводом текста.
Помимо создания совершенно новых кадров на основе подсказок, Сора также может расширять существующие клипы или превращать изображения, созданные ИИ, в видео.
При разработке Sora OpenAI отметили интересные новых возможностей при масштабном обучении. Согласно документации компании, Sora может «имитировать некоторые особенности людей, животных и окружающей среды из физического мира.
Созданные видеоролики показывают, что Sora может создавать кадры с динамичными и плавными перемещениями камеры, панорамированием, масштабированием, демонстрируя базовое понимания трехмерного пространства. Эта технология вполне может быть внедрена при разработке игр.
В то же время, нейросеть Sora далека от совершенства.
Во-первых, модель до сих пор не до конца понимает причину и следствие. «человек может откусить печенье, но после этого на печенье может не остаться следа от укуса», — пишет компания. В другом ролике показано, как из стеклянной чашки вытекает содержимое, но она не разбивается.
Sora может стать первым шагом в будущее, в котором видео созданное искусственным интеллектом станет невозможно отличить от реального.