Новая модель Google DeepMind научилась создавать простые 2D-платформеры с нуля

Нейросеть научилась управлять играми, просматривая много часов видео. Пришло время создавать собственные.

 Google DeepMind предлагает нам игры, преобразующие текст в видео .

Новая модель под названием Genie может взять краткий промпт, нарисованный от руки эскиз или фотографию и превратить это в видеоигру в стиле классических 2D-платформеров, таких как Super Mario Bros. Получившиеся игры работают со скоростью один кадр в секунду по сравнению с типичными 30–60 кадрами в современных играх.

Genie обучалась на 30 000 часах видео из нескольких сотен 2D-платформеров. Модель изучила планировку уровней и правила игры, представленные в коде. 

Genie узнала, какое из восьми возможных действий заставит игрового персонажа в видео изменить свое положение. Он генерирует каждый новый кадр игры на лету в зависимости от действий, предпринимаемых игроком. Нажмите «Прыжок», и Genie обновит текущее изображение, чтобы показать прыгающего игрового персонажа; нажмите «Влево», и изображение изменится, показывая символ, перемещенный влево. Игра развивается действие за действием, каждый новый кадр генерируется с нуля по мере игры. 

Будущие версии Genie могут работать быстрее. «Нет фундаментального ограничения, которое мешало бы нам достичь 30 кадров в секунду», — говорит  научный сотрудник Google DeepMind, который возглавляет команду, стоящую за этой работой. «Genie использует многие из тех же технологий, что и современные модели большого языка, где достигнут значительный прогресс в улучшении скорости вывода». 

Хотя Genie является исследовательским проектом и не будет выпущен, команда Google DeepMind утверждает, что однажды его можно превратить в инструмент для создания игр — над этим они тоже работают.