Хотя преобразование текста в изображение существует уже давно, искусственный интеллект для создания видео все еще далек от приемлемых результатов. Преобразование текста в видео предполагает, что пользователи отправляют текст ИИ и видео создается в течение нескольких минут.
Сегодня некоторые приложения могут генерировать видео на основе этих входных данных, но большинство созданных клипов часто содержат стоковые кадры. Часто полученные видео имели проблемы с авторскими правами, которые необходимо было решить.
Фактически, контент, созданный с помощью ИИ, сталкивается с проблемами авторского права, потому что он “съедает” все, в том числе материалы, защищенные авторским правом. Это новая и развивающаяся область, которая создает множество проблем и возможностей для законодательства об интеллектуальной собственности (ИС).
Глядя на видео, созданное искусственным интеллектом, возникает беспокойство по поводу того, что подобные сервисы могут привести к созданию большего количества дипфейков. Хотя технологические компании заверяют, что моделям запрещено создавать такой контент, все же есть те, кто находит способ обойти это.
Реклама. ЧОУ ЧАСТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ДОПОЛНИТЕЛЬНОГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ ОБРАЗОВАТЕЛЬНЫЕ ТЕХНОЛОГИИ СКИЛБОКС (КОРОБКА НАВЫКОВ), ИНН 9704088880, erid: LdtCJzD4K
Инструмент OpenAI Sora для преобразования текста в видео
OpenAI, создатель ChatGPT и генератора изображений DALL-E, сейчас тестирует модель преобразования текста в видео под названием Sora, которая позволит пользователям создавать реалистичные видеоролики с помощью простой подсказки.
Согласно сообщению в блоге OpenAI, новая платформа проходит тестирование. Компания также выпустила несколько видеороликов о том, что, по ее словам, уже возможно.
«Sora может создавать видеоролики продолжительностью до минуты, сохраняя при этом визуальное качество и соответствие указаниям пользователя. Сора способен создавать сложные сцены с несколькими персонажами, определенными типами движения и точными деталями объекта и фона. Модель понимает не только то, что пользователь запросил в командной строке, но и то, как эти вещи существуют в физическом мире», — заявляет компания OpenAI. — «Модель обладает глубоким пониманием языка, что позволяет ей точно интерпретировать подсказки и создавать убедительных персонажей, выражающих яркие эмоции. Сора также может создавать видео, которое точно передает визуальный стиль.»
OpenAI также признала, что текущая модель имеет недостатки. У нее могут возникнуть проблемы с точным моделированием физики сложной сцены, и она может не понимать конкретные случаи причины и следствия. Например, человек может откусить кусочек печенья, но после этого на печенье может не остаться следа от укуса.
«Модель также может путать пространственные детали промтов, например, смешивая лево и право, и может не давать точных описаний событий, которые происходят во времени, например, следуя определенной траектории камеры», — объяснили OpenAI.
Генеральный директор OpenAI Сэм Альтман сообщил, что компания «предлагает доступ ограниченному числу пользователей» на этапе тестирования.
Пример промта и получившееся видео. Взято из поста в X
Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually. the street is damp and reflective, creating a mirror effect of the colorful lights. many pedestrians walk about
Промт: Стильная женщина идет по улице Токио, наполненной теплым светящимся неоном и анимированными вывесками города. она носит черную кожаную куртку, длинное красное платье, черные ботинки и черную сумочку. На ней солнцезащитные очки и красная помада. Она ходит уверенно и непринужденно. Улица влажная и отражается свет, создавая зеркальный эффект разноцветных огней. Много пешеходов вокруг