Search

Как может выглядеть модель GPT-5

Институт искусственного интеллекта в Аллене представил новую усовершенствованную модель искусственного интеллекта под названием Unified-IO 2. Она может стать прототипом следующего поколения таких моделей, как GPT-5.

Это первая модель, которая может обрабатывать и создавать текст, изображения, аудио, видео и последовательности действий. Модель с 7 миллиардами параметров была обучена с нуля на различных мультимодальных данных и может управляться подсказками.

Unified-IO 2 обучена на миллиардах пар данных

Unified-IO 2 был обучена на 1 миллиарде пар изображение-текст, 1 триллионе текстовых токенов, 180 миллионах видеоклипов, 130 миллионах изображений с текстом, 3 миллионах 3D-ресурсов и 1 миллионе последовательностей роботов-агентов. В общей сложности команда объединила более 120 наборов данных в пакет объемом 600 терабайт, охватывающий 220 визуальных, лингвистических, слуховых и практических задач.

Модель кодера-декодера вносит несколько архитектурных изменений для стабилизации обучения и эффективного использования мультимодальных сигналов, открывая путь для более крупных и мощных мультимодальных моделей.

Реклама. ЧОУ ЧАСТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ДОПОЛНИТЕЛЬНОГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ ОБРАЗОВАТЕЛЬНЫЕ ТЕХНОЛОГИИ СКИЛБОКС (КОРОБКА НАВЫКОВ), ИНН 9704088880, erid: LdtCJzD4K

Чем Unified-IO 2 уникальна 

Обучение позволит Unified-IO 2 обрабатывать, понимать и создавать текст. Например, модель может отвечать на вопросы, составлять текст по инструкциям и анализировать текстовый контент. Модель может распознавать содержимое изображения, предоставлять описания изображений, выполнять задачи по обработке изображений и создавать новые изображения на основе текстовых подсказок.

Она может генерировать музыку или звуки на основе описаний или инструкций, а также анализировать видео и отвечать на вопросы о видео. Обучая данные роботов, Unified-IO 2 также может генерировать действия для роботизированных систем, например, преобразовывать инструкции в последовательности действий для роботов. Благодаря мультимодальному обучению она может обрабатывать различные модальности и, например, отмечать на изображении инструменты звуковой дорожки.

Модель хорошо работает по более чем 35 тестам, включая генерацию и понимание изображений, понимание естественного языка, понимание видео и аудио, а также манипулирование роботами. В большинстве задач она обеспечивает сопоставимую или лучшую производительность, чем специализированные модели. Она также установила новый рекорд в тесте GRIT для задач обработки изображений, который проверяет, как модели справляются с шумом изображения и различными артефактами.

Реклама. ЧОУ ЧАСТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ДОПОЛНИТЕЛЬНОГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ ОБРАЗОВАТЕЛЬНЫЕ ТЕХНОЛОГИИ СКИЛБОКС (КОРОБКА НАВЫКОВ), ИНН 9704088880, erid: LdtCJzD4K

Unified-IO опередила GPT-4.

Опередит ли Unified-IO 2 GPT-5?

Ее предшественница, Unified-IO, была представлен в июне 2022 года и стала одной из первых мультимодальных моделей, способных обрабатывать изображения и язык. Примерно в то же время OpenAI проводила внутреннее тестирование GPT-4 , прежде чем в марте 2023 года компания представила большую языковую модель.

Таким образом, Unified-IO стала предвестником о будущем крупномасштабных моделей искусственного интеллекта, которые теперь стали обычным явлением – модели OpenAI и Gemini от Google . 

Unified-IO 2 теперь показывает, чего мы можем ожидать в 2024 году: новые модели искусственного интеллекта, которые могут обрабатывать еще больше модальностей, выполнять множество задач самостоятельно благодаря масштабному обучению и иметь элементарное понимание взаимодействия с объектами и роботами.