6 декабря 2023 года компания Google DeepMind выпустила мультимодальный ИИ Gemini. Он может обрабатывать текст, аудио и изображения одновременно. Его производительность превышает GPT-4.
Gemini была выпущена в трех моделях: «Ultra», «Pro» и «Nano»:
Описание каждой модели приведено ниже.
・Gemini Ultra
Самая большая и наиболее мощная модель для решения самых сложных задач. Планируется, что она станет доступна для широкой аудитории в 2024 году.
・Gemini Pro
Лучшая модель для широкого круга задач. Одновременно с этим объявлением будет добавлен ИИ-чат Google «Bard», обновленный до модели на базе Gemini Pro.
・Gemini Nano
Модель для мобильного устройства. Он доступен для Pixel 8 Pro.
Производительность топ-модели Gemini Ultra показана на рисунке ниже. Она превзошел не только GPT-4, но и экспертов-людей в общем тесте производительности MMLU.
Вот несколько примеров, как Gemini от Google Deepmind справляется с поставленными задачами:
(видео, с которого были сделаны скриншоты было выложено с японскими субтитрами)
«Что ты видишь?» Gemini отвечает: «Я вижу волнистую линию».
Когда мы провел линию и спросили еще раз, ответ изменился на: «Мне кажется, это птица».
Когда мы добавили воду, Gemini ответил, что это утка.
Когда мы покрасили утку в синий цвет, Gemini ответил, что цвет утки – синий.
Поэтому мы достали игрушечную утку и спросили: «Это правда?»
Gemini изменил свое мнение и ответил: «Похоже, голубые утки встречаются чаще, чем я думал».
На вопрос про материал из которого сделана утра, Gemini ответил : «Выглядит как резина или пластик».
Затем мы просим его «придумать игру, основываясь на том, что он видят прямо сейчас».
Gemini ответил смайлами: «Угадай дом для кенгуру, коалы и кораллового рифа»
Когда мы указали на Австралию, Gemini сказал, что мы угадали.
Жесты рук также успешно угадывались.
Мы показывает им два мотка пряжи и просим примеры их поделок. Gemini предложил несколько примеров, в том числе «драконий фрукт» для зеленой и розовой пряжи.
Когда мы подготовили иллюстрацию с развилкой дорог и спросили: «Каким путем нам идти?», Gemini правильно угадал ситуацию и ответили: «Нам следует идти налево».
Когда мы показали иллюстрацию, состоящую только из точек и цифр, Gemini ответил: «Это изображение краба».
Соединив точки линиями в числовом порядке, получилась красивая картинка краба.
Gemini также смог угадать, какая машина быстрее – по форме машины.
На вопрос: «Какие американские горки кажутся более увлекательными?» – Gemini ответил, что вариант который справа
«Придумай подходящую строчку» – Gemini ответил «ВУХУ!».
Когда мы показали иллюстрацию гитары, Gemini начал проигрывать музыку акустической гитары.
При подключении к усилителю музыка поменялась на музыку электрогитары.
Если добавить изображение пальмы, музыка будет звучать как пляжная, на гавайской гитаре.
Когда мы поставили фильм на паузу и спросили: «Что будет дальше?», Gemini смог предсказать будущее, сказав: «Кот собирается запрыгнуть на стенку. Я уверен, что получу высссший балл – 10!» Это очень впечатляет, в том числе шутка в конце ответа!