Gemini – новый искусственный интеллект от Google DeepMind, который превосходит GPT-4 во всем

Gemini сможет обрабатывать текст, голос и изображения одновременно и общаться так же естественно, как настоящий человек

6 декабря 2023 года компания Google DeepMind выпустила мультимодальный ИИ Gemini. Он может обрабатывать текст, аудио и изображения одновременно. Его производительность превышает GPT-4.

Gemini была выпущена в трех моделях: «Ultra», «Pro» и «Nano»:

Описание каждой модели приведено ниже.

・Gemini Ultra
Самая большая и наиболее мощная модель для решения самых сложных задач. Планируется, что она станет доступна для широкой аудитории в 2024 году.

・Gemini Pro
Лучшая модель для широкого круга задач. Одновременно с этим объявлением будет добавлен ИИ-чат Google «Bard», обновленный до модели на базе Gemini Pro.

・Gemini Nano
Модель для мобильного устройства. Он доступен для Pixel 8 Pro.

Производительность топ-модели Gemini Ultra показана на рисунке ниже. Она превзошел не только GPT-4, но и экспертов-людей в общем тесте производительности MMLU.

 

Вот несколько примеров, как Gemini от Google Deepmind справляется с поставленными задачами:

(видео, с которого были сделаны скриншоты было выложено с японскими субтитрами)

«Что ты видишь?» Gemini отвечает: «Я вижу волнистую линию».

Когда мы провел линию и спросили еще раз, ответ изменился на: «Мне кажется, это птица».

Когда мы добавили воду, Gemini ответил, что это утка.

Когда мы покрасили утку в синий цвет, Gemini ответил, что цвет утки – синий.

 

Поэтому мы достали игрушечную утку и спросили: «Это правда?»

 

Gemini изменил свое мнение и ответил: «Похоже, голубые утки встречаются чаще, чем я думал».

 

На вопрос про материал из которого сделана утра, Gemini ответил : «Выглядит как резина или пластик». 

 

 

Затем мы просим его «придумать игру, основываясь на том, что он видят прямо сейчас».

 

Gemini ответил смайлами: «Угадай дом для кенгуру, коалы и кораллового рифа»

 

Когда мы указали на Австралию, Gemini сказал, что мы угадали.

 

Жесты рук также успешно угадывались.

 

Мы показывает им два мотка пряжи и просим примеры их поделок. Gemini предложил несколько примеров, в том числе «драконий фрукт» для зеленой и розовой пряжи.

 

Когда мы подготовили иллюстрацию с развилкой дорог и спросили: «Каким путем нам идти?», Gemini правильно угадал ситуацию и ответили: «Нам следует идти налево».

 

Когда мы показали иллюстрацию, состоящую только из точек и цифр, Gemini ответил: «Это изображение краба».

 

Соединив точки линиями в числовом порядке, получилась красивая картинка краба.

 

Gemini также смог угадать, какая машина быстрее – по форме машины.

 

На вопрос: «Какие американские горки кажутся более увлекательными?» – Gemini ответил, что вариант который справа

 

 «Придумай подходящую строчку» – Gemini ответил «ВУХУ!».

 

Когда мы показали иллюстрацию гитары, Gemini начал проигрывать музыку акустической гитары.

 

При подключении к усилителю музыка поменялась на музыку электрогитары.

 

Если добавить изображение пальмы, музыка будет звучать как пляжная, на гавайской гитаре.

 

Когда мы поставили фильм на паузу и спросили: «Что будет дальше?», Gemini смог предсказать будущее, сказав: «Кот собирается запрыгнуть на стенку. Я уверен, что получу высссший балл – 10!» Это очень впечатляет, в том числе шутка в конце ответа!