Google Gemini: полный разбор модели, которая превзошла GPT-4

> Спикер: TheAIGRID | Длительность: 30:43

Ключевые идеи

1. Мультимодальность «с нуля» — Gemini обучена работать со всеми модальностями одновременно (текст, код, аудио, изображения, видео), в отличие от традиционного подхода склейки отдельных моделей.

2. Три размера для разных задач — Ultra (максимальная мощность), Pro (баланс для широкого спектра задач), Nano (работа на мобильных устройствах). Каждая — лучшая в своём классе.

3. Превосходство над GPT-4 в 7 из 8 бенчмарков — MMLU: 90% vs 86.4%, HumanEval (код): 74.4% vs 67%, GSM8K (математика): 94.4% vs 92%. Единственное исключение — HellaSwag.

4. Абсолютное лидерство в мультимодальных тестах — Gemini Ultra опередила GPT-4V во всех тестах изображений. Gemini Pro превзошла OpenAI Whisper V2/V3 в аудио.

5. Генерация интерфейсов на лету — модель сама решает, нужен ли UI, пишет PRD, проектирует UX, генерирует Flutter-код и подбирает данные.

6. 32K токенов контекста с 98% точностью — модель точно извлекает информацию по всей длине контекстного окна.

7. Нативный анализ видео — уникальная функция, недоступная в GPT-4. Модель анализирует технику движений, находит ошибки, предлагает улучшения.

8. 200 000 научных статей за обеденный перерыв — учёные DeepMind автоматизировали литературный обзор: фильтрация, извлечение данных, аннотации, обновление графиков.

9. Персональный репетитор — модель читает рукописные ответы, находит ошибки, объясняет пошагово и генерирует персональные задачи.

10. Консистентная генерация изображений — создание блог-постов с визуально согласованными иллюстрациями.

11. Будущее: робототехника + обучение с подкреплением — интеграция с робототехникой и применение технологий AlphaGo для улучшения планирования и рассуждений.

Транскрипт

Анонс эры Gemini

Сундар Пичаи и команда Google DeepMind представили Gemini — первую по-настоящему мультимодальную ИИ-модель. Ключевое отличие от конкурентов: Gemini обучена работать со всеми типами данных одновременно, а не является склейкой отдельных моделей для текста, изображений и аудио.

Модель выпущена в трёх размерах: Ultra для сложнейших задач, Pro для повседневного использования, Nano для мобильных устройств. Google подчёркивает, что безопасность встроена в модель на уровне архитектуры — фильтры, классификаторы и политики модерации разработаны для мультимодального контента.

Демонстрация мультимодальных возможностей

В живой демонстрации Gemini анализирует объекты в реальном времени: распознаёт рисунки по мере их создания, идентифицирует материалы по звуку (резиновая уточка скрипит — значит, будет плавать), обучает произношению на мандаринском, играет в игры на угадывание и анализирует фокусы с монетами.

Модель демонстрирует пространственное мышление: определяет, какой автомобиль быстрее по аэродинамике дизайна, какие американские горки веселее, и даже распознаёт сцену из «Матрицы» в пантомиме.

Бенчмарки: цифры превосходства

Gemini Ultra обошла GPT-4 в 7 из 8 общих бенчмарков и во всех мультимодальных тестах. Ключевые результаты:
MMLU (общие знания): 90.0% vs 86.4%
HumanEval (код): 74.4% vs 67.0%
GSM8K (математика): 94.4% vs 92.0%
Аудио: Gemini Pro > Whisper V2 и V3
Видео: 62.7% vs 56.0% (Flamingo)

Продвинутые рассуждения и генерация интерфейсов

Одна из самых впечатляющих функций — Gemini сама создаёт интерактивные интерфейсы. На примере организации детского дня рождения: модель задаёт уточняющие вопросы, затем генерирует полноценное приложение с темами вечеринок, меню, декором. Каждый клик генерирует новый UI-компонент.

Технический процесс: модель определяет необходимость UI → оценивает достаточность информации → пишет PRD → проектирует UX → генерирует Flutter-код → подбирает данные и изображения.

Образование и научные исследования

Gemini проверяет домашние задания: читает рукописные ответы, находит ошибки в формулах и расчётах, объясняет правильное решение пошагово и генерирует персональные тренировочные задачи.

Для науки: команда DeepMind обработала 200 000 статей по генетике за обеденный перерыв. Модель отфильтровала 250 релевантных, извлекла данные с аннотациями и обновила графики из оригинального исследования 2022 года.

Технический отчёт

Контекстное окно: 32 768 токенов. Точность извлечения информации — 98% по всей длине. Модель интегрирует AlphaCode 2 для генерации кода с поиском и планированием.

Уникальные функции: интерливинг изображений и текста с консистентностью персонажей, анализ графиков с извлечением данных в таблицы, анализ видео с конкретными рекомендациями.

Будущее Gemini

Демис Хассабис анонсировал интеграцию Gemini с робототехникой (тактильная обратная связь) и применение обучения с подкреплением из AlphaGo для улучшения планирования. Ключевое слово — «инновации», а не просто «улучшения», что означает появление принципиально новых возможностей.

Практические задания

Задание 1: Сравнительный анализ мультимодальных возможностей
Возьмите одно изображение и отправьте его в Gemini и ChatGPT-4V с одинаковым вопросом. Сравните ответы по точности, глубине и практичности. Запишите результаты в таблицу.

Задание 2: Тестирование понимания графиков
Найдите график с известными данными, загрузите скриншот в Gemini и попросите извлечь данные в таблицу. Сравните с оригиналом и оцените процент ошибок.

Задание 3: ИИ-репетитор для проверки знаний
Сфотографируйте решённые задачи (с намеренными ошибками), загрузите в Gemini и попросите проверить. Оцените, все ли ошибки найдены и насколько понятны объяснения.

Задание 4: Прототипирование через ИИ
Опишите Gemini одностраничное веб-приложение для вашей задачи. Проверьте код в браузере. Запишите количество итераций до рабочего прототипа.

Задание 5: Анализ видеоконтента
Загрузите короткое видео с физической активностью и попросите Gemini проанализировать технику. Сравните с советами профессионала.

Задание 6: Автоматизация литературного обзора
Соберите 5-10 статей по профессиональной теме, создайте промпт для фильтрации и извлечения данных по образцу из видео. Оцените экономию времени.

Лучшие цитаты

> «Мы всегда знали, что нам нужен более глубокий прорыв для прогресса» — Сундар Пичаи

> «Gemini мультимодальна с самого начала — она может бесшовно вести разговор между модальностями» — Google DeepMind

> «В каждой из 50 предметных областей модель показала результат на уровне лучших экспертов-людей» — Google DeepMind

> «Безопасность и ответственность должны быть встроены с самого начала» — Google DeepMind

> «Gemini Ultra превосходит GPT-4 в семи из восьми категорий, что делает её лучшей большой языковой моделью прямо сейчас» — TheAIGRID

> «За обеденный перерыв Gemini прочитала для нас 200 000 статей, отфильтровала до 250 и извлекла данные» — Тейлор, Google DeepMind

> «У нас есть одни из лучших в мире экспертов по обучению с подкреплением, которые изобрели многие из этих технологий» — Демис Хассабис

> «В Google существует здоровое неуважение к невозможному» — Google

> «Он сказал не «мы улучшим модели», а «мы сделаем инновации» — это значит, что мы увидим что-то принципиально новое» — TheAIGRID