Вы прочитали 2 из 3 бесплатных методичек сегодня

📖 Методичка 💡 Тезисы (11) ✅ Задания (6) 💬 Цитаты (9) 🔗 Похожие

Экстракт 06 декабря 2023

Google Gemini: полный разбор модели, которая превзошла GPT-4

TheAIGRID · TheAIGRID Верифицирован 30:43

Детальный разбор Google Gemini — первой по-настоящему мультимодальной ИИ-модели, превзошедшей GPT-4 в 7 из 8 бенчмарков. Архитектура, возможности, технический отчёт и будущее.

11 тезисов 6 заданий 9 цитат ⏱ 4 мин чтения 🎯 11 тезисов

YouTube Транскрипт Сохранить

Для AI-агентов и LLM

Экстракт доступен в структурированном Markdown. Скачать .md · JSON API · Site index

💡 Ключевые тезисы (11)

1 Gemini — мультимодальная модель «с нуля», а не склейка отдельных систем #

В отличие от предыдущих подходов, где текстовые, визуальные и аудио-модели объединялись на вторичном этапе, Gemini изначально обучена работать со всеми модальностями одновременно. Это позволяет ей бесшовно переключаться между текстом, кодом, аудио, изображениями и видео в рамках одного разговора.

2 Три размера модели для разных задач: Ultra, Pro, Nano #

Google выпустила семейство моделей: Ultra — самая мощная для сложных задач, Pro — оптимальный баланс для широкого спектра задач, Nano — эффективная модель для работы на мобильных устройствах. Каждая из них является лучшей в своём классе.

3 Gemini Ultra превосходит GPT-4 в 7 из 8 бенчмарков #

На тесте MMLU Gemini Ultra набрала 90% против 86.4% у GPT-4. В кодировании (HumanEval) — 74.4% против 67%. В математике — 53.2% против 52.9%. Единственная категория, где GPT-4 удержала лидерство — HellaSwag.

4 Абсолютное превосходство в мультимодальных бенчмарках #

Во всех мультимодальных тестах — распознавание изображений, видео, аудио — Gemini Ultra превзошла GPT-4V. В аудио даже Gemini Pro превосходит OpenAI Whisper V2 и V3, что демонстрирует глубину мультимодальных возможностей.

5 Генерация интерфейсов на лету по запросу пользователя #

Gemini способна не просто отвечать текстом, а создавать полноценные интерактивные интерфейсы. Модель сама решает, нужен ли UI, пишет PRD (документ требований), проектирует UX-путь, генерирует Flutter-код и подбирает данные — всё за один запрос.

6 Контекстное окно 32K токенов с 98% точностью извлечения #

Gemini обрабатывает последовательности до 32 768 токенов. На синтетических тестах извлечения ключ-значение модель показала 98% точность по всей длине контекста, что значительно превосходит модели с короткими окнами.

7 Анализ видео как нативная функция #

В отличие от GPT-4, который не поддерживает видео, Gemini принимает видео как прямой вход. Модель анализирует технику футболиста, замечает ошибки в позиционировании тела и предлагает конкретные улучшения — пример глубокого понимания видеоконтента.

8 Обработка 200 000 научных статей за обеденный перерыв #

Учёные Google DeepMind использовали Gemini для фильтрации 200 000 научных публикаций, выделения 250 релевантных и извлечения данных с аннотациями. Работа, которая заняла бы месяцы ручного труда, была выполнена за минуты.

9 Gemini как инструмент для образования с персонализацией #

Модель читает рукописные ответы учеников, определяет правильные и неправильные решения, объясняет ошибки пошагово и генерирует персональные тренировочные задачи. Это превращает ИИ в индивидуального репетитора.

10 Консистентная генерация изображений в контексте текста #

Gemini генерирует блог-посты с картинками, где один и тот же персонаж (например, собака) сохраняет визуальную консистентность на разных фото — функция, недоступная в GPT-4.

11 Будущее Gemini — робототехника и обучение с подкреплением #

Демис Хассабис заявил, что Google DeepMind работает над интеграцией Gemini с робототехникой, включая тактильную обратную связь. Технологии AlphaGo (поиск и планирование) будут применены для улучшения рассуждений в будущих версиях модели.

Google Gemini: полный разбор модели, которая превзошла GPT-4

Спикер: TheAIGRID | Длительность: 30:43

Транскрипт

Анонс эры Gemini

Сундар Пичаи и команда Google DeepMind представили Gemini — первую по-настоящему мультимодальную ИИ-модель. Ключевое отличие от конкурентов: Gemini обучена работать со всеми типами данных одновременно, а не является склейкой отдельных моделей для текста, изображений и аудио.

Модель выпущена в трёх размерах: Ultra для сложнейших задач, Pro для повседневного использования, Nano для мобильных устройств. Google подчёркивает, что безопасность встроена в модель на уровне архитектуры — фильтры, классификаторы и политики модерации разработаны для мультимодального контента.

Демонстрация мультимодальных возможностей

В живой демонстрации Gemini анализирует объекты в реальном времени: распознаёт рисунки по мере их создания, идентифицирует материалы по звуку (резиновая уточка скрипит — значит, будет плавать), обучает произношению на мандаринском, играет в игры на угадывание и анализирует фокусы с монетами.

Модель демонстрирует пространственное мышление: определяет, какой автомобиль быстрее по аэродинамике дизайна, какие американские горки веселее, и даже распознаёт сцену из «Матрицы» в пантомиме.

Бенчмарки: цифры превосходства

Gemini Ultra обошла GPT-4 в 7 из 8 общих бенчмарков и во всех мультимодальных тестах. Ключевые результаты:

MMLU (общие знания): 90.0% vs 86.4%
HumanEval (код): 74.4% vs 67.0%
GSM8K (математика): 94.4% vs 92.0%
Аудио: Gemini Pro > Whisper V2 и V3
Видео: 62.7% vs 56.0% (Flamingo)

Продвинутые рассуждения и генерация интерфейсов

Одна из самых впечатляющих функций — Gemini сама создаёт интерактивные интерфейсы. На примере организации детского дня рождения: модель задаёт уточняющие вопросы, затем генерирует полноценное приложение с темами вечеринок, меню, декором. Каждый клик генерирует новый UI-компонент.

Технический процесс: модель определяет необходимость UI → оценивает достаточность информации → пишет PRD → проектирует UX → генерирует Flutter-код → подбирает данные и изображения.

Образование и научные исследования

Gemini проверяет домашние задания: читает рукописные ответы, находит ошибки в формулах и расчётах, объясняет правильное решение пошагово и генерирует персональные тренировочные задачи.

Для науки: команда DeepMind обработала 200 000 статей по генетике за обеденный перерыв. Модель отфильтровала 250 релевантных, извлекла данные с аннотациями и обновила графики из оригинального исследования 2022 года.

Технический отчёт

Контекстное окно: 32 768 токенов. Точность извлечения информации — 98% по всей длине. Модель интегрирует AlphaCode 2 для генерации кода с поиском и планированием.

Уникальные функции: интерливинг изображений и текста с консистентностью персонажей, анализ графиков с извлечением данных в таблицы, анализ видео с конкретными рекомендациями.

Будущее Gemini

Демис Хассабис анонсировал интеграцию Gemini с робототехникой (тактильная обратная связь) и применение обучения с подкреплением из AlphaGo для улучшения планирования. Ключевое слово — «инновации», а не просто «улучшения», что означает появление принципиально новых возможностей.

Практические задания

Задание 1: Сравнительный анализ мультимодальных возможностей

Возьмите одно изображение и отправьте его в Gemini и ChatGPT-4V с одинаковым вопросом. Сравните ответы по точности, глубине и практичности. Запишите результаты в таблицу.

Задание 2: Тестирование понимания графиков

Найдите график с известными данными, загрузите скриншот в Gemini и попросите извлечь данные в таблицу. Сравните с оригиналом и оцените процент ошибок.

Задание 3: ИИ-репетитор для проверки знаний

Сфотографируйте решённые задачи (с намеренными ошибками), загрузите в Gemini и попросите проверить. Оцените, все ли ошибки найдены и насколько понятны объяснения.

Задание 4: Прототипирование через ИИ

Опишите Gemini одностраничное веб-приложение для вашей задачи. Проверьте код в браузере. Запишите количество итераций до рабочего прототипа.

Задание 5: Анализ видеоконтента

Загрузите короткое видео с физической активностью и попросите Gemini проанализировать технику. Сравните с советами профессионала.

Задание 6: Автоматизация литературного обзора

Соберите 5-10 статей по профессиональной теме, создайте промпт для фильтрации и извлечения данных по образцу из видео. Оцените экономию времени.

Лучшие цитаты

«Мы всегда знали, что нам нужен более глубокий прорыв для прогресса» — Сундар Пичаи

«Gemini мультимодальна с самого начала — она может бесшовно вести разговор между модальностями» — Google DeepMind

«В каждой из 50 предметных областей модель показала результат на уровне лучших экспертов-людей» — Google DeepMind

«Безопасность и ответственность должны быть встроены с самого начала» — Google DeepMind

«Gemini Ultra превосходит GPT-4 в семи из восьми категорий, что делает её лучшей большой языковой моделью прямо сейчас» — TheAIGRID

«За обеденный перерыв Gemini прочитала для нас 200 000 статей, отфильтровала до 250 и извлекла данные» — Тейлор, Google DeepMind

«У нас есть одни из лучших в мире экспертов по обучению с подкреплением, которые изобрели многие из этих технологий» — Демис Хассабис

«В Google существует здоровое неуважение к невозможному» — Google

«Он сказал не «мы улучшим модели», а «мы сделаем инновации» — это значит, что мы увидим что-то принципиально новое» — TheAIGRID

🏋️ Практикум

0 / 6 выполнено

Сравнительный анализ мультимодальных возможностей

Возьмите одно и то же изображение (фото рабочего стола, блюда или растения) и отправьте его в Google Bard (Gemini Pro) и ChatGPT-4V. Задайте одинаковый вопрос: «Что ты видишь? Опиши детально и дай рекомендации». Запишите ответы в таблицу: точность распознавания, глубина рекомендаций, полезность. Определите, какая модель дала более практичный результат.

Тестирование понимания графиков и данных

Найдите любой график с открытыми данными (например, из отчёта Statista или World Bank). Сделайте скриншот и загрузите в Gemini с запросом: «Какой ключевой вывод из этого графика? Создай таблицу с данными в Markdown». Оцените точность извлечённых данных, сравнив с оригиналом. Запишите процент ошибок.

Создание образовательного контента с помощью ИИ

Сфотографируйте страницу учебника или рабочую тетрадь с решёнными задачами (можно намеренно допустить ошибки). Загрузите в Gemini и попросите: «Проверь решения, найди ошибки и объясни правильный подход пошагово». Оцените, насколько объяснение понятно для целевой аудитории (школьника, студента). Запишите, какие ошибки модель нашла, а какие пропустила.

Прототипирование интерфейса через ИИ

Опишите Gemini задачу: «Создай одностраничное HTML-приложение для [ваша задача: трекер привычек, таймер Помодоро, калькулятор калорий]. Весь код в одном файле, без внешних библиотек. Адаптивный дизайн». Проверьте, работает ли сгенерированный код. Запишите, сколько итераций потребовалось до рабочего прототипа.

Оценка видеоанализа на практическом примере

Запишите короткое видео (10-30 секунд) выполнения физического упражнения, приготовления блюда или работы с инструментом. Загрузите в Gemini с вопросом: «Что я делаю неправильно? Как улучшить технику?». Сравните ответ модели с советами профессионала из YouTube по этой же теме. Определите, насколько точен и полезен ИИ-анализ.

Построение рабочего процесса анализа литературы

Выберите узкую тему из своей профессиональной области. Соберите 5-10 PDF-статей. Составьте промпт по образцу из видео: «Прочитай статью и определи, релевантна ли она теме [X]. Если да — извлеки ключевые данные: [перечень полей]». Обработайте все статьи и создайте сводную таблицу. Оцените, сколько времени это сэкономило по сравнению с ручным анализом.

🎉

Все задания выполнены!

Отлично — знания превращены в навыки

💬 Цитаты (9)

«Мы всегда знали, что нам нужен более глубокий прорыв для прогресса (We always knew we needed to have a deeper breakthrough to make progress)» #

— Сундар Пичаи

«Gemini мультимодальна с самого начала — она может бесшовно вести разговор между модальностями (Gemini is multimodal from the ground up so it can seamlessly have a conversation across modalities)» #

— Google DeepMind

«В каждой из 50 предметных областей модель показала результат на уровне лучших экспертов-людей (Each of the 50 different subject areas that we tested on — it's as good as the best expert humans in those areas)» #

— Google DeepMind

«Безопасность и ответственность должны быть встроены с самого начала — и в Google DeepMind мы именно так поступили с Gemini (Safety and responsibility has to be built in from the beginning and at Google DeepMind that's what we've done with Gemini)» #

— Google DeepMind

«Gemini Ultra превосходит GPT-4 в семи из восьми категорий, что делает её лучшей большой языковой моделью в сфере ИИ прямо сейчас (Gemini Ultra does surpass GPT-4 in seven out of these eight categories which does make it right now the very best large language model)» #

— TheAIGRID

«За обеденный перерыв Gemini прочитала для нас 200 000 статей, отфильтровала до 250 и извлекла данные (Over a lunch break Gemini read 200,000 papers for us, filtered it down to 250 and extracted their data)» #

— Тейлор, Google DeepMind

«У нас есть одни из лучших в мире экспертов по обучению с подкреплением, которые изобрели многие из этих технологий (We have some of the world's best reinforcement learning experts who invented some of this stuff)» #

— Демис Хассабис

«В Google существует здоровое неуважение к невозможному, и это ориентирует нас быть смелыми и ответственными одновременно (At Google there's this healthy disregard for the impossible and that has oriented us to be both bold and responsible together)» #

— Google

«Он сказал не мы улучшим модели, а мы сделаем инновации — это значит, что мы увидим что-то принципиально новое (He didn't say that we're going to make these models better — what he said is we're going to be doing Innovations)» #

— TheAIGRID

Часто задаваемые вопросы

Чему учит экстракт: Gemini — мультимодальная модель «с нуля», а не склейка отдельных систем: В отличие от предыдущих ...?

Gemini — мультимодальная модель «с нуля», а не склейка отдельных систем: В отличие от предыдущих подходов, где текстовые, визуальные и аудио-модели объединялись на вторичном этапе, Gemini изначально обучена работать со всеми модальностями одновременно. Это позволяет ей бесшовно переключаться между текстом, кодом, аудио, изображениями и видео в рамках одного разговора.

Чему учит экстракт: Три размера модели для разных задач: Ultra, Pro, Nano: Google выпустила семейство моделей: Ultra ...?

Три размера модели для разных задач: Ultra, Pro, Nano: Google выпустила семейство моделей: Ultra — самая мощная для сложных задач, Pro — оптимальный баланс для широкого спектра задач, Nano — эффективная модель для работы на мобильных устройствах. Каждая из них является лучшей в своём классе.

Чему учит экстракт: Gemini Ultra превосходит GPT-4 в 7 из 8 бенчмарков: На тесте MMLU Gemini Ultra набрала 90% против...?

Gemini Ultra превосходит GPT-4 в 7 из 8 бенчмарков: На тесте MMLU Gemini Ultra набрала 90% против 86.4% у GPT-4. В кодировании (HumanEval) — 74.4% против 67%. В математике — 53.2% против 52.9%. Единственная категория, где GPT-4 удержала лидерство — HellaSwag.

Чему учит экстракт: Абсолютное превосходство в мультимодальных бенчмарках: Во всех мультимодальных тестах — распознав...?

Абсолютное превосходство в мультимодальных бенчмарках: Во всех мультимодальных тестах — распознавание изображений, видео, аудио — Gemini Ultra превзошла GPT-4V. В аудио даже Gemini Pro превосходит OpenAI Whisper V2 и V3, что демонстрирует глубину мультимодальных возможностей.

Чему учит экстракт: Генерация интерфейсов на лету по запросу пользователя: Gemini способна не просто отвечать текстом...?

Генерация интерфейсов на лету по запросу пользователя: Gemini способна не просто отвечать текстом, а создавать полноценные интерактивные интерфейсы. Модель сама решает, нужен ли UI, пишет PRD (документ требований), проектирует UX-путь, генерирует Flutter-код и подбирает данные — всё за один запрос.

Google Gemini: полный разбор модели, которая превзошла GPT-4

💡 Ключевые тезисы (11)

Google Gemini: полный разбор модели, которая превзошла GPT-4