AI-инструменты 22 мин чтения поиск · код · Workspace

Gemini: AI-экосистема Google от поиска до кода

Google не просто выпустил очередную языковую модель. Gemini — это инфраструктурная ставка: один AI, который работает в поиске, почте, таблицах, коде, браузере и телефоне одновременно. Контекстное окно в 1 миллион токенов, мультимодальность с рождения, бесплатные open-source версии — как это всё работает и зачем вам это нужно знать.

Дистилляция материалов о Google Gemini и AI-экосистеме из базы знаний ekstraktznaniy.ru.
Поделиться: TG WA X

Что такое Gemini и почему это важно

Gemini — мультимодальная языковая модель Google DeepMind, анонсированная в декабре 2023 года. В отличие от предшественников (PaLM, Bard), Gemini спроектирован как нативно мультимодальный: он одновременно работает с текстом, изображениями, аудио, видео и кодом — не как набор склеенных систем, а как единая архитектура.

Ключевое отличие от конкурентов — глубина интеграции в экосистему Google. Более 3 миллиардов человек ежедневно используют продукты Google: Search, Gmail, Google Docs, YouTube, Chrome, Android. Gemini встроен во все эти точки контакта. ChatGPT — это отдельный сайт. Gemini — это то, что уже работает в вашем браузере, телефоне и почте.

3B+
пользователей Google-экосистемы
1M
токенов в контексте (Gemini 1.5 Pro)
2M
токенов в Gemini 1.5 Pro (preview)

Семейство Gemini включает несколько моделей под разные задачи: Ultra (самая мощная, для сложных задач), Pro (баланс мощности и скорости), Flash (быстрая и экономичная), Nano (для мобильных устройств, работает полностью офлайн). Эта градация позволяет Google покрыть весь спектр — от сервера до смартфона — единой моделью.

Gemini 2.0: что изменилось

Gemini 2.0, анонсированный в декабре 2024 года, — это следующее поколение с фокусом на агентных возможностях. Google позиционирует его не просто как чат-бот, а как «агентскую эру» AI: модель, которая умеет планировать, использовать инструменты и выполнять многошаговые задачи самостоятельно.

Gemini 2.0 Flash

Флагманская модель нового поколения для массового использования. Быстрее и дешевле, чем Gemini 1.5 Pro, при сопоставимом качестве на большинстве задач.

  • • Скорость: ~10× быстрее Gemini 1.5 Pro
  • • Нативное использование инструментов (Google Search, Code Execution)
  • • Мультимодальный вывод: текст + изображения + аудио
  • • Контекст: 1M токенов

Gemini 2.0 Flash Thinking

Экспериментальная модель с «цепочкой размышлений» (Chain-of-Thought). Перед ответом модель показывает свои рассуждения — аналог o1 от OpenAI.

  • • Лучшие результаты на AIME (математика) и GPQA (наука)
  • • Прозрачность рассуждений
  • • Подходит для сложных аналитических задач
  • • Медленнее Flash, но точнее на сложных задачах

Gemini 2.0 Pro (Experimental)

Самая мощная публичная модель Google. Оптимизирована для агентных сценариев с длинным контекстом и сложными инструкциями.

  • • Лучшее качество кода в семействе Gemini 2.0
  • • Улучшенное следование инструкциям
  • • Контекст: 1M токенов
  • • Пока только через AI Studio и API

Важное архитектурное изменение в Gemini 2.0 — Project Mariner и Project Astra. Project Mariner — агент, который управляет браузером Chrome: ходит по сайтам, заполняет формы, совершает покупки по вашему заданию. Project Astra — «универсальный AI-ассистент», который видит то, что видит камера вашего телефона, и помогает в реальном времени. Обе системы работают поверх Gemini 2.0 Flash.

Контекстное окно 1M+ токенов: что это даёт на практике

1 миллион токенов — это примерно 750 000 слов или ~1500 страниц текста. Для сравнения: GPT-4o имеет 128K токенов, Claude 3.5 Sonnet — 200K. Gemini 1.5 Pro с его 1M (а в preview — 2M) — это качественно другой класс задач.

Что помещается в 1M токенов

~10
крупных кодовых баз (~100K строк кода)
~50
научных статей
~3
полных сезона сериала в транскриптах
~1
час видео (аудио + субтитры)
~700
средних PDF-документов
1500+
страниц книги

Практические применения большого контекста — это не просто «загрузить большой файл». Это новые классы задач. Например: загрузить всю переписку с клиентом за год и попросить выявить паттерны. Загрузить кодовую базу целиком и попросить найти архитектурные несоответствия. Загрузить годовой финансовый отчёт и задать вопросы без потери нити.

Важное предупреждение: большой контекст ≠ хорошее использование контекста. У всех моделей есть проблема «потери в середине» (lost-in-the-middle): информация в центре длинного контекста усваивается хуже, чем в начале и конце. Gemini 1.5 Pro справляется с этим лучше конкурентов (по бенчмарку NIAH — Needle In a Haystack), но проблема не устранена полностью. Структурируйте входные данные: важное — в начало или конец.

Gemini в Google Workspace

Для большинства пользователей Gemini — это не отдельный сайт, а функция внутри привычных инструментов. Google встроил Gemini в весь Workspace: Gmail, Docs, Sheets, Slides, Meet, Drive. Доступно через кнопку «Спросить Gemini» или боковую панель.

G

Gmail: умный черновик и резюме

«Помоги составить ответ на это письмо» — Gemini анализирует контекст переписки. «Summarize this thread» — резюме длинного обсуждения. Smart Reply стал умнее: теперь предлагает развёрнутые варианты, а не три кнопки.

D

Google Docs: Help me write

Генерация первого черновика по краткому описанию. Улучшение существующего текста (тон, стиль, краткость). Перевод. Gemini понимает контекст всего документа при редактировании.

S

Google Sheets: Help me organize

Автоматическое создание формул по описанию на обычном языке. Генерация структур таблиц: «создай таблицу для отслеживания расходов». Анализ данных и выявление паттернов.

S

Google Slides: Help me visualize

Генерация презентации из тезисов. Добавление визуального содержимого: «создай иллюстрацию к этому слайду». Адаптация стиля под корпоративный брендбук через Google Slides Add-on.

M

Google Meet: Take notes for me

Автоматическое ведение заметок во время звонка. Резюме встречи с выделением решений и задач (action items). Транскрипция с возможностью поиска по тексту звонка.

Важно про тарифы: Базовый Workspace (Business Starter, Business Standard) включает ограниченные Gemini-функции. Полный доступ — через Gemini for Google Workspace add-on (от $20/пользователь/месяц) или Gemini Business/Enterprise планы. Перед внедрением проверьте, что входит в ваш текущий план.

Google AI Studio и Gemini API

Google AI Studio (aistudio.google.com) — бесплатный веб-интерфейс для работы с Gemini API. Это главный инструмент разработчиков и продвинутых пользователей: здесь можно тестировать промпты, настраивать параметры модели, управлять историей запросов и получать готовый код для интеграции.

Что есть в AI Studio

  • • Prompt Design — написание и тестирование промптов
  • • Structured Output — ответы в формате JSON
  • • Function Calling — вызов внешних функций
  • • System Instructions — системные промпты
  • • Tune a model — fine-tuning на своих данных
  • • Get API key — выдача ключей
  • • Code execution — запуск Python в sandbox
  • • File API — загрузка файлов для анализа

Бесплатный tier API

  • • Gemini 1.5 Flash: 15 RPM, 1M TPM, 1500 RPD
  • • Gemini 1.5 Pro: 2 RPM, 32K TPM, 50 RPD
  • • Gemini 2.0 Flash: 15 RPM, 1M TPM, 1500 RPD
  • • Бесплатно до определённых лимитов
  • • Данные используются для обучения (free tier)
  • • Pay-as-you-go при превышении лимитов
  • • RPM = запросов в минуту
  • • TPM = токенов в минуту

Gemini API доступен через несколько SDK: Python (google-generativeai), Node.js, Go, Kotlin, Swift, REST. Ключевая особенность — нативная поддержка Google Cloud Vertex AI: если ваша инфраструктура уже на GCP, интеграция Gemini требует минимальных усилий.

Python — быстрый старт

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-2.0-flash")

response = model.generate_content(
    "Объясни квантовую запутанность простым языком"
)
print(response.text)

Vertex AI Gemini API имеет enterprise-уровень: гарантированный SLA, данные не используются для обучения, HIPAA/SOC2 compliance, поддержка VPC Service Controls. Для серьёзных бизнес-приложений — используйте Vertex AI, не AI Studio.

Gemma: open-source альтернатива для локального запуска

Gemma — семейство открытых моделей Google, построенных на той же исследовательской базе, что и Gemini. В отличие от проприетарного Gemini, Gemma можно скачать и запустить локально на своём железе. Это критично для задач с конфиденциальными данными.

Gemma 2

Актуальная

Вышла в июне 2024. Значительно превосходит Gemma 1 по качеству.

  • • Размеры: 2B, 9B, 27B параметров
  • • 27B конкурирует с моделями 70B+
  • • Доступна на Hugging Face, Kaggle, Ollama
  • • Лицензия: Apache 2.0 (коммерческое использование)

CodeGemma / RecurrentGemma

Специализированные

Дистиллированные варианты под конкретные задачи.

  • • CodeGemma 7B — code completion, code chat
  • • PaliGemma — мультимодальная (текст + изображения)
  • • ShieldGemma — content safety classifier
  • • DataGemma — работа с реальными данными (INFUSE метод)

Запустить Gemma 2 локально через Ollama — это 3 команды:

# Установка Ollama (если нет)
curl -fsSL https://ollama.ai/install.sh | sh

# Скачать и запустить Gemma 2 9B
ollama run gemma2:9b

# Или лёгкая версия для старого железа
ollama run gemma2:2b

Gemma 2 27B при запуске на NVIDIA RTX 3090 (24GB VRAM) показывает качество, сравнимое с GPT-3.5, при нулевой стоимости запроса после первоначальной настройки. Для задач с конфиденциальными корпоративными данными или в офлайн-средах — это серьёзная альтернатива облачным API.

Deep Research: AI-агент для исследований

Deep Research — функция в Gemini Advanced (и в Google Search), которая превращает Gemini в автономного исследователя. Вы задаёте вопрос или тему, Gemini самостоятельно планирует стратегию исследования, выполняет десятки поисковых запросов, читает источники, синтезирует информацию и возвращает структурированный отчёт с цитатами.

Как работает Deep Research

1

Gemini анализирует ваш запрос и составляет план исследования (список подвопросов)

2

Выполняет 20–100 поисковых запросов в Google, посещает источники

3

Читает и синтезирует информацию, выявляет противоречия между источниками

4

Возвращает структурированный отчёт с источниками, экспорт в Google Docs

Время работы — 5–30 минут в зависимости от сложности. Результат — документ объёмом 3–10 страниц с гиперссылками на источники. Качество сильно варьируется: для фактических вопросов с актуальными данными из интернета — отлично. Для нишевых или технических тем — требует проверки.

Ключевое преимущество перед Perplexity Deep Research — интеграция с Google Search (более свежие и полные результаты) и экспорт в Google Docs одним кликом. Для пользователей Google Workspace это значительно упрощает работу с результатами.

NotebookLM: AI поверх ваших документов

NotebookLM (notebooklm.google.com) — отдельный продукт Google, построенный на Gemini. Идея: вы загружаете свои документы (PDF, Google Docs, веб-страницы, YouTube-видео, аудио), и Gemini становится экспертом именно по этим материалам. Никаких галлюцинаций из «общих знаний» — только то, что есть в ваших источниках.

Что можно делать

  • • Задавать вопросы по загруженным материалам
  • • Получать резюме с цитатами из источников
  • • Создавать Study Guides и Briefing Docs
  • • Генерировать подкаст-дискуссию по материалам (Audio Overview)
  • • Хранить несколько «ноутбуков» под разные проекты
  • • Добавлять заметки поверх источников

Лимиты и форматы

  • • До 50 источников на ноутбук
  • • PDF: до 500 000 слов
  • • Google Docs / Slides: нативная интеграция
  • • Веб-страницы: по URL
  • • YouTube-видео: через URL (транскрипция)
  • • Аудио/видео файлы: прямая загрузка

Функция Audio Overview — одна из самых впечатляющих: NotebookLM генерирует живую подкаст-дискуссию двух «ведущих», которые обсуждают загруженные материалы. Звучит удивительно натурально. Практическое применение: превратить скучный PDF в аудио-резюме для прослушивания во время дороги.

NotebookLM Plus (платный) снимает ограничения: до 300 источников, команды с общим доступом, дополнительные функции. Для корпоративного использования — NotebookLM Enterprise через Google Workspace.

Gemini vs GPT-4 vs Claude: честное сравнение

Сравнение AI-моделей — занятие неблагодарное: бенчмарки устаревают быстрее, чем выходят статьи. Ниже — принципиальные различия по архитектуре и позиционированию, актуальные вне зависимости от конкретных цифр.

Параметр Gemini 2.0 Pro GPT-4o Claude 3.5 Sonnet
Контекст 1M токенов 128K токенов 200K токенов
Мультимодальность Текст, фото, видео, аудио, код Текст, фото, аудио Текст, фото
Экосистема Google Workspace, Android, Search Microsoft Office, Azure, Bing Claude.ai, API-фокус
Кодирование Сильно, особенно с Google-стеком Очень сильно Лучший на рынке (по многим оценкам)
Следование инструкциям Хорошо Хорошо Отлично
Open-source альтернатива Gemma 2 Нет Нет
Бесплатный доступ gemini.google.com (бесплатно) chatgpt.com (GPT-4o mini) claude.ai (Sonnet 3.5 бесплатно)

Когда выбирать Gemini

  • ✓ Уже в Google Workspace — интеграция бесшовная, Copilot/Anthropic потребуют дополнительных подключений
  • ✓ Нужен большой контекст — 1M токенов недосягаемы для конкурентов на сравнимой цене
  • ✓ Мультимодальные задачи — видео, аудио нативно поддерживаются без отдельных инструментов
  • ✓ Open-source нужен — Gemma 2 как база для fine-tuning или локального деплоя
  • ✓ Android/мобильный сценарий — Gemini Nano работает на телефоне офлайн

Тарифы и доступность

Gemini (бесплатно)

$0

gemini.google.com. Доступ к Gemini 2.0 Flash. Ограниченный Deep Research. Базовая интеграция с Google Search.

Gemini Advanced (Google One AI Premium)

$19.99/мес

Gemini 2.0 Pro, Deep Research без ограничений, NotebookLM Plus, 2TB Google Drive, Gemini в Gmail/Docs/Sheets. Первый месяц бесплатно.

Gemini for Google Workspace

от $20/user/мес

Для бизнеса. Полный Gemini в Workspace, корпоративная безопасность, data governance. Тарифы: Business Starter, Standard, Plus.

Gemini API (Pay-as-you-go)

от $0.075/1M токенов

Gemini 2.0 Flash: $0.075/1M input, $0.30/1M output. Gemini 1.5 Pro: $1.25–2.50/1M. Бесплатный tier: 15 RPM / 1M TPM.

Ключевые тейкэвеи

01

Gemini — это не просто чат-бот, это инфраструктурная интеграция в экосистему Google. Если вы работаете в Gmail, Docs, Sheets — у вас уже есть Gemini, вопрос только в том, активирован ли нужный план.

02

Контекст 1M токенов — настоящее конкурентное преимущество. Задачи «загрузить всю кодовую базу», «проанализировать годовую переписку», «прочитать весь репозиторий» — это про Gemini, не про конкурентов.

03

Gemma 2 — недооценённый инструмент. Для задач с конфиденциальными данными, офлайн-сценариев или fine-tuning под свою предметную область — запустить 27B модель локально проще, чем кажется.

04

NotebookLM — лучший инструмент для работы с собственными документами. Загрузите нужные материалы и задавайте вопросы с гарантией, что ответы основаны только на этих источниках.

05

Бесплатный API tier Gemini — один из самых щедрых на рынке. 1500 запросов в день к Gemini 2.0 Flash бесплатно достаточно для большинства прототипов и небольших приложений.

06

Агентная эра только начинается. Project Mariner и Project Astra — сигналы того, куда движется Gemini: автономные агенты, управляющие браузером и видящие окружающий мир через камеру. Следите за этим направлением.

Экстракт Знаний в Telegram

Экстракты и дистилляты из лучших YouTube-каналов — сразу после публикации.

Подписаться

Дайджест Экстрактов

Лучшие методички за неделю — каждый понедельник