Как пользоваться Gemini Omni. Безумная видеомодель от Google.

16:04

Как пользоваться Gemini Omni. Безумная видеомодель от Google.

AI Прорыв 07.06.2026 848 просмотров 115 лайков

Machine-readable: Markdown · JSON API · Site index

Смотреть на YouTube

Поделиться Telegram VK Бот

Транскрипт Скачать .md

Анализ с AI

Описание видео

00:00 Вступление 01:01 Диалоговое редактирование 04:17 Цифровой аватар 07:23 Полная перерисовка фона 10:03 Встроенные знания 13:45 SynthID — ВАЖНЫЙ МОМЕНТ 15:05 Возможности Gemini Omni Показываю, что умеет новая модель Google — Gemini Omni. Берете готовое видео, снятое на телефон, и меняете в нём что угодно одной фразой в чате. Без монтажа, программ, масок и слоёв. Заменить объект, переодеть человека, перенести съёмку в другое место. Разобрал четыре сценария на живых примерах. А в конце расскажу про один момент, который важно знать, прежде чем использовать это в работе.

Оглавление (7 сегментов)

Вступление

Раньше при съёмке видео, пусть то рекламнообзорное, была очень большая проблема, если вдруг человек в кадре взял не тот реквизит, надел не ту вещь. В таких ситуациях нужно было всё переснимать. Но совсем недавно вышел Gemнай omni, который полностью решает эту проблему. Эта модель может заменить фон, вставить несуществующий объект видео, заменить одежду и всё это вместе. В этом видео четыре вещи. Как редактировать уже снятое видео через обычный чат, как вставить себя или любого персонажа в любую сцену, как полностью изменить фон реального видео так чтобы никто не догадался, что снималось в другом месте и как модель сама знает физику, географию и анатомию без ваших объяснений. Всё это прямо в браузере, без установки программ. И в конце скажу про один момент, который важно знать перед тем, как начнёте использовать это в работе.

Диалоговое редактирование

Начну с простого примера, который хорошо показывает суть. Я беру видео со своим лицом. Обычная запись на камеру, просто смотрю объектив, ничего особенного. Загружаю это видео в Gemini омне, открываю чат и пишу обычным языком: "Сделай меня полностью лысым и добавь ярко-рыжую бороду". Смотрите, что происходит. Модель не накладывает фильтр поверх картинки. Она анализирует трёхсмерную структуру лица. Где голова, где подбородок, где линии роста волос. Убирает волосы так, что голова выглядит естественно, не как закрашенный сверху прямоугольник. Добавляет бороду с правильной текстурой. с правильным направлением роста. Всё остальное в кадре остаётся нетронутым. Фон тот же, одежда та же, освещение тоже. Изменилось только то, что я просил. Вот первое, что важно понять про эту модель. Она не пересобирает весь кадр целиком. Она точно находит то, что нужно изменить, и трогает только это. Теперь второй пример. Он показывает другую сторону той же функции. Берём видео, где я иду по какому-то помещению, коридор, комната, неважно. И прошу модель: "Замени все тёмные или пугающие предметы в кадре на яркие фрукты". Результат выглядит смешно, но именно в этом и суть демонстрации. Модель не ищет пикселей определённого цвета. Она понимает смысловую категорию: тёмный и пугающий, и находит объекты, которые под неё подходят. Заменяет их. Атмосфера кадра полностью меняется. При том, что движение, освещение и общая структура сцены сохраняется. Вот здесь самое важное, что нужно понять про диалоговое редактирование. После первого запроса вы можете продолжать разговор. Например, теперь сделай фон светлее. Потом добавь тёплый оттенок освещению. Потом убери предмет, который лежит на столе справа. Модель держит в голове весь разговор. Она работает с тем же видео и добавляет изменения. Одно за другим, как дизайнер, который сидит рядом и сразу показывает результат каждой правки. [фыркает] Не нужно каждый раз загружать видео заново, не нужно описывать контекст с нуля, просто продолжаете обычный разговор. Что это меняет на практике для тех, кто снимает контент? — Раньше, чтобы убрать случайный предмет из кадра или изменить мелкую деталь, нужно было открыть программу монтажа, найти нужный момент на таймлайне, разобраться с масками, проверить, что всё выглядит естественно. Это занимало время и требовало определённых навыков. Теперь вы пишите одну фразу в чате и идёте дальше. Или другой сценарий: вы сняли видео, отдали на монтаж. Клиент посмотрел и попросил изменить цвет рубашки на человеке. Раньше это был отдельный раунд правок, теперь это один запрос. Перед тем, как увидеть остальные способы применения этого инструмента, прошу вас подписаться на этот канал, поставить лайк этому видео и обязательно написать комментарий, как вам оно.

Цифровой аватар

Второй инструмент - возможность создать персонажа и отправить его в любую сцену. Объясню, как это работает. Есть два способа получить аватара для работы. Первый- загрузить фотографию. Берёте любое своё фото, загружаете в чат Gemini Omni и пишите: "Используй этого человека как персонажа в видео". Модель считывает внешность фотографии и дальше использует её в генерации. Второй - сгенерировать персонажа через Nan Banana Pro. Там вы создаёте нужного человека с нуля, с нужной внешностью, стилем и одеждой. Сохраняете получившееся изображение и загружаете его в чат Gai Omni. Этот вариант даёт больше контроля над тем, как выглядит ваш персонаж. Вы сами решаете каждую деталь заранее, а не работаете с тем, что есть на фото. Оба варианта работают одинаково в дальнейшем. Загружаете изображение в чат и пишите, что должно происходить с этим персонажем. Давайте посмотрим на живом, реальном примере. Я загружаю фотографию человека в чат и пишу: "Сними, как этот человек убегает от большого динозавра в джунглях. " И смотрим, что получилось. [тяжелое дыхание] Это один десятисекундный клип. Внешность персонажа та же, что на загруженном фото. Джунгли созданы моделью. Динозавр добавлен. Движение выглядит естественно. Отдельно про синхронизацию губ. Она в этой модели стала заметно точнее. Когда персонаж в кадре что-то говорит, движения губ совпадают с речей. Мимика выглядит менее механической, чем в предыдущих генераторах видео. Это ещё не безупречно, но уже на том уровне, где результат можно использовать в реальных задачах. Второй пример с аватаром. Берём того же персонажа и просим: "Наден на него жёлтые очки, красные наушники и широкий плащ диджея. Пусть говорит в микрофон на сцене". Модель берёт исходную внешность персонажа и одевает его так, как описано. Одежда выглядит как реальная ткань, с нормальными складками, с правильным взаимодействием со светом. не как текстура, приклеенная поверху силуэта. Для каких задач это вообще полезно? Если вы делаете контент и хотите показать сценарий или ситуацию без личной съёмки, создаёте персонажа один раз, загружаете и описываете, что должно происходить, и через несколько минут готовый абсолютно клип. Если нужна демонстрация продукта с человеком в кадре, но съёмка сейчас невозможна, тот же подход. Для обучающего контента, где важно показать конкретное действие, тоже подходит супер.

Полная перерисовка фона

Третий инструмент, наиболее наглядный в демонстрации. Берём обычное видео, снятое на телефон. Я еду в машине, за окном обычная дорога. Загружаем в Gemini Omni. За окном обычный городской пейзаж. И пишу в чат что-то вроде этого. Сделай так, будто за окном извергается вулкан. И давайте посмотрим на результат. Салон машины тот же, я за рулём тот же. Руки на руле те же. И освещение внутри салона тоже. За окном полностью другая картинка. Вулкан в потоке лавы. Тёмное небо с пеплом. Модель чётко разделила внутреннее пространство и то, что за окном. Она понимает, где граница между салоном и улицей, и меняет только улицу. Она не размазывает изменения по всему кадру. Давайте второй пример. Берём видео, где кто-то идёт по открытому месту и пишем: "Замени окружение на туманный фьёрт на рассвете с гладкой, как стекло водой". Результат: тот же человек, то же движение и та же одежда. А вокруг другое место. Туман над водой, характерный свет рассвета, горы вдалеке. Это называется видео to видео. Перенос объекта из одного контекста в другой при сохранении самого объекта. Для каких задач это полезно? снялись в одном месте, а по задаче нужно другое. Например, сняли в помещении, но должно выглядеть как съёмка на природе. Тестирование вариантов. Хотите понять, как будет выглядеть рекламное видео в разных локациях? Снимаете один раз и меняете фон через чат. Смотрите, что работает лучше, без поездок. Для контент-мейкеров один и тот же исходник адаптируется под совершенно разные темы и настроения. Не нужно перестраивать съёмку под каждый формат. Лондонский пример, который хорошо показывает ещё один слой этой функции. Просто попробуйте написать: "Сделай так, будто машина едет по улицам Лондона". Модель добавляет детали, характерные именно для Лондона. Двухэтажные красные автобусы, характерную архитектуру, если это центральный район. Это работает, потому что модель знает, как выглядит конкретное место. И об этом подробнее в следующем блоке.

Встроенные знания

Четвёртый блок про то, что отличает Geminii от генератора с красивым интерфейсом. Обычный генератор видео работает с визуальными паттернами. Он видел много видео во время обучения и научился воспроизводить похожие картинки. Он, на самом деле, не понимает, что происходит на этих видео. Он не знает, почему объекты движутся именно так, как устроено тело человека или где находятся разные города. Gemini Omni обучена на данных Google, включая огромное количество текстовой информации о том, как устроен мир. Поэтому она понимает контекст, а не только воспроизводит картинку. Давайте посмотрим, как это выглядит на практике. Пример первый. Физика. Пишем в чат без загрузки какого-либо видео. Создай короткое обучающее видео о том, как работает гравитация. Модель генерирует видео. Она не просто показывает падающий предмет, она правильно передаёт траектории движения и то, как объекты ведут себя в условиях пониженной гравитации. Например, как будет двигаться тот же предмет на Луне. Физика правильная. При этом вы ничего не объясняли про гравитацию, вы просто назвали тему, а модель применила знания. Пример второй. Анатомия. Пишем: "Покажи, как устроен человеческий глаз". Модель создаёт анимацию с правильным расположением слоёв хрусталика, роговицы, сетчатки. Это достоверно, не примерно похоже, а точно. Раньше, чтобы сделать такую анимацию, нужно было либо найти готовую или купить лицензию, либо заказать у специалиста по медицинской визуализации. Это отдельная профессия с отдельным ценником. Сейчас это один запрос в чате. Пример третий. География. Возвращаемся к лондонскому примеру из прошлого блока. Когда вы просите перенести видео в Лондон, модель знает, как выглядит Лондон. Конкретно Лондон, а не абстрактный европейский город. Попросите Токио, получите Токио с его специфической архитектурой, вывесками и городской средой. Это работает и для менее очевидных мест. Попробуйте написать название конкретного района или небольшого города. Модель постарается воспроизвести именно его характерные черты. Пример четвёртый. Явление, которые сложно снять. Пишем: "Покажи, как происходит землетрясение". Модель создаёт видео, которое правильно показывает движение тектонических плит, волны сейсмической активности, как это выражается на поверхности. Не фантазию на тему, а физически корректное изображение процесса. Для каких же задач это полезно? Объяснение сложных тем в образовании, маркетинге или презентациях. Вместо того, чтобы искать готовое видео или заказывать анимацию, описываете то, что нужно показать, и получаете крутой результат. Процессы, которые невозможно снять вживую, научные явления, работа внутренних механизмов. Всё это теперь генерируется из текстового описания. Быстрые прототипы обучающего контента. Прежде чем вкладывать в профессиональное производство, можно за несколько минут посмотреть, как выглядит идея.

SynthID — ВАЖНЫЙ МОМЕНТ

Важный момент, то, что нужно знать перед использованием. Говорю об этом в конце, как и обещал в начале, все видео, созданные в Gemini Omni, автоматически получают метку. Она называется Sint ID. Это невидимая цифровая метка, встроенная прямо в видеофайл. — Что это значит для нас на практике? Платформы и сервисы, которые умеют читать эти метки, видят, что видео создано AI. Технология пока не везде, но распространяется. Кроме этого, есть метадан из стандарта C2Pa. Это набор данных, записанных файл, когда создано, чем создано, было ли изменено. Всё это хранится внутри видеофайла. И ещё один момент. В углу видео может быть видимый логотип Gemini. небольшой, но он тоже есть. Зачем об этом говорить? Если вы планируете использовать это видео в работе, нужно понимать, что они имеют эту метку. Для своего контента, для демонстрации концепций, для образовательного материала это абсолютно нормально. Вопросы начинаются, если кто-то пытается выдать сгенерированное видео за реальную съёмку. Знайте об этом и используйте осознанно. Давайте закончим практично. Gemini Omni

Возможности Gemini Omni

имеет четыре вещи: редактировать детали в готовом видео через чат, переносить персонажа в любую сцену по фото, менять фон при сохранении объекта и генерировать видео по теме, опираясь на то, что знает о мире из данных Google. Последнее работает с оговоркой: модель стремится к точности, но артефакты бывают, поэтому проверяйте результат перед использованием. Один совет, который экономит попытки. Пишите конкретно, не сделайте мрачнее, а добавь туман, затемни небо, сделай свет холодным и явно указывайте, что трогать нельзя, иначе модель может задеть и это тоже. Попробуйте на одном коротком видео, которое уже есть. Не на сложном проекте. Просто посмотрите, как это работает на вашем материале. Ставьте лайк, если было полезно. Подписывайтесь на канал и до встречи. am

Другие видео автора — AI Прорыв

Ctrl+V

Экстракт Знаний в Telegram

Экстракты и дистилляты из лучших YouTube-каналов — сразу после публикации.

Подписаться

Лучшие методички за неделю — каждый понедельник