Gemini 3 Flash + Claude Code: 114 рецептов из рукописного блокнота за 15 минут
15:49

Gemini 3 Flash + Claude Code: 114 рецептов из рукописного блокнота за 15 минут

Дрессировщик Нейросетей 19.02.2026 428 просмотров 57 лайков
Поделиться Telegram VK Бот
Транскрипт Скачать .md
Анализ с AI
Описание видео
Мой телеграм-канал с инструментами из видео : https://t.me/AI_Handler/93 Корпоративное обучение : https://aimasters.me/ Идейный вдохновитель: https://t.me/aimastersme Знакомая ситуация: берёшь старый блокнот с мамиными или бабушкиными рецептами — а там половину слов уже не разобрать. Сегодня я покажу, как с помощью нейросетей превратить рукописные записи в красивую цифровую кулинарную книгу с картинками. Полностью в автоматическом режиме. Что в видео: - Снимаем блокнот с рецептами на телефон (обычное видео, без заморочек) - Claude Code разрезает видео на части и отправляет в Gemini 3 Flash для распознавания - Почему браузерная версия Gemini не справляется, а API — справляется - Подключаем мой авторский MCP-сервер для бесплатной генерации картинок через Gemini - Получаем на выходе HTML-страничку и PDF-файл — готовую книгу рецептов Результат: 114 рецептов с рукописного блокнота оцифрованы, оформлены и готовы к печати. Подарок жене на 8 марта? Легко. Claude Code — это не инструмент для программистов. Это новый способ взаимодействия с компьютером, где вы просто ставите задачу, а ИИ выполняет работу за вас. Таймкоды: 0:00 — Интро: Блокнот с рецептами — семейная реликвия или неудобный архив? 0:36 — Приветствие: Меня зовут Андрей, и здесь мы приручаем нейросети. 1:07 — Наш стек: Claude Code, Gemini 3 Flash и авторский MCP-сервер. 1:40 — Как правильно снять видео для распознавания текста. 2:20 — Почему нативная версия Gemini в браузере «ленится»? 3:00 — Настраиваем API: Google AI Studio и получение ключа. 3:42 — Запускаем Claude Code в режиме Bypass Permission. 4:15 — Зачем резать видео на 10-секундные чанки? 5:10 — Пишем промпт для Claude: магия автоматизации. 6:10 — MCP-сервер для генерации картинок: как это работает бесплатно. 7:20 — Убираем водяные знаки с помощью локальной модели Llama. 8:20 — Останавливаем и корректируем работу нейросети «на лету». 9:15 — Обзор результата: HTML-сайт и PDF-книга рецептов. 10:10 — Итоги: Нейросети — это новый способ общения с компьютером. #нейросети #Gemini #ClaudeCode #автоматизация #AI #оцифровка #рецепты #технологии #программированиеБезКода #GoogleAIStudio #Handler_AI #ДрессировщикНейросетей

Оглавление (14 сегментов)

  1. 0:00 Интро: Блокнот с рецептами — семейная реликвия или неудобный архив? 105 сл.
  2. 0:36 Приветствие: Меня зовут Андрей, и здесь мы приручаем нейросети. 83 сл.
  3. 1:07 Наш стек: Claude Code, Gemini 3 Flash и авторский MCP-сервер. 73 сл.
  4. 1:40 Как правильно снять видео для распознавания текста. 107 сл.
  5. 2:20 Почему нативная версия Gemini в браузере «ленится»? 119 сл.
  6. 3:00 Настраиваем API: Google AI Studio и получение ключа. 103 сл.
  7. 3:42 Запускаем Claude Code в режиме Bypass Permission. 79 сл.
  8. 4:15 Зачем резать видео на 10-секундные чанки? 155 сл.
  9. 5:10 Пишем промпт для Claude: магия автоматизации. 147 сл.
  10. 6:10 MCP-сервер для генерации картинок: как это работает бесплатно. 201 сл.
  11. 7:20 Убираем водяные знаки с помощью локальной модели Llama. 147 сл.
  12. 8:20 Останавливаем и корректируем работу нейросети «на лету». 138 сл.
  13. 9:15 Обзор результата: HTML-сайт и PDF-книга рецептов. 128 сл.
  14. 10:10 Итоги: Нейросети — это новый способ общения с компьютером. 871 сл.
0:00

Интро: Блокнот с рецептами — семейная реликвия или неудобный архив?

В знакомой ситуации вы берёте старый блокнот с семейными рецептами, а там половину слов уже не разобрать. У моей жены десятки таких записей от мам, бабушек. Это бесценно, но пользоваться сейчас этим не совсем удобно. Сегодня мы с вами совершим маленькое чудо. С помощью нейросетей Gemini и CLД код мы превратим старые рукописные записи в современный цифровой продукт с яркими картинками и сделаем это полностью в автоматическом режиме. Привет, меня зовут Андрей, и на этом канале мы заставляем искусственный интеллект решать реальные задачи. Сегодня я покажу вам, как связать клод-код с моим авторским MCP-сервером для бесплатной генерации картинок через Gemini нанобона. Также мы научим компьютер
0:36

Приветствие: Меня зовут Андрей, и здесь мы приручаем нейросети.

доставать рукописный текст из видео. А для примера мы возьмём простую жизненную задачу, это оцифровку блокнота с семейными рецептами, написанными от руки. Итак, поехали. Итак, как я распознавал рукописный текст? Я взял блокнотик, тетрадку, где записаны все рецепты, которые переписывала когда-то моя жена. и в чём состоял мой труд. Я снял его на телефон. Что за получилось за видео, я вам сейчас вот покажу. Видео получилось размером около 220 Мб. Выглядит оно вот так. Как вы видите, странички я листал достаточно быстро. То
1:07

Наш стек: Claude Code, Gemini 3 Flash и авторский MCP-сервер.

есть так, как они листались, не останавливался на чём-то. В чём сложность? Здесь сложность, во-первых, почерк. Во-вторых, вы видите типографские надписи, картинки какие-то есть, которые нанесены на странице. После этого я отправил видео в ClДкод с установленным моим MCP-сервером. Что это за MCP-сервер, мы чуть позже поговорим. ClДкод нарезал это видео на чанке, э, распознал его через Gemini 3 Flash, собрал в общий файл, ну, и собрал уже полностью мою кулинарную книжку в
1:40

Как правильно снять видео для распознавания текста.

HTMLфайл. Также я собираюсь его попросить, чтобы он сделал PDF файл, а вдруг можно будет её распечатать. Вы можете меня спросить, если это видео распознаётся с помощью модели Gemini 3 Flash, почему же мы отправляем это в clд-код, а не распознаём это всё в браузерной версии, в нативной, в которой работает GI. Почему я делаю так, мы можем вот как раз-таки посмотреть на примере. Давайте, вот я отправил видео в чат ээ GNAI, попросил его: "Распознай все рукописные рецепты из этого видео и дай структурированным списком". Смотрите, он мне дал каких-то Сколько тут штук? Девять рецептов. Половину из них сгаллюцинировал. Почему так происходит? В браузерной версии Gemini
2:20

Почему нативная версия Gemini в браузере «ленится»?

очень и очень ленивый. То есть он, да, он может распознавать видео, но делает это лениво. И если у вас на видео изображена какая-то информация в текстовом виде, которую вы хотите достать в браузере, вы её полностью никогда не получите. Поэтому я предлагаю использовать модель Gemini 3 Flash через API ключ. У нас есть вот такой вот сайтик, если вы не знали, э, Google A Studio. В нём можно абсолютно бесплатно тоже погонять какие-то модельки, но нам от него нужно сейчас, что нам нужно получить API ключ. Я не буду рассказывать вам, как это сделать. Вам нужно будет зарегистрироваться ещё в Google Cloud консоль, создать свой проект, и после этого вы сможете создать свой API ключ. Полно в инструкций
3:00

Настраиваем API: Google AI Studio и получение ключа.

видеоинструкций, текстовых инструкций в сети. Вбейте в поиске Ютюбе, как получить API кейс в Google AI Studio, и вам выскочит там куча инструкций. Не будем подробно на этом останавливаться сегодня. Также мы будем пользоваться, естественно, таким инструментом, как я уже сказал, как клодко. Как его установить, я показал в прошлом видео. Одна команда всего лишь. Это терминальная версия. Не бойтесь этого. Страшного абсолютно ничего нет. Итак, я отдельно создал папочку проекта, положил туда в эту папочку видео. и запускаю прямо из этой папки терминал. И в этом терминале запускаю клод. Вы видите, друзья, что у меня клод запустился в режиме Permission. Напоминаю, что
3:42

Запускаем Claude Code в режиме Bypass Permission.

переключать режимы мы можем сочетанием клави Shift + Tab. Он у вас запустится в режиме по умолчанию. Если вы не уверены в своих действиях, пользуйтесь режимом по умолчанию. Я же буду пользоваться вот этим режимом. В этом режиме клод получает полный доступ к моему компьютеру и может не спрашивать моих каких-то дополнительных разрешений на чтение файлов, на выполнение каких-то файлов, на создание файлов и на удаление файлов. У нас есть наше видео, у нас есть клод-код запущенный. Сейчас мы
4:15

Зачем резать видео на 10-секундные чанки?

попросим его, чтобы он нам разбил это видео на чанке. Почему? Для того, чтобы просто-напросто модели Gemini Flash было легче распознавать, чтобы она меньше галлюцинировала, мы разобьём это видео на кусочки. Я пробовал разбивать видео начанки по 5 секунд, по 10 секунд. И полное видео я тоже пробовал такое, как оно у меня есть, там 8 минут сразу закидывать. Наиболее качественный ответ у меня получился на 10 секундах. 5 секунд - это уже мало. На полном видео ответ был менее качественным, поэтому я решил, что нужно это видео всё-таки разбить на кусочки, чтобы модели было легче в первую очередь. А теперь, чтобы облегчить клодкоду немножко тоже работу, мы вернёмся в Google AI Studio, режим Playground, щёлкнем вот на эту модель Gemini 3 Flash. И вот здесь вот есть кнопочка документация. Кроется документация, мы просто скопируем ссылку на неё. Если её полистать, посмотреть, здесь как раз-таки будет видно, что вот эта модель умеет распознавать видео в
5:10

Пишем промпт для Claude: магия автоматизации.

режиме Media Resolution Hi. Мы как раз-таки будем его распознавать, просить клод-код, чтобы он отправил в этом режиме на распознание. Вернёмся в наш клод-код, вставим эту ссылку сюда и попросим клодкод. Смотри, это ссылка на документацию, как использовать модель Gemini 3 Flash. Я хочу, чтобы ты с помощью неё и API ключа, которого я тебе дам, разбил видео, которое лежит у тебя в папке на чанке по 10 секунд, и распознал с помощью этой модели в режиме High Video Resolution эти видео. В этом видео есть рукописный текст, а именно это рецепты, поэтому, пожалуйста, отнесись к этому очень внимательно. Самое главное, чтобы было всё дословно распознано, вплоть до точки с запятой. и модель не галлюцинировала. Вот такой вот у нас получился промт Экспромтом. Посмотрим, справится ли с этим клод-код. Итак, вы видите, он нам пишет: "Давай сначала изучу документацию, посмотрю, какое видео лежит в папке". Нашёл видео
6:10

MCP-сервер для генерации картинок: как это работает бесплатно.

давай проверь его длительность и параметры. Пусть он пока работает. Мы вернёмся в Google AI Studio, скопируем наш Key, вернёмся в clдкод, сразу вставим его сюда. За безопасность ключа вы можете не переживать, вы можете буквально использовать его вот на этот один проект. А после этого просто этот ключ поменять, удалить, сделать с другой. Смотрите, что нам написал лоткод. Нашёл видео. Отлично. Что я вижу? Видео такое-то, такое-то. Длительность 88 секунд, 9 чанков по 10 секунд. Разрешение 1. 920x1080. Размер 210 Мб. Значит, мой план: разрезать видео на чанке по 10 секунд с помощью FMP. Написать Python script, который загружает, собрать результаты. То есть вот он расписал себе этот полностью план. Мы вставили ему этот ключик. И сразу он у нас спрашивает: "Прежде чем писать код, дай мне API ключ для Джемни и подтверди, что план устраивает". Мы даём ему API ключ и говорим: "Да, наш этот план устраивает, пожалуйста, сделай это". Он пишет нам: "Отлично, приступаю. Сначала проверю зависимости и нарежу видео". Смотрите, ребята, вам не нужно быть программистом. Я ещё раз повторю. Он будет здесь писать какие-то непонятные команды, слова и так далее и тому подобное. Вы просто-напросто ему разрешаете действия, и он всё сделает за вас. Вы как
7:20

Убираем водяные знаки с помощью локальной модели Llama.

наблюдатель сидите и смотрите, как клод-код работает. На самом деле, это я уже сделал при подготовке к видео и сложил в папочку все необходимые файлы. Он уже распознал мне все эти кусочки видео, собрал это всё в один общий файл. Поэтому давайте его сейчас остановим, нажмём кнопочку Escape и попросим уже дальше. Сейчас я собираюсь попроситькод, чтобы он нам сгенерировал непосредственно уже и PDF-файл, и страничку HTML с нашим списком рецептов. Сделал просто-напросто вот такую кулинарную книгу. Для этого ему ещё нужно сгенерировать картинки. Итак, друзья, давайте мы как раз-таки вернёмся к MCP-серверу, который я сделал, для бесплатной генерации картинок. Что это за он? Ссылка на этот MCP-сервер будет у меня в Telegram-канале. Он предназначен в первую очередь для генерации и редактирования изображения через нашу подписочную модель, то есть без использования API ключа. Почему? Потому что через нанобана можно генерировать, в принципе, используя API K. Нанобана у
8:20

Останавливаем и корректируем работу нейросети «на лету».

нас, к сожалению, платная модель, и каждая генерация стоит достаточно дорого. Стоит, по-моему, там в районе 12-13 центов. А в режиме чата нам можно генерировать эти картинки. Вот. Давайте попробуем. Скажем ему: "Сгенерируй картинку на первый рецепт". Видите, вот какой запрос, такой ответ. Он сгенерировал нам какую-то картинку, не понятно на какой рецепт, хотя это он сгаллюцинировал немножечко. Там был совсем другой салат в рецепте изначально. И как вы знаете, что нанобана как раз-таки подставляет вот свой вот этот вот значок на каждую картинку, свою для того, чтобы это было понятно, что вот оно сгенерировано в этом режиме, да? Вот видите, мы термарка здесь есть. Так вот, MCP сервер генерирует это всё через браузер и убирает вот эту воттермарку в автоматическом режиме. Это могут делать даже бесплатные юзеры, у которых нет проподписки. Правда, на бесплатном тарифе доступна генерация
9:15

Обзор результата: HTML-сайт и PDF-книга рецептов.

через нанобана, буквально там два-три изображения. На предыдущей модели, по-моему, там около сотни для бесплатных юзеров можно генерировать картинки. Для платных юзеров лимиты гораздо выше. Я уже не помню точно сколько, но можно очень много генерировать картинок через Nano Banana Pro, самую последнюю модель, которая хорошо работает как с визуалом, так и с текстом. Итак, возвращаемся к нашему MCP-серверу. Как я и сказал, он предназначен как раз-таки, чтобы без API ключей генерировать вот через интерфейс Gemini, вернее, через интерфейс ClД-код будет обращаться к браузерной версии Gemini и генерировать картинки и автоматически убирать waterm. как установить этот MCP. Здесь, в принципе, всё расписано, но предлагаю опять же руками ничего не делать. Мы скопируем ссылку на сам репозиторий, вернёмся в клод-код, вставим эту ссылку и попросим его просто-напросто: "Установи этот
10:10

Итоги: Нейросети — это новый способ общения с компьютером.

MCP-сервер". Сейчас я это делать не буду, потому что он у меня уже установлен. Вы это сможете запросто установить вот с помощью клод-кода. Он сделает это самостоятельно. Также можете спросить у него, что делает этом CP-сервер и как им грамотно пользоваться. он это вам всё расскажет. MCP-сервер этот был создан на основе вот этого вот репозитория, где с помощью реверс инжиниринга как раз-таки автор смог работать с моделью Geminii без APA ключей. Для этого MCP-сервера я также написал ещё с помощью клод-кода, естественно, э скил, который умеет работать вот с этим MCP-сервером, то есть понимает, как грамотнее с ним работать при генерации картинок, в том числе. Итак, после того, как мы с вами установили MCP-сервер, вернее, попросили клод-код установить этот MCP-сервер, мы его теперь можем попросить. Сгенерируй нам, пожалуйста, релевантные картинки для этих рецептов с помощью Gemini MCPLi. Отправляем вот такой незамысловатый промт. Посмотрим, как он сориентируется. Видите, он ответил, что понял. Запущу скрип распознавания, чтобы получить рецепты. Да, мы же его остановили. Давайте ещё раз его остановим. Посмотри в папке. У тебя уже есть все файлики с транскрибацией этого видео, поэтому на основании этих файликов давай сделаем HTML страничку с нашей кулинарной книгой. Пусть она выглядит по-домашнему красиво. Сгенерируй необходимые картинки для неё, а также ещё сгенерируй в таком же стиле PDF файл, если я вдруг захочу её распечатать. Вся информация у тебя для этого уже есть. Я напомню, я просто-напросто уже сделал это всё заранее и все файлики положил ему в папку. Друзья, мы сейчас с вами действуем подробно и по шагам, но теоретически мы могли вообще пойти другим путём. То есть мы ему сейчас даём несколько промтов. Ну, потому что мы учимся, я это всё показываю, как делал я, как экспериментировал я. Вы же моете сразу снять видео на телефон, установить MCP-сервер, который я показал. Для чего? Для того, чтобы генерировать картинки бесплатно. И после этого дать команду лод-коду, сказать ему: "Смотри, у тебя есть видео, мне необходимо его распознать и сделать из него там HTML-страничку, PDF-файл, полноценное веб-приложение можно сделать, то есть всё, что вы захотите, всё, что душе угодно". Давайте вернёмся к нашему клод-коду. Смотрите, он уже, да, он увидел, что у нас лежит в папке. Он уже пишет нам, что вижу, есть транскрибация и даже предыдущая попытка. 114 рецептов. Хоть впечатляющая коллекция, видите, может умеет нас похвалить, сгенерировать картинки для ключевых рецептов, создать красивый HTML, создать PDM в тоже стиле. И пошёл работать. Он установит для себя все необходимые для этого инструменты, будь то какие-то библиотеки Python и так далее и тому подобное. Вы просто-напросто смотрите ему, если необходимо что-то разрешить, разрешайте и не мешайте вашему помощнику, скажем так, работать. Как работает это MCP-сервер? Клод-код вам его установит. После того, как он вам его установит, вы должны будете в браузере залогинены быть. И после того, как он запустит его и сгенерирует картинки, для удаления термарки, он самостоятельно скачает ещё локальную Лама модель. Она весит около 208 Мб и служит для того, чтобы удалять вот этот водяной знак. Если вас устраивает термарка, вы просто-напросто можете попросить клод-код, чтобы он эту локальную модель не скачивал. Если вам что-то непонятно и вы в чём-то засомневались, вы в любой момент можете остановить клод-код, нажать клавишу Escape и задать ему какой-то вопрос. То есть скажи, дружище, а что ты сейчас делаешь и для чего? Я немножко не понимаю. Объясни мне, пожалуйста. И он прервётся. Вы отправите ему этот новый запрос, он вам на него сейчас ответит. Ну, смотрите, он, конечно, объясню. Вот что я делаю по порядку. Пишет нам, что он делает. Если мы с этим согласны, мы ему просто-напросто говорим: "Давай, продолжай", и он продолжит работу с того места, на котором мы его установили. То есть можно действовать и так, можно останавливать его несколько раз. Страшного в этом абсолютно ничего нет. Перед видео, естественно, я уже всё это прогонял несколько раз и сделал уже и HTML-файл, и PDF-файл, который я вам сейчас покажу. Смотрите, что получилось. Итак, вот он создал такую замечательную интернет-страничку, где есть категории, рецепты, каждый рецепт можно открыть, добавить в любимые. Сделал я это, по-моему, буквально за несколько запросов. То есть он сначала сгенерировал какую-то одну страничку, я посмотрел, как она работает, попросил её дополнить, что-то исправить, и он это прекрасно с этим справился. Также он сгенерировал по моей просьбе вот такой вот PDF-документ с этими же рецептами. Ну, посмотрите, неужели это не красота? Если хотите распечатать, можно распечатать и сделать свою собственную книгу рецептов, подарить жене на 8 марта, допустим. Итак, давайте подведём итог. Мы взяли старый блокнот, потратили несколько минут для того, чтобы снять видео, и получили из этого готовый цифровой продукт. Главный вывод, который я хочу донести, что клод-код - это не сложный инструмент для разработчиков. Это инструмент, который позволяет обыкновенному человеку решать обыкновенные задачи. Это новый способ взаимодействия с компьютером, где вы просто ставите задачу голосом, а этот инструмент выполняет работу за вас, будь то это работа с документами, с отчётами или ещё с чем-то. Итак, MCP-сервер, который я показывал, будет доступен на моём GitHub. Все ссылки будут в Telegram-канале. Если вы нашли что-то для себя полезное и хотите поделиться этим с другими, подписывайтесь на канал, ставьте лайки, комментируйте, ну и, конечно, не забывайте делиться этим видео с другими. Спасибо большое, что досмотрели до конца. Всего хорошего вам. Обязательно увидимся. Пока. Yeah.

Ещё от Дрессировщик Нейросетей

Ctrl+V

Экстракт Знаний в Telegram

Транскрипты, идеи, методички — всё самое полезное из лучших YouTube-каналов.

Подписаться