Как сделать качественную транскрибацию (расшифровку) видео или аудио бесплатно, без ограничений по времени и с полной защитой данных? В этом видео я показываю коробочное решение на базе мощной нейросети OpenAI Whisper.
⚠️ ВАЖНО: Чтобы ваш компьютер не «завис» при обработке, нужно правильно подобрать настройки (модель whisper).
🔗 Скачать программу (Buzz) и инструкцию по выбору модели: https://t.me/+NmiOwLntWek2NDky
Удобная и выгодная оплата зарубежных сервисов: https://t.me/pakopay_bot?start=utm_rixai
20% скидка на первую комиссию при оплате.
Все нейросети в одном месте - телеграм бот + веб интерфейс: https://syntx.ai/welcome/06Eoljlo
- Как за 30 секунд понять, потянет ли ваш ПК (CPU vs GPU).
- Сколько видеопамяти нужно для модели Whisper Large-v3 Turbo.
- Какую версию ставить на слабый офисный ноутбук, чтобы всё летало.
- Разбор для Windows и Mac (M1/M2/M3/M4).
👉 Обязательно прочитайте перед установкой, чтобы не ждать расшифровку часами!
Забудьте про платные сервисы с подпиской по $20 и лимитами. Мы установим софт локально. Это идеальный способ перевести в текст рабочие созвоны, лекции или интервью, не загружая их в облако.
В этом выпуске:
- Как работает нейросеть Whisper через удобную оболочку Buzz.
- Как получить текстовую расшифровку аудио и видео любой длительности оффлайн.
- Выбор модели (Large v3 Turbo, Medium, Small) — что выбрать под своё железо?
- Лайфхак: Как с помощью GigaChat (или ChatGPT) сделать выжимку и Summary из транскрибации.
- Как превратить хаос из слов в чёткий план действий за 1 минуту.
Это решение работает на Windows, Mac и Linux, использует ресурсы вашего ПК и даёт точность до 99%.
👇 Не забудь подписаться и забрать файлы в Telegram!
⏱ ТАЙМКОДЫ:
00:00 Почему нельзя загружать созвоны в облачные сервисы? (Приватность)
00:55 Что такое Buzz и OpenAI Whisper: Бесплатное решение
01:55 Установка программы с GitHub (Mac/Windows)
03:17 Разбор моделей Whisper: От Tiny до Large v3 Turbo
05:00 Пошаговая настройка: Язык и отключение таймкодов (Word-level)
07:45 Форматы экспорта: Почему SRT с разметкой лучше TXT
11:25 Что делать с текстом? Обработка через GigaChat
12:13 Промт для нейросети: Делаем Summary и список задач из воды
14:15 Итог: Идеальная связка для работы с текстом
#транскрибация #openaiwhisper #нейросети #переводвидеовтекст #расшифровка #искусственныйинтеллект #whisperai #бесплатныепрограммы #gigachat #продуктивность #фриланс #автосубтитры #оффлайн #безопасность
Почему нельзя загружать созвоны в облачные сервисы? (Приватность)
В этом видео я покажу, как делать транскрибацию абсолютно любого видео, любой длительности, локально и бесплатно, чтобы не платить сервисом по 20 долларов за подписку, где вечно какие-то лимиты по минутам и какой-то лишний геморрой. Решение полностью бесплатное, но требует только вашего компьютера или ноутбука. Где это может пригодиться? Например, вы провели созвон с клиентом, запись конфиденциальная, секретная, там персональные данные. И загружать такое в облачные сервисы просто нельзя, потому что, во-первых, это запрещено законам Российской Федерации передавать данные за границу. Ну и вообще хранить где-то персональные данные небезопасно. А здесь вы можете выдернуть провод из интернета, то есть вот так вот отключить, и у вас будет всё работать прекрасно, потому что всё обрабатывается внутри вашего ноутбука или стационарного ПК. Никто ничего не украдёт, ваши данные не уходят на сервера, они остаются у вас на диске. Я покажу простое коробочное решение, то
Что такое Buzz и OpenAI Whisper: Бесплатное решение
есть программа с кнопками, которая позволит вам начать работу буквально за пару минут. Программа называется BAS - это решение с открытым исходным кодом, которое лежит на GitHub. Суть простая. Разработчики взяли мощную найросеть Visper от компании Openi. Это та же компания, которая создала чат GPT и Open AI выложили эту модель в открытый доступ, поэтому она бесплатная. Программа БАЗ - это просто некая удобная оболочка вокруг этой нейросети. Она создана для того, чтобы вы не мучились кодом, а просто нажимали определённые кнопки, и у вас всё работало. Конечно, эту же нейросеть можно запустить через консоль, устанавливая кучу разных пакетов и расширений. Но зачем нам использовать топор, когда есть бензопила? Как раз-таки БАЗ - это и есть наша бензопила. Красивый интерфейс. Ну, по поводу красивого, наверное, не уверен, но, по крайней мере, точно удобный и результат в один клик. Все ссылки на скачивание программ я оставлю в своём Telegram-канале. переходите, там будет пост с этим видео и всеми дополнительными инструкциями и файлами.
Установка баз, как у обычного приложения, максимально простая. Для этого мы либо в поиске пишем баз GitHub, либо, ну, вы можете перейти по прямой ссылке, как я и сказал в Telegram-канале, и у нас открывается вот такой вот сайт. Не пугайтесь, здесь вам не нужно изучать и понимать, что значат все эти файлы. Достаточно пролистать чуть-чуть вниз, и здесь будет такой раздел, как installation, да, то есть установка. Здесь есть три версии: MacOS, Windows и Linux. Да, нам нужно, ну, в данном случае у меня операционная система MacOS, я, соответственно, выбираю вот эту вот ссылку Souls Forge. А если у вас Windows, то выбирайте вот эту ссылку. Давайте на неё нажмём, и нас перекинет на сайт для скачивания этого приложения. Здесь есть кнопка Download Latest version, то есть скачать последнюю версию. И при нажатии на эту кнопку у меня просто скачается DMG файл. А если у вас Windows, соответственно, у вас должен скачаться ишник. И дальше вы просто-напросто устанавливаете это приложение на MacBook, ну, в данном случае либо Windows, и его открываете. Выглядит оно следующим образом. Это вот такой вот интерфейс, как я и сказал, и ещё раз повторю, а это просто красивая оболочка. И под капотом там находится нейросеть с открытым исходным кодом от компании Open AI, которая называется Visper. А чтобы посмотреть, что это действительно так, я могу перейти в раздел настройки. Вот я открыл. И здесь
есть раздел models. И здесь у нас есть выбор разных моделей. И сейчас я прокомментирую, почему здесь так много моделей и какая за что отвечает. Вообще, что такое эти модели, base, small, medium и large. Представьте, что модель - это словарь, который знает нейросеть. Модели тайни и base - это некие карманные словарики. Они работают мгновенно, жрут мало ресурсов и запустятся даже на слабом ноутбуке или компьютере. Но качество там так себе. Могут путать слова окончания и не слышать тихие звуки. Их используем только для тестов. Следующее - это у нас модели small и medium. Это уже уровень школьного учебника, некая золотая середина. Если у вас обычный средний компьютер, выбирайте именно эти модели. Они делают качественно, с приемлемой скоростью. Ну и финально - это модель large. Это некий профессор лингвистики. Самая мощная и самая умная модель. Она фактически идеально слышит всё, но она достаточно требовательная к железу. Если у вас слабый компьютер и выберете модель large, то в какой-то момент даже может всё просто-напросто зависнуть. Поэтому моя рекомендация, если берёте эту модель, то закрывайте всё лишнее. Браузер с кучей вкладок, Photoshop, игры. То есть максимально всё выключаем и закрываем, чтобы ничего не накружало систему нашего компьютера, иначе процесс может затянуться или просто-напросто вылезти какая-то неприятная ошибка. И ещё важный нюанс про версии. Здесь вы видите, что есть разные версии. Это large, версия 2, версия 3, версия 3 Turbo. Берите версию Turbo. Это новая оптимизированная модель. Она такая же умная, как обычная Large, но работает в 4-8 раз быстрее и меньше грузит систему. Это сейчас самый лучший выбор. Теперь
Пошаговая настройка: Язык и отключение таймкодов (Word-level)
когда мы разобрались с моделями, как работать дальше с этой программой. Во-первых, необходимо будет скачать вам выбранную модель. То есть вы на неё нажимаете, и внизу есть кнопка Download. Как вы видите, у меня сейчас скачано три модели. Это large, large V3 и V3 Turbo. Если я, например, нажму на версию тайне и нажму кнопку Download, у меня какое-то время она будет подгружаться. Ну, это можете сделать либо через интерфейс настроек, либо сделать это, а, чуть позже, когда, например, вы добавите уже какое-то видео. И здесь при выборе модели, если она у вас не установлена, она будет сначала устанавливаться, а потом будет выполняться транскрибация. А, ну, я сейчас быстро показал. Давайте откатимся на шаг назад. Чтобы вообще что-то добавить в этот интерфейс, нужно нажать в левом верхнем углу на значок плюсика. И здесь вы можете выбрать либо видео, либо аудио. После этого нажимаете кнопку Open и дальше открывается вот такое окно настроек. Вверху вы ничего не трогаете, то есть модель у нас Visсper. Ниже вы выбираете, какую конкретную модель вы хотите выбрать. У меня в данном случае стоит Large V3 Turbo. Задача, которую должна выполнить эта модель, в данном случае транскрибация и язык. Ну, я советую ставить не detect language, а прямо конкретно выбирать, а, на каком языке у вас видео или аудио. В данном случае я поставлю Russian, то есть русский. И здесь ещё есть две важные галочки, которые давайте мы с вами тоже разберём. Галочку Word Level Timings, то есть это самая первая, вы видите, она у меня выключена. А что она делает? Она у нас берёт и при транскрибации каждое слово добавляет к нему временную метку. А смотрите, как это выглядит. У меня уже был пример такой транскрибации, если я не ошибаюсь. Да, вот она. И мы видим, что у нас вот, например, слово начинаю, у нас есть старт и начало. Ну, когда я это слово говорю, есть слово запись. И вот так у каждого слова. И когда если вы экспортируете финальный файл, то смотрите, насколько он получится просто гигантским и огромным. Поэтому я советую эту галочку выключать, чтобы, э, если мы будем в дальнейшем с этим файлом работать, например, через нейросеть, да, чтобы мы смогли в неё всё спокойно отправить и она у нас не ругалась, что мы отправили ей слишком много данных. Вот вы видите, что буквально каждый предлог, слово, букву, он отдельно выносит в временные разметки. Это нам не нужно. Поэтому эту функцию сразу же отключаем при транскрибировании видео. И здесь есть ещё одна галочка, это extract spech. Её оставляем. В этом случае нейросеть будет извлекать из нашего видео или аудио только, ну, например, какой-то голос. Она будет пропускать лишние шумы, отсеивать молчание. То есть это позволяет ей меньше галлюцинировать. И внизу у нас есть три варианта
Форматы экспорта: Почему SRT с разметкой лучше TXT
экспорта. Это TXT, CRT и VTT. А, ну, формат TXT - это обычно экспортранскрибации, там не будет никаких разметок. То есть, смотрите, если я сейчас возьму тот же самый пример и сделаю формат экспорта в txt, открою его, мы видим, что просто, ну, полотно текста без каких-то меток. Но чаще всего я делаю экспорт в формате CRT, то есть это то же самое полотно текста, только с разметкой. И смотрите, если у меня здесь вот галочка не стоит, то транскрибация будет выглядеть у меня вот таким образом. То есть у меня есть какое-то предложение, да, ну, полноценное, большое, и здесь указаны опять же временные метки. Если я сейчас это экспортирую на свой компьютер, то у меня будет это выглядеть следующим образом. То есть всё уже будет чётко, читаемо, и нейросеть сможет очень хорошо потом работать с этой информацией. И посмотрите, насколько большая разница между тем, когда мы эту галочку убрали. То есть, смотрите, здесь, ну, не так много текста получилось. И в том случае, если мы её оставили, то есть посмотрите, как долго я сейчас просто листаю и не могу дойти до конца. А здесь, буквально вот за пару пролистываний у меня вся транскрибация готова с временными метками. Ну и последний формат VTT - это очень похож на формат CRT, то есть также с временными разметками, но его нет смысла вообще трогать. У вас будет работа только с этими двумя форматами. Либо вы экспортируете просто текст без разметки, либо с разметкой. Вот, кстати говоря, если вы экспортируете файл с разметкой, то я вам советую потом, когда вы его скачаете к себе на компьютер, а, нажать здесь правая кнопка мыши, переименовать и srt стереть, то есть после точки, и написать txt. А в этом случае вы потом сможете этот файл спокойно подгрузить в нейросеть, и она не будет ругаться, что не поддерживается формат. Вот. Либо второй вариант есть - это мы берём файл с меткой srt, нажимаем правой кнопкой мыши и открыть в приложении, выбираем текстовый документ. У вас также открывается транскрибация, и вы её отсюда уже можете, например, скопировать и дальше с ней работать через те же самые нейросети. Ну и здесь у нас есть тоже удобные столбцы, то есть это название файла, это модель, которую мы выбрали, статус, а в данном случае completed и время выполнения задачи. А задача - это транскрибация, дата начала, дата, точнее, окончание и дата начала. И можно сделать какие-то, например, заметки. Ну, я не знаю вообще, зачем нужны здесь заметки, но тем не менее, если кому-то нужно, тоже можно здесь два раза нажать и что-то прописать, нажать кнопку окей. И это у нас появится здесь. То есть давайте подведу небольшой итог, а, по интерфейсу. Когда у вас файл будет в статусе completed, вы можете на него два раза нажать и здесь есть кнопка экспорт и уже выбрать, в каком формате вам удобно этот файл экспортировать. Остальные кнопки можете не трогать, я их не тестировал. А второй важный нюанс, когда у вас транскрибация файла закончится, она у вас появится в том числе в той папке, в которой у вас изначально было то самое видео, которое вы добавили через значок плюсика. Поэтому вам не обязательно делать экспорт из интерфейса. вы сможете найти файлик прямо в вашей папке. Ну, в качестве примера мы видим, что я делал также транскрибацию эфира, и он мне прямо в эту же папку, где у меня находилось видео, а, добавил его транскрибацию. Ну, в том формате, который я изначально указал при а выборе файла. То есть, ещё раз давайте покажу. Вот здесь я, например, указал txtr нажатии кнопки run, значит, у меня в папке появятся эти два файла. Если я выберу что-то одно, значит, появится один файл. Вот. Но я также могу и сделать это через эту кнопку. Хорошо, мы разобрались с сервисом баз, но давайте честно, получить сырой текст - это только полдела. Там есть эканья
запинки, вода. Читать это глазами очень больно. Поэтому давайте рассмотрим, что делать дальше. Теперь нам нужно превратить этот хаос в какую-то конкретную измеримую пользу. Я покажу на примере гигачат. Это российская нейросеть. Она бесплатная и отлично работает с русским языком. Вы можете сделать тот же самый процесс через абсолютно любую наросеть, Gemini, там что у нас есть Clot Gr или чат GPT. Давайте возьмём нашу готовую транскрибацию из сервиса баз. Ну, как вы видели, я уже сделал экспорт в загрузке. То есть у меня вот здесь есть формат TXT. Это у меня получается, давайте посмотрим, да, это у меня с разметкой. Дальше я перехожу в гигачат. Здесь нажимаю на значок прикрепить файл и выбираю транскрибацию с разметкой. И вот тут начинается магия промтов. Вы можете
Промт для нейросети: Делаем Summary и список задач из воды
не просто сделать таймлайн, а вытащить из текста конкретную пользу. Например, если это был созвон с клиентом, то можем ему написать: "Найди в этом тексте все договорённости и важные акценты, на которых настаивал клиент. Выпиши их списком". Ну, то есть он проанализирует файл, транскрибацию, где-то может напишет и сошлётся на определённые, а временные метки и сделает финальный отчёт. или если у вас прошла планёрка с командой, можно ему написать: "Извлеки из этой расшифровки все задачи, приоритеты и планы на неделю". То есть кто за что вообще отвечает. Давайте посмотрим, как это выглядит на практике. Я им пишу такой запрос: я хочу выложить запись эфира в свой Telegram-канал, но для этого я хочу сделать таймлайн с основными темами из видео. Твоя задача - проанализировать прикреплённый файл и составить таймлайн в формате, ну, то есть время, потом тире и заголовок тема. Не дроби слишком сильно тему. Важно выделить самое важное. Ну такая получился повтор, но это не страшно. Найросеть в любом случае поймёт. И мы отправляем этот запрос и посмотрим сейчас, что она нам выдаст. Хочется здесь ещё остановиться на том, что почему я вообще прикрепил транскрибацию файлом, а не просто вставил её в чат. Давайте представим а ситуацию, что а я вот так вот взял, скопировал и вставил прямо в чат эту транскрибацию. Хорошо, если она у меня небольшая, да, например, там минут на 20-30. Но что, если у вас транскрибация на полтора-2 часа? В этом случае нейросеть может выдать ошибку, что вы отправили слишком длинный запрос и сократите его. Чтобы таких ошибок не было, старайтесь прикреплять транскрибации именно файлом вообще, ну, в любой найросети. В данном случае я использую гигачат, но сейчас абсолютно любая нейросеть поддерживает возможность прикрепления файлов. И вы точно также можете это сделать и через чат GPT, и любую другую нейронку. А вот мы видим, что он проанализировал транскрибацию моего видео и чётко написал понятные таймлайны, то есть начало записи, повтор, дальше подробное сравнение, демонстрация готовых ассистентов и так
далее. По этому же примеру вы можете корректировать запрос как угодно, попросить нейросеть найти ошибки в разговоре или сделать краткое самое для тех, кто пропустил встречу. Всё, у вас готовый, идеальный рабочий материал. Как я и говорил, все ссылки и дополнительные материалы из видео вы найдёте в моём Telegram-канале. Забирайте, пользуйтесь, ну и, конечно же, подписывайтесь и увидимся в новых видео.