# Super Whisper на macOS. Голосовые команды с ИИ промптами | AI Mindset

## Метаданные

- **Канал:** AI Mindset
- **YouTube:** https://www.youtube.com/watch?v=lCh4FDInVtY
- **Дата:** 07.02.2025
- **Длительность:** 26:16
- **Просмотры:** 1,118
- **Источник:** https://ekstraktznaniy.ru/video/20404

## Описание

разбираем Super Whisper — приложение для macOS, которое превращает голос в текст с последующей обработкой через ИИ. смотрим на практические кейсы для автоматизации текстовых задач.

философия голосового взаимодействия с ИИ меняет подход к созданию контента — вместо печати мы говорим, а машина не просто транскрибирует, но и улучшает наши мысли через промпты.

*⚙︎ рассматриваем тулы:*
Super Whisper для macOS ($5/месяц), различные модели Whisper для распознавания речи, Claude/GPT для обработки текста, интеграция с Obsidian через плагины

*◉ основные идеи:*
двухэтапный процесс — сначала голос в текст, затем ИИ-обработка через кастомные промпты, создание специализированных режимов под разные задачи, автоматическое переключение режимов по контексту приложений

*→ на практике:*
очистка текста и форматирование, эмоциональный журналинг, перевод с русского на английский для бизнес-коммуникаций, создание диаграмм Mermaid из голосовых команд, работа с контекстом экрана

*⚡︎ автоматизация* голосово

## Транскрипт

### введение в Super Whisper []

Всем привет кто будет смотреть это в записи хотел бы показать пару своих Flow Super Whisper - это такое приложение которая слушает голос в отдельном окне и переводит его в текст и потом на него накладывает поверх какой-то промт А работает только на Маке а доступно по вот этому Вот адресу а стоит там около 5 долларов в месяц А живёт команд меню и настраивается оттуда же есть возможность перейти в настройки Вот я сегодня создал уже одну новую моду механика такая что настраиваются моды как они называются и в каждой моде есть какие-то темплейты можно выбрать можно кастомный создать Давайте начнём с самого кастомизированная Т голос это просто перевод голоса в текст через виспер которая делает это на каком-то языке либо тут Важно есть опция мультиязычность два языка поддерживает есть модели которые не поддерживают два языка они делают только на английском или На каком-то выбранном списке языков тут кое в каких моделях нет возможности поддерживать и русский и английский поэтому выбирая модель распознавания смотрите есть ли здесь автомати или ставьте её сначала на русский там и на английский создавать для этого разные моды а-а Да пару из важных настроек А вот эта вот История это слушает системный звук

### настройка языков и моделей [1:40]

То есть например если кто-то из вас Сейчас начнёт говорить э и я включу visper он будет это воспринимать как звук и тоже его запишет или я включу например YouTube видео и он будет воспринимать это тоже как речь и это запишет иногда это бывает полезно например э какой-то блог подкаста на что-то полезное сказали Отмотай сделали 2x записали системный звук распознал на скорости 2x прямо вот в активную строку какие-то такие кейсы можно придумать а можно разбивать на спикеров То есть он не знаю По каким механизмом и какой технологией он будет пользоваться он будет бить всю речь на спикеров если например опять же это подкаст или мы на звонке пишем а не знаю бэкграунд этой технологии что он для этого делает И какая у него технология для этого использует Но это работает в каком-то виде А и можно сделать триггеры когда определённая мода запускается при нахождении в апе определённой То есть ты находишься в обсидиан например и вместо того чтобы постоянно переключаться например для обсидиана у меня что-то другая есть вместо того чтобы переходить на какой-то другой формат распознавания можно в настройках супер виспера поставить что если он находится внутри обсидиана или внутри какого-то сайта тогда я использую именно этот мод или то же самое на сайт если я там например на Фейсбуке пожалуйста Используй Вот это для написания сообщений э можно кастомизировать и настроиться так под семя вторая часть этого процесса когда мы распознали звук и что-то с ним сделали - это наложить на него какой-то я промт э выбираем модель а разные есть и например какой-нибудь классический sonet 3. 5 и с ней

### создание кастомных промптов [3:32]

происходит вот этот промт мы пишем промт и делаем его конфигурацию я покажу уже из каких-нибудь готовых мод которые у меня есть например самая моя распространённая это вот эта история Она работает на модели Просто она чуть побыстрее чем Ультра автоматический язык на двух то есть и она использует Облачный Клод с таким вот промто а она чистит текст изменяет его форматирование пунктуации спеллинг грамматику разбивает на параграфы если это нужно Если есть идеи сильно отличающийся по параграфам и в очевидном кейсе був То есть если например там какой-нибудь будет он Нант структурным списком его форматировать не всегда это работает Т действительно вот есть какая-то поправка и вот это эта фраза она сильно влияет Возможно это промт можно тоже как-то улучшить и оптимизировать чтобы он действительно выделял важные кейсы есть попытки его тоже как-то затащить исходя уже из опыта никогда там не меняй слова не меняй язык не возвращай ры подготовлены какие-то такие фразы Они то меняются то как-то обновляются если я вижу какую-то ошибку я могу зайти сюда и вот попробовать вот таким вот образом её исправить я капсом прописываю чего я не хочу чтобы здесь происходило и тут есть вот пара таких улучшений Что делает вот этот промт Давайте мы его сразу тогда

### демонстрация режима очистки текста [5:18]

продемонстрируем какой-нибудь пустой текст в обсидиане у меня пробел вот он сечас чи и в какой-то момент какой когда я его восстановлю он выведет её на экран текстом разбитым по абзацам разбитым по Возможно даже вот этим пауза которые я сейчас делаю потому что он старается это делать если я начну перечислять что для этого я использую обсидиан WF курсор и другие инструменты лиж менеджмента Вполне вероятно он пробует здесь достать его как список и вернуть списком попробуем что получилось Можно конечно почище был какой-то кейс взять то есть это такое всё-таки там много объяснений Ну вот получилось то есть он достал сдал какое-то описание и в какой-то момент переключился на Бут поинты Ну вот это то что я от него хотел это важно иногда это полезно когда я просто начинаю перечислять он сходу начинает это делать здесь ему было на самом деле достаточно сложно Потому что много контекста вот это вот миксо вот это вот потом резко переход произошёл по смыслу это не так очевидно связано ну плюс ещё и грамматика поправилась паузы он не сделал Но иногда он он отделяет точку от запятой в общем я это хотел сказать он Многоточие он не ставит прямо такие стилистические паузы но точку от запятой если Сделан вот пробел в произношении он от делит А да это вот такой самый базовый мой промт я так пишу все сообщения на все коммуникации отвечаю Он не берёт в контекст ничего на экране Он не берёт буфер обмена всё это настраивается давайте сейчас вернёмся в вот этот промт вот он не берёт контекст приложения Хотя может как опция скопированный в буфер Хотя может в данном случае я хочу чтобы это максимально чистый ответ был просто классно

### настройка ИИ-моделей [7:28]

поправления там поработал чтобы эти вещи сделать там адаптивные под меня аэ какую-то грамматику Как править э и так далее какие-то слова важные с большой буквы Э у супер виспера То есть это не то чтобы много работы у него есть отдельный Mod message Если вы сейчас будете заново его начинать там очень похожий промт и похожие примеры Вы можете его просто взять и немножко под себя адаптировать что вы там привыкли писать там на русском вот такие вот у меня там термины есть и вот их добавить в пример и он тогда чаще начнёт их улавливать Вот это настройка как бы моего промтара работало А вот чтобы вот эти вот настройки любого промтара какие-то модели и какие-то языковые модели они в отдельных вкладках отдельно настраиваются То есть их можно либо скачать это вот голосовые модели и или установить АИ модели по какому-то ключу их тоже много разных тропика openi grama Алама - это вообще локальная история можно здесь развернуть наверное из важного из того что я использую к по своему ключу и я использую рок потому что он быстрый рок вообще бесплатный по ключу работает ключ можно в интернете найти получить А есть у него какие-то свои модели вот как Глеб рассказывал которые даже с медицинской данными по-моему вот Medical работает Если специфический кейс под какой-то ещ домен у него есть свои голосовые модели которые заточены под конкретное направление вот поэкспериментировать надо я пришёл к тому что вот этой вот про для меня достаточно для большинства кейсов важно для меня чтобы она была мультиязычность словари т я не чем словарь отличается от replacement - это наверное более какой-то конкретный пример замены Ну каких-то терминов и формулировок Возможно даже вот ну ссылок на что-то но я не понимаю зачем этим пользоваться здесь когда есть ниты во всех других местах а вот словарь - Это прикольная тема Это вот те слова которые редко встречаются в таком написании но я их так часто пишу например обсидиан например название этого проекта и он действительно это улавливает То есть если я сейчас начну вот тот же обси ну не всегда очевидное слово он его находит он его делает вот словарь это базовая конфигурация апы Как где что устанавливать где она отображается как её вызывать тут сами разберётесь по всем этим стилистическим историям тоже важный поит история она вызывается так Или она вызывается из отсюда когда что-то сломалось можно вернуться к оригинальному войс вот оригинальный Voice Вот мой то что было сделано с иногда это полезно иногда вот этот блок просто не работает и Ну он сломался что-то там не распознала или плохо распознала а там было например минутное сообщение Классно откатиться к

### словари и замены терминов [10:44]

этому сообщению посмотреть что было можно его process AG сделать или просто взять текст что-то уже с ним хотя бы иметь возможность делать сразу да это так из таких умных что можно по кейсам показать ещ вот этот Мой основной клининг я

### эмоциональный журнал Self Help [11:04]

показал есть ещё SF я его уже тоже показывал покажу ещё раз это такой кратенько эмоциональный журнал я сейчас провожу лекцию по собственно по супер виспе показываю кейсы которые можно попробовать себе установить чувствую се хорошо поэтому немножко устал было уже несколько звонков и сегодня достаточно сложный день но восторженно сильно просто меня и он из этого тоже по определённому нту сделает такой эмоциональный чек что со мной происходит как я себя чувствую вот прямо на экран это вывозит а потом вставит в обсидиан в таком формате Если вы часто пишите какие-то кратенько вставлять А можешь это пром показать Да могу вот су виспер как это выглядит Вот текст выглядит Да вот как выдача выглядит промт выглядит вот таким образом вот называется Self Help Он работает на клоде на русском языке только потому что час такие штуки на русском говоришь и промт выглядит Вот так це эмоциональное состояние Но я могу потом его скинуть а форматирование понимаю это ВС в пром Да вот формат ответа по каждому пункту использу списке Вот это пром вот потом могу сну зде можно сде мм Вот ещё раз Option пробел вызывается peris Option K вызывает модель Ну выбор мода и здесь можно быстро переключаться на что-то из интересного вот тоже что я Часто использую когда сложная коммуникация на английском языке я английский знаю недостаточно там хорошо для бизнес прям общения я использую такую историю когда

### перевод на английский [13:27]

я начинаю говорить ему на русском а он переводит это в такой какой-то английский Я задал его какой-то определённого стиля там более бизнесов он сейчас мне выдаст Вот то сообщение которое я сейчас надиктовать на английском языке а того отрывка фразы которые которой я говорил вот ну собственно это произошло полезно действительно когда есть контекст когда есть сообщение то класс на него отвечать например в этот промт ещё можно до улучшить его Мне кажется здесь это было бы актуально Вот мои моды здесь добавить Возможно а он так он есть Да он он читает буфер То есть если я выделю сообщение и начну на него отвечать то он ответит на него как бы я Ната русским я пойду в какую-нибудь там коммуникацию в телеграме на английском выделю скопирую и ответить на это сообщение уважительно и радостно Я не знаю насколько это получится Сейчас да он да тут с промто можно поиграться но в общем механика того что он может читать он при просто перевёл можно заложить в промт Мне кажется здесь оно не было заложено механику того что если я тебе даю контекст вмте то отвечай на этот контекст ответом а не переводом Ну вот что-то такое написать проте и тогда бы он это делал вот тут пространство для экспериментов сейчас не хочу вот на этом сильно останавливаться хочу другие кейсы показать Да что ещё из такого полезного есть вот из того что ну какие-то журналы которые вы пишете в определённом стиле для вас можно под себя как-то адаптировать наверное вот мей Это скорее интересная просто история нарисуй мне диаграмму подходов к ведению обсидиан с точки зрения правильного лиж менеджмента а не знаю насколько это корректный вообще вопрос но он из этого может сделать не mindmap того что как вообще подходит к ведению обсидиана и вставить его сюда вот обсидиан считает mermade как вид

### создание диаграмм с контекстом экрана [16:17]

диаграммы запрос был простой коряво оформлен но как-то был он может это сделать например в контексте этого вот связку mermade на контекст окна А вот давайте мы даже вот есть пром для этого мей тоже могу потом скинуть и вот Application context поставим так Я надеюсь я сохранил Да сохранил Давайте попробуем вот в какой-то я заметке нахожусь по статье А и попробуем здесь нарисуй мне диаграмму рисков и ограничений из этой статьи М не буду проверять ээ но он точно посмотрел сюда он точно отсюда что-то взял и вот именно потому что на экране это было и он добавил эти социальные факторы страхи общества Я не знаю насколько глубоко он провалился это Или он действительно взял только тот раздел который у него просил ну как бы идейно это сработало Вот мне кажется это тоже может быть интересный кейс то есть мы можем контекст брать с экрана и вот второй пример который я хотел тут показать я вот сегодня только его сделал мы можем смотреть на эту заметку не копируя ничего не выделяя у меня сес тут стоит грок поэтому раздел технический имплементации сделай его на русском и расширь ещё двумя пунктами Ну вот пример с форматированием можно поиграться но суть того что он может смотреть на экран он может доставать отсюда контекст из логики которую я говорю ему голосом и давать сюда ещё Ну какую-то задачу перевод например и реально он добавил ещё два пункта Вот это классный кейс Мне кажется и так можно делать по там любой заметки А давайте почище Ну тут я сегодня английским занимался там выписал пару фразеологизмов каких-то из списка этих фраз Достань словарь из десяти концепций да их дефиниции на английском Ну вот по-моему вот тут вот можно разогнаться вот если у вас понятен workflow С каким контекстом И как вы работаете И вы видите на экране что-то и вы хотите с этим что-то делать в паре супервизора это отлично работает Что я сделал Для этого если кто-то не знает в обсидиане есть там свои плагины и тут есть плагин который делает примерно такую же историю он делает у него есть опция General

### интеграция с Obsidian [20:07]

General Generation он исходя из контекста заметки продолжает список э дальше Ну вот он до развил эти идеи в таком же формате его логика использует такое же форматирование и у него есть ээ промт для этого вот он вот так вот он выглядит Сейчас я его вставлю сюда чтобы было понятнее а вот ты ассистент ты должен продлить контекст этой заметки пожалуйста проанализируй структуру Ну Используй похожий стиль форматирования не используя нового markdown форматирования используя такой же который уже есть в документе и так далее и я вот этот штуку скопировал просто и вставил в Super visper у меня создал есть отдельный мод сейчас он называется куда я вставил вот этот промт из обсидиана Вот это тот же промт никаких примеров не давал с примерами будет почище и поставил здесь гровс Модель которая очень быстро работает и он мне может тогда очень быстро из контекста этого файла Переведи need и да описание из контекста какие-то в таком же стиле описание с экрана Вот по-моему это прикольно с этим можно поиграться этим можно ему можно скормить больше примеров как мы хотим получить этот результат по-моему вот эта выдача классная а просто на сходу такой какой-то получилось и э а он всегда получается экран смотрит это он вместо тебя может на amazon за покупкой ходить Ну Давайте попробуем вот я не знаю Amazon сейчас я спалюсь с моим амазонок а Давайте попробуем что-нибудь такое Просто насколько это безопасны име Расскажи мне про этот велосипед А сколько он стоит Ну давайте вот сюда вставим это ну ладно отсюда Ну он да он может ходить на азон и доставать инфо отсюда а насколько это

### работа с внешними сайтами [22:28]

безопасно Мне кажется что он начинает слушать когда ты начинаешь нажимать кнопку Я не думаю что он реально слушает всё и видит всё он берёт э Я думаю так это устроено ты нажимаешь эту кнопку сейчас вот сейчас он сделал снимок экрана а загрузил его туда Как картинку распознал как текст и наложил на неё то что я сейчас сказал и когда я это сказал сейчас Я запил он его перевёл в текст отправил и вот когда это сейчас произошло картинка плюс считанный с неё контекст плюс что-то превратилось Вот в это понятно что я наговорил сейчас ерунду поэтому ерунда получилась но когда я попросил вот стоимость велика достать он её достал Вот Ну мне кажется вот в телеграме не работает К сожалению я попробовал он а плохо работает а скажите Сейчас что я обещал показать на ближайшем воркшопе Ну вот ерунда и скорее всего потому что я уже пробовал нашёл какую-то логику Что он отматывает вот сюда на какое-то количество сообщений непонятно на какое Возможно у Telegram есть какой-то там буфер который он не берёт только последнее сообщение непонятно на что здесь ссылаться ну то есть Вот вот он экран снимает или он всё-таки берёт несколько сообщений вот так вот он как ответит на это ну или так то есть ли разница может быть как-то можно добиться от него результата я не добился Я не понял И в итоге вроде как бы с телеграмом я не разобрался но с обсидианом такой Мод который смотрит экран и с экрана берёт контекст и его упаковывает как-то работает а да у нас уже 25 минут вот прям не хочется сильно дольше делать и уже как бы наверное закончились основные кейс ещ разговор нужно понять какая модель на каком языке распознаёт язык речь передаёт её в текст какой есть словарь каких-то специфических ваших терминов Какая поверх этого накладывается модель и Нужно ли в вот этой связке с этим промто ещё дополнительно читать контекст экрана и контекст буфера обмена Вот наверное основные параметры супер виспера Исходя из этого можно настраивать эти моды вызывать и в зависимости от того Где мы находимся их можно менять а дефолтная одна да ещё наверное последний момент

### выводы по настройке режимов [25:08]

есть ещё самая дефолтная она у меня называется просто Record сюда не включена и модель в данном случае она будет просто читать содержимое экрана и содержимое голоса не накладывая на это никакую модель это такое максимально чистое Просто распознавание речи наверное такая штука тоже будет многим полезно Да есть история если что-то сломалось можно откатиться в историю и взять вот не вот это а вот реально то что я сказал это полезно а Super visper есть в Рей касте А суви settings например моды можно запускать изнутри raycast rast - это вот такая productivity Spotlight оболочка который вызывает все команды системы маковской то есть отсюда можно запустить там какой-то мод прямо выбрать Вот они тут даже все за дефай нены Ну кстати я этого не видел Они тут прямо модель описана это прикольно Вот такая вот история про су visper я тогда стопа мою запись
