Контекстное окно в Claude Code / Antigravity / Codex: всё что необходимо знать
23:51

Контекстное окно в Claude Code / Antigravity / Codex: всё что необходимо знать

Владимир Карпухин 08.04.2026 4 990 просмотров 167 лайков

Machine-readable: Markdown · JSON API · Site index

Поделиться Telegram VK Бот
Транскрипт Скачать .md
Анализ с AI
Описание видео
Способы обойти блокировки Claude Code - https://t.me/vladimir_kkkkk/277 -------------------------------- ПОЛНЫЙ ГАЙД на Claude Code: ПОЛНЫЙ ГАЙД 2026 (2+ часовой курс) - https://www.youtube.com/watch?v=kFpX1FftH70 ПОЛНЫЙ ГАЙД на n8n. ИИ агенты и автоматизации (5+ часовой курс) - https://www.youtube.com/watch?v=tUufFo-JTZQ&t=8s -------------------------------- n8n - https://n8n.partnerlinks.io/9f51nckey33z beget - https://beget.com/p2340235/cloud/marketplace/n8n Речь в текст (aquavoice) - https://aquavoice.com/share?code=UE-TQN1 В этом видео я, Владимир Карпухин, разбираю всё что необходимо знать про контекстное окно — одну из ключевых проблем при работе с любым vibe coding инструментом: Claude Code, Cursor, Antigravity, Codex. Объясняю базу: что такое LLM, токены, как устроено контекстное окно и почему оно заполняется даже при пустом диалоге. Разбираю на практике, что именно занимает контекст — системный промпт, MCP-инструменты, файлы проекта, история диалога и рассуждения модели. Рассказываю про context rot — явление, при котором после 150-200 тысяч токенов модель начинает деградировать и тупить. Показываю как с этим бороться: автокомпакт, скиллы, rules, субагенты для изоляции грязных данных, дорожная карта проекта и логирование. Обсуждаю контекст-инжиниринг — термин Андрея Карпати, который описывает умение правильно готовить контекст перед запросом к модели. Всё на примерах из Claude Code, но применимо к любому AI coding инструменту. 00:00 - Введение: зачем разбираться в контекстном окне 00:56 - Что такое LLM и токены 03:42 - Что такое контекстное окно 05:09 - Иллюзия памяти: как LLM "запоминает" диалог 06:40 - Что заполняет контекст: системный промпт, MCP, файлы 09:24 - Автокомпакт: сжатие диалога 10:35 - Признаки переполнения контекста 12:28 - Веб-серч и захламление контекста 13:16 - Context rot: порог 150-200K токенов 15:49 - Контекст-инжиниринг от Андрея Карпати 16:35 - Скиллы, rules и экономия контекста 19:04 - Субагенты для экономии контекста 20:59 - Дорожная карта и логирование проекта

Оглавление (13 сегментов)

Введение: зачем разбираться в контекстном окне

В этом ролике я расскажу всё то, что необходимо  знать про контекстное окно в claude code, в   cursor, в antigravity, в codex, в windsurf, в  любом вайб кодинг инструменте. Я использую-код   каждый день. Я создаю с помощью него и и  автоматизации для бизнеса, поэтому я думаю,   меня можно слушать. Это актуально для любого  вайп-кодинг инструмента, но я буду на примере   код-кода разбирать. То есть в любом инструменте  есть команда типа сшкотек, чтобы посмотреть   как у вас сильно заполнено контекстное окно в  текущем диалоге. Смотрите, я вёл команду контекст,   и у меня показывает то, что у меня заполнено  3% из миллиона токенов. То есть 28. 000 токенов   заполнено. Почему так? Почему контекст вообще  заполняется, особенно учитывая то, что у меня   здесь ноль сообщений в диалоге? Сейчас мы это всё  разберём. Нужно пройтись немножечко сначала по   базе. Нам нужно понять, что такое LLM, что такое  токены, что такое это самое контекстное окно,   почему оно вообще заполняется, особенно когда у  нас пустой диалог, и как лод-код с этим борется,   да, либо любой другой вайбкодинг инструмент. Что  такое lm? Дело в том то, что мы, когда пользуемся

Что такое LLM и токены

вайпкодинг инструментами, мы пользуемся lлмками.   У нас внутри там живёт chat GPT, Clot, Geminii,   кто угодно. Это всё большие языковые модели LM  Large Language Models. Большая языковая модель.    То есть это нейросети, обученные на огромных  объёмах текста. К ним относится клочат, GPT,   грок, мистраль и прочее. По сути, это продвинутый  предсказатель текста. Он генерирует наиболее   вероятный следующий токен. То есть лмы никто не  учил программировать, никто не учил его вообще   общаться с людьми. Это просто штука, которая  генерирует наиболее вероятный следующий токен. Ну   не всегда наиболее вероятный. Например, вы пишете:  "Пойду в магазин и куплю". Модель отвечает:   хлеб. Почему так? Потому что, ну, здесь один  из наиболее вероятных токенов могла бы сказать   макароны. Да. Почему она пишет хлеб? Потому что  она учитывает весь контекст, а не только последнее   слово. То есть как бы вот оно уже, да, речь про  контекстное окно. То есть оно из-за того, что у   него есть контекст. Вот пойду в магазин и куплю.   Это как раз-таки контекст. Здесь она уже напишет   слово хлеб, либо слово там макароны, либо слово  батат, почему бы и нет, либо слово авокадо, либо   чечевица. То есть она догадывается по контекст по  контенту, по контексту, что тут должно быть про   про еду. Вы могли сейчас подумать, судя по моим  словам, то, что она мыслит, она догадывается,   нет, это не так происходит, это просто алгоритм.   Модель обучалась на огромном количестве текстов,   наверное, уже почти на всём, что в принципе было  написано в интернете. Почти она запомнила сложные   закономерности. То есть про то, что обычно пишут,  как строятся предложения, что с чем связано. Она   знает, что хлеб, молоко, бананы подходят, а  прыгать вряд ли. То есть если бы написали:   "Пойду в магазин и куплю прыгать". Ну что-то не  то, да, не подходит. Но LLM не понимает текст   как люди. Они находят просто статистические  паттерны в данных. Ну, очень упрощённо говоря. И   результат выглядит осмысленным, но тут нет никакой  осмысленности. То есть это просто машина. Машина.    Токен. Кто такой токен? Токен - это базовая  единица текста. Это кусочек слова или целое   слово. В разных моделях одно слово разбивается  на разное количество токенов. Это влияет на   стоимость. А смотрите, в английском языке примерно  одно слово равно одному токену. В русском языке   тире два раза больше. То есть у нас одно слово  - это где-то полтора тире два токена. То есть на   английском языке общаться дешевле. Вот вам уже ещё  один лайфхак для экономии контекстного окна. Зачем   его экономить, тоже сейчас поговорим про это. Но  я-то английский не так хорошо знаю, мне проще на   русском общаться, поэтому я общаюсь на русском.   LM обучались в первую очередь на английском.    Понятно то, что в целом, наверное, на всех языках  мира, которые в интернете есть, она обучалась, но   в первую очередь на английском. И для продакшена  разумно использовать английский в промтах. привожу   пример. Делайте вы lm автоматизацию, lmчатбота, я  не знаю, для какого-нибудь магазина на Вайлберисе.

Что такое контекстное окно

И туда логичнее поставить, прописать системный  промт на английском, потому что это будет дешевле   выходить. То есть всё равно идут же затраты на  PI токены. То есть если вы попитягиваете модель,   вы платите буквально за использование токенов. И  будет дешевле это делать на английском. Смотрите,   что такое контекстное окно. Контекстное окно -  это ограничение на количество токенов, которые   LLM может обработать за один раз. У современных  моделей 1 тире2 млн токенов. Ну вот что-то и 10   млн токенов я у кого-то видел. Но вот у Clot Oppus  4. 6, у Клод Сета, который я использую внутри,   собственно говоря, вот написано миллион токенов. У  них контекстное окно сейчас по миллиону токенов. И   много у кого контекст миллион токенов. Это давайте  спросим, а то я не помню, сколько это примерно.    А можешь глянуть, пожалуйста, миллион токенов -  это сколько четырёхтомников войны и мир тех же?    Он пишет то, что если брать русский язык, то 2  тиретри токена, то этот 3/4, то есть три тома.    Даже не четыре тома войны мира, а три тома. Если  на английском, я думаю, больше влезет. Я думаю,   влезет, возможно, два четырёхтомника войны и мир,  судя по его прикидке. Но это, чтобы вы понимали,   какой объём текста влазит в контекстное окно.   И вы, наверное, могли сейчас подумать: "Так,   чудо-то какое, Володя? Зачем нам вообще париться о  контекстном окне, если туда влазит буквально, ну,   если на английском языке там два четырёхтомника  войны и мир в миллион токенов влазит? Это же

Иллюзия памяти: как LLM "запоминает" диалог

[ __ ] текста, это очень много слов. Зачем тогда  об этом вообще беспокоиться? Могли бы вы подумать:   "Ну, ребята, не всё так просто". И что именно  не так просто? Отправил одно сообщение,   он мне ответил: "Отправлю другое сообщение".   Я могу даже спросить, какое было моё сообщение   до этого. Он мне ответит: "А, ну вот, видите,  он всё-таки это сказал". Можете, пожалуйста,   глянуть, сколько четырёхтомников Войный мир. То  есть он буквально процитировал моё сообщение,   которое я написал вот здесь вот. И вы думаете:  "Ну, наверное, у него есть какая-то память". Нет   у него никакой памяти. Абсолютно каждое сообщение  в клод, оно изолировано друг от друга. Вот это вот   никак не связано вот с этим. И вот это никак не  Но как же тогда он помнит,   о чём вообще идёт речь? А вот тут-то, вот тут-то  мы сталкиваемся с проблемами контекстного окна.    Дело в том то, что каждый раз, когда  вы пишете вклад какое-либо сообщение,   в любую lm вы пишете сообщение, берётся весь  ваш диалог и отправляется вместе. То есть,   как это выглядит? Если мы отправляем сначала  слово привет, то, правда, отправляется   сначала только слово привет. Но если мы следующим  сообщением пишем подожди, то вместе с этим подожди   отправляется уже вот этот весь пак сообщений  вместе. То есть, понимаете, история диалога   каждый раз с каждым вашим запросом, она просто вот  суммируется перед вашим сообщением и отправляется   в LLM. И это уже занимает огромное количество  токенов. Огромное количество токенов. Но это не   всё. Это вообще не всё, так как мы говорим не  простую переписку с ЛМ, не просто с чатом GPT,

Что заполняет контекст: системный промпт, MCP, файлы

который вам тупо отвечает на вопросы. Нет, мы  говорим уже пройкозинг инструменты, про кодкод,   там курсор, этот кодекс. Там появляются новые  покемоны, как покемоны, то есть появляется,   во-первых, системный промт. А системный промт у  нас в колоде- это обычно файл clod. md либо rules,   который мы прописываем ему тоже, да, чтобы наш  клод был осведомлён о нашем проекте. И он тоже   отправляется вот выше всего остального вместе с  диалогом. История диалога, я уже сказал. Файлы.    Тегаете вы файл в проекте какой-нибудь, например,  в клод-коде это делается через вот такую вот   собачку. Ставите символ собачки. Вы можете тегнуть  проект какой-нибудь. Вот видите? какой-нибудь   MD. Можете scratchpad. mD тегнуть. Этот файл  тоже подтягивается. Модель вообще понимает,   что у вас происходит, и нормально работает с  вашими материалами только потому, что вы каждый   раз отправляете, ну, не вы под капотом, каждый  раз отправляется отдельный сепарированный от   других запросов запрос, в котором вот это всё  перечисляется, и у вас создаётся иллюзия, что   модель сидит это всё и видит. На самом деле нет.   То есть она просто продолжает следующий токен,   следующее слово. Ну давайте следующий токен  говорить так более корректно. Потом рассуждение   модели. То есть смотрите, вот у меня модель  тут думала, да, thinking, видите, thoughts   написано. Это что уже занимает контекстное окно?   Они не записываются как история диалога, то есть   они потом удаляются, но вот в контексте текущего  запроса они учитываются. В клодкоде вот видите,   я показывал то, что 3% заполнено уже 28. 000  токенов. Так-то, ну ни фига себе, да? Представь   себе 3% от четырёхтомника войны и мира, но это уже  много. Откуда? Сообщений не было. Было слешкок. А   вот тут у нас написано вот system prompt, как  я уже сказал. System tools - это специальные   инструменты, которые компания Antropic вшила в  clД код. Это специальные инструменты для того,   чтобы создавать файлы, редактировать файлы, читать  файлы, делать вебсarch в интернете. Это тоже всё   занимает токены. Это всё лежит постоянно  в контекстном окне. MCP тулы занимают   огромное количество токенов в контексте. Вот у  меня здесь есть по сути несколько MCP. Что-то у   меня N8N DOGS, то есть не очень много у меня MCP.   Коx 7. Посмотрите. Play MCP. Это MCP для того,   чтобы в браузере могла выполнять действия Cl-код.   Смотрите, сколько токенов отнимает. Ну, сколько   у него действий разных. То есть тут браузер  click, браузеer Close, браузер Consol Messages,   браузер Navigate, браузер Resize. То есть огромное  количество инструментов это всё занимает токены,   всё лежит в контекстном окне. Поэтому, кстати,  MCP стоит поменьше использовать. Они очень много   токенов отнимают. Потом скилы отнимают контекст,  но скилы делают это очень хорошо по сравнению со   всем остальным. Они совсем чуть-чуть отнимают  контекст, поэтому скилы - это, ну, прямо топ,   это мастх. Сообщение автокомпаctт буфер, то есть  он всегда резервирует 21. 000 токенов 21% на тот

Автокомпакт: сжатие диалога

случай, то что у нас заполнится контекстное  окно, допустим, и чтобы не поте не потерять   нить разговора, всегда остаётся немножко пустого  пространства, чтобы Клод в этот момент мог сделать   автокомпакт, то есть он мог сделать сари диалога,  то есть он сказать мог сказать, делаем сари и в   наш весь диалог обрабатывается тоже клодом, лэмкой  и сжимается просто до каких-то основных деталей.    Там, конечно, могут потеряться какие-то детали,  но вот это один из способов бороться с заполнением   контекста и при этом не терять диалог. Это  делается с помощью команды скопаct, либо это   происходит автоматически в код-коде. Аналоги этого  в других коди инструментах тоже есть. Я думаю,   вы в курсе. Если не в курсе, вы быстро найдёте их.   А агент тоже вот тут вот у меня лежат постоянно в   контексте. А memory files тоже лежат, тоже в коде  память используется. То есть всё, всё вообще все   как будто бы хотят отнять у нас контекст.   Все такие: "Отдай контекст". Ну приходится   им делиться, чтобы всё хорошо работало. Поэтому  проблема контекстного окна невероятно важна, я   думаю. Понятно, что она важна, как её решать, да?   Ну давайте ещё вот добью. Ну да, то, что модель не

Признаки переполнения контекста

помнит ваш диалог, я про это рассказал. Это просто  иллюзия, то, что она помнит ваш диалог. На самом   деле вообще никаких сохранений и состояний нету  абсолютно. Модель просто предсказывает следующий   токен, опираясь на весь доступный контекст.   Никакой реальной памяти между вызовами нет.    не обучается от ваших сообщений. Были релсы ещё  давно, может год назад. Может, сейчас ещё есть,   я в инсте не сижу. Просто это экстремистическая  террористическая организация. Фу, не пользуйтесь   Инстаграмом, они экстремисты-террористы. Всё,  упомянул. Но, по крайней мере, в Инсте было много   ресов о том, что типа вау, я рассказал чату GPT  своей жизнью, он обучился на моих данных. Это так   не работает. Это вы просто захломляете контекст.   Ну, можно как бы скормить чату GPT данные о себе и   чтобы он вам там, я не знаю, подсказки по жизни  делал. Как мне заработать миллион долларов за   ночь? Чат GPT, расскажи мне. А про до обучения  единственный способ дообучить lm - это сделать   файтюнинг. Ну вот вы либо обучаете заново с нуля,  либо вы можете сделать файнтюнинг. Ну, по сути,   вот для нас, для пользователей, разработчиков, да,  другого способа в целом и нет. Это очень редко,   когда имеет смысл. То есть не надо прямо  дообучать. Мы всё, что делаем, это мы занимаемся   контекст инжинирингом. Мы работаем с контекстом.   То есть это более важно, чем там фантюнинг делать.    Разбираемся, а как нам вообще работать с  контекстом. Как мы понимаем, что контекст   переполнен? Ответ обрывается на полусловия, такое  редко бывает. Но вот то, что модель начинает   тупить. При переполнении контекстного окна, модель  обычно помнит то, что было в начале и помнит то,   что вот сейчас происходит в конце, но то, что  в середине, она прямо теряет. Она, ну вот,   всё равно может игнорировать инструкции из  начала диалога, запрашивает файлы, которые   уже открывала. То есть она просто, откровенно  говоря, начинает тупить. Ну вот для примера,   да, там 70-90% игнорирует правила с клотом D,  там ответы становятся короче, галлюцинации.    Ну и забить контекст гораздо проще, чем вы  думаете. Потому что в тех же AIгентах, например,

Веб-серч и захламление контекста

вы делаете webarch поиском в интернете. Когда  вы делаете webarch, вы достаёте буквально всю   HTML-разметку с сайта. Как выглядит HTML-разметка?   любой сайт, это куча технической информации. Ну,   здесь по факту на этом сайте просто два  слова написано: "Солнце взойдёт". Видите,   солнце взойдёт. Я написал всё. А вот это всё  остальное, это что? Это техническая информация,   которая не нужна вообще для того, чтобы работать  с вашим колод-кодом или чат GPT. Но вы не можете   её просто выкинуть. Она всё равно подтягивается  в контекст. Она очень сильно захламляет контекст,   из-за этого модель начинает тупить. То есть  она тут не нужна. Это лишний ненужный контекст.    Поэтому websarch тратит много токенов. Способ,  как можно с этим бороться - это вы делаете   сабагента в клоде и просите делать resarchч  в интернете через сабагента. И тогда вся эта

Context rot: порог 150-200K токенов

лишняя грязная информация попадает в сабагента. И  сабагент главному агенту, главный агент он вот он   у нас. А вот сабагент передаёт главному агенту  уже чистую информацию, то есть чистую инфу,   которую он сделал на основе анализа страниц в  интернете. А главное агент нам отвечает. Вот.    А потом суббогент удаляется. То есть он выполнил  задачу и удалился. Пофиг, что у нас контекстное   окно в клоде миллион токенов. Есть такая штучка,  называется context rotad. Я сейчас не вспомню,   где я видел эту инфу. Короче, статья была, и не  только статья, ну, много инфы об этом было. То,   что вот есть некий порог, после которого модель  начинает тупить. Как это выглядит? По оси X у нас   идёт, получается, количество токенов заполненного  контекста, а по оси Y у нас идёт качество ответов   модели. И смотрите, когда мы только начинаем  работу, у нас качество ответов не очень,   потому что у нас нет контекста у модели. То есть,  чтобы она хорошо выполняла какую-то нашу задачу,   нам нужно ей дать контекст. Мы постепенно даём  этот контекст. Он вот у неё появляется 40-50. 000   токенов, потому что мы тут закинули файл CL  MD, мы тут закинули там важную информацию,   необходимую для того, чтобы работать с  нашим проектом. Вот тут качество пиковое,   то есть от 50. 000 токенов до там 150-200. 000  токенов, ну вот я до 170. 000 токенов написал,   оно пиково идёт. То есть вот оно отвечает лучше  всего. А потом так называется, так начинается так   называемый контекстрот. То есть модель начинает  уже тупеть постепенно. Вот с этого момента от   150 тире 200. 000 токенов она начинает тупеть  и всё. Потом она становится прямо   совсем тупой, потому что контекст переполнен.   Начинается контекстрот в буквальном переводе   гниение контекста. Какой вывод мы из этого  делаем? Мы не забиваем контекстное окно больше   150-200. 000 токенов. То есть это надо отслеживать  и не забивать просто. То есть 150-200. 000 токенов   достигли. Ну давайте 150. 000 токенов. Вы делаете  компакт разговора, саморизацию, да, например, либо   по-другому решаете эту проблему. Способов много.   Можете просто открыть новый диалог. Может, вам и   не нужен будет компакт диалога. Может быть, у вас  в проекте расписана дорожная карта и логирование,   и вы записываете каждое действие и понимаете,  на каком этапе проекта вы сейчас находитесь. И   вам не нужно делать суммаризацию диалога для того,  чтобы открыть новый диалог сл и продолжить работу,   потому что вы сами это в голове держите. У  вас это записано в дорожной карте, в роудпе.    В целом нет разницы, какая модель, какую вы  используете. Там Clot Opus, Chat GPT, Gini,   неважно, как, насколько огромное контекстное  окно. Вот 150-200. 000 токенов, можете этим   руководствоваться. Контекст инжиниринг, возможно,  уже устаревшая фраза, но более акту, ну,   всё ещё актуальна вполне себе, потому что  проблема контекста - это одна из основных

Контекст-инжиниринг от Андрея Карпати

проблем вообще в целом lm, то есть она исходит из  структуры LLM, из архитектуры LLM, из архитектуры   больших языковых моделей, да, там чат GPT, CLД,  Gemini. Ну, контекст инжениринг - это слово,   которое Андрей Карпать там придумал что в прошлом  году, не помню, когда он его придумал. Контекст   инженерия - это умение правильно подготовить  контекст перед тем, как задать вопрос. Важно не   только, что вы спросили, важно, что модель знала  до ваши вопрос. То есть всё, чем мы занимаемся по   факту сейчас - это контекст инжениринг. То есть  мы готовим наш контекст, мы не захломляем его,   мы делаем его нормальным, аккуратным. Надеюсь, с  этого момента вы будете обращать внимание на то,   что касается экономии токена в контексте, потому  что это, ну, не только деньги экономят, ну,   это влияет напрямую на качество работы LLM. скилы,  правила, clдмd меory. То есть очень много всего

Скиллы, rules и экономия контекста

из этого. По сути, это одно и то же. То есть по  сути это всё какой-то текст, который добавляется   в контекст модели. Именно поэтому столько всего  разного существует, потому что, ну, это нужно,   чтобы грамотнее работать с контекстом, потому  что вот тот же клод MD, например, модель видит   постоянно в контексте. Rules - это как бы тот же  клодм MD, разбитый на части. Можно сделать так,   чтобы модель видела только в тот момент, когда она  работает с определёнными папками, да. Вот у меня,   например, Visual Studio CД, есть у меня папка  да и, например, я могу сделать правила таковым,   чтобы, ну, в других инструментах, не знаю, типа  там в кодексе, в винсрфе, но в клодкоде точно   можно сделать так, чтобы когда у меня модель  заглядывала в папку data, в этот момент у неё   в контекст потягивалось определённое правило. То  есть до того до того момента, как она заглянула   в папку дата, у неё нет этого правила. Но вот как  только она заглянула, она сразу видит это правило.    То есть это можно организовать. И вот таких вот  лайфхаков для экономика их дофига. То есть скилы   поэтому так и разлетелись. То есть по сути скилы  - это информация, ну, буквально вот текстовая   информация, которую мы могли бы в целом запихнуть  и просто в clд. md. То есть мы бы могли это   запихнуть в системный промт, всю эту инфу, и оно  бы там лежало и оно бы тоже работало. Но проблема   в том то, что оно бы тогда сильно захломляло  контекст. То есть прикол скилов именно в том,   почему они настолько крутые, почему сейчас это вот  одно из самых популярных, что есть вообще в целом,   потому что оно экономит круто контекст. То есть  в скилах всегда видны неймы и desриption. То есть   когда мы общаемся с Клодом, я могу ему вопрос  задать. В этот момент он каждый из моих скилов,   которые лежат локально, в том числе скилы, которые  лежат глобально в глобальной папке токод. То есть   из каждого этого скила всё время в контексте  она видит вот name и desрипtion каждого скила. И   локальных вот тут скилов у меня, и глобальных. Они  постоянно подтягиваются в контекст, точно так же,   как и подтягиваются наше вот предыдущие сообщение,  да, история диалогов. А вот это всё остальное,   вся бади скила, так сказать, остальное тело скила,  оно в контекст не подтягивается, его не видно.    Но когда я говорю, например, вот Telegram  Generate Post, я говорю, я говорю: "Привет,   я хочу написать или отредактировать пост для  Телеграма". Вот тут описание есть. Модель понимает   по описанию то, что значит речь идёт про Skill  Telegram Generate Post. И только в тот момент,   когда она понимает то, что нужно задействовать  этот скилл, она обращает на него внимание, и ей   в контекст попадает вся остальная информация вот  эта. То есть, как видите, здесь дофигища текста,

Субагенты для экономии контекста

который по дефолту не попадает в контекст,  но как только модель понимает, что нужно   активировать тот или иной скилл, она попадает в  контекст. Естественно, скилы изобрели, угадайте,   кто? Естественно, компаниятропик. И впервые они  появились в клодкоде, потому что они в целом   в этом плане самые революционные штуки делают. А  давайте я перечислю, что нужно делать для экономии   контекста. Ну, для управления контекстным окном.   Ну, вот давайте так. Используем скилы, используем   rules. Сабагенты тоже экономят контекст, потому  что, ну, есть у нас главный агент, у него свой   контекст. Когда ему надо выполнить какую-то  задачу, он вызывает сабагента, и у сабагента своё   контекстное окно, как я рассказывал с примером  Websearch. То есть он ищет инфу в интернете,   он забирает на себя все грязные данные, и он  из этой всех грязных данных достаёт какую-то   информацию, передаёт её нашему главному агенту,  с которым мы переписываемся, и у него из-за этого   контекстное окно не захломляется. То есть мы  поиск в интернете сделали, но избежали того,   что у нас всякая грязь попала в контекст.   Конечно, мы жертвуем немножко точностью,   то есть точность уменьшается. Допустим, тут она  была бы 100%, тут она стоится 90-95%, потому что   сабагент может по-своему интерпретировать какие-то  данные, и у нас всё равно нет информации к полным   данным, да, которые он достал в интернете.   Но это того стоит, это экономит контекст. Ну,   небольшие издержки приходится нести из-за этого.   А потом как можно экономить контекст- это, ну,   если вы знаете хорошо английский язык, общайтесь  на английском языке с моделью, так будет лучше.    Это будет экономить контекст. вы будете не  так быстро достигать 150-200. 000 токенов в   таком случае. Использовать команду скопа, если вы  достигли, собственно говоря, 150-200. 000 токенов,   тогда будет происходить сжатие диалога.   И в целом много способов, как я говорил,   например, дорожную карту делать в проекте.   Ну, тут у меня в проекте нет дорожной карты,   потому что у меня немножко другие задачи, но когда  делаю коммерческие проекты по автоматизациям, да,   для клиентов, я там делаю везде дорожную карту. То  есть я прописываю, что я буду делать, чтобы я сам

Дорожная карта и логирование проекта

понимал, на каком этапе проекта я нахожусь. Я не  деригирую это лмки и не говорю: "Сама разбирайся   и делай весь проект полностью. Сама разбирайся, на  каком этапе ты находишься, потому что тогда будет,   ну, плохо она будет работать". Я это сам учитываю.   Я сам заглядываю в дорожную карту и сам смотрю,   что происходит. Сам понимаю, на каком этапе  проекта мы сейчас находимся. То есть роль человека   сейчас в этом заключается. Потом когда-нибудь,  ну, может быть, в течение этого года, в целом   не удивлюсь. Если до лета это успеют сделать,  тоже не удивлюсь. в целом за месяц, за 2 месяца.    Может быть, мою роль и вашу роль как человека,  который контролирует процесс и отслеживает на   каком этапе выполнение проекта мы находимся, может  быть, это тоже заменит lЛМКА какая-нибудь. Вот,   например, новая функция от clД-кода Agent Teams,  когда он запускает агентов, этот агент запускает   сабагентов, но эти сабагенты, они уже покруче,  чем обычные сабагенты. Они именно тиммейты. Они   могут между собой общаться, у них есть общая  записная книжка, они могут там обсуждать,   какие кто делает задачи, и вы можете вмешиваться  в работу каждого из этих тиммейтов и в работу   главного вашего агента, который называется Team  Lead. Но пока нет, пока эта проблема не решена.    Пока что нужно вникать. Если вы делаете большой  серьёзный проект, да и в целом почти любой проект,   важно прописать заранее дорожную карту и двигаться  по ней. Пока нельзя просто дать и команду   делай и ожидать, что он сам полностью реализует  коммерческий проект. Нужно контролировать процесс,   отмечать выполнение шагов в дорожной карте, ввести  лог работы. Лог - это файл, где записывается всё   то, что сделал ваш-код в этом проекте. Для этого  можно поручить агенту ввести тоmфайл, где будут   записываться все действия и прогресс по проекту.   Команда для управления контекстом. Смотрите,   если брать именно-код в у него в расширении,  то есть расширение Visual Studio CД,   в расширении мы можем писать команду сшконтекст  и отслеживать, сколько у нас токенов заполнено.    28. 000 токенов. Это сделано не очень удобно,  то есть лучше бы, если бы оно внизу где-то   показывалось. И ещё при заполнении контекста  на 50% он вам вот тут будет показывать. Но,   как вы понимаете, 50% от миллиона токенов - это  500. 000 токенов. Это уже перебор, да? То есть   нам как бы на 150-200. 000 токенов ориентироваться.   Потом он делает автокомпакт. Если мы запускаем его   через терминал, мы можем сделать command line. То  есть вы можете попросить его сделать command line,   да? Видите, у меня здесь отображается command  line, то есть у меня показывается 3% от миллиона   токенов заполненно. То есть он сразу постоянно это  показывает. Это удобнее, чем в расширении. Главная   цель этого ролика была в том, чтобы сделать вас  осведомлёнными о том, что есть некая проблема   контекстного окна, то, что нужно его держать до  150-2. 000 токенов, иначе модель будет тупеть.    Ну и плюс с помощью этого можно экономить  деньги, в том числе. Поэтому спасибо за то,   что посмотрели это видео. Смотрите и другие ролики  на моём канале, например, вот это вот. Всем пока.

Другие видео автора — Владимир Карпухин

Ctrl+V

Экстракт Знаний в Telegram

Экстракты и дистилляты из лучших YouTube-каналов — сразу после публикации.

Подписаться

Дайджест Экстрактов

Лучшие методички за неделю — каждый понедельник