# Подробно о локальном запуске GPT (GPU, квантизация, ограничения)

## Метаданные

- **Канал:** Галера Морева
- **YouTube:** https://www.youtube.com/watch?v=-vYjoiW2Zd4
- **Дата:** 20.03.2026
- **Длительность:** 1:18:47
- **Просмотры:** 4,419

## Описание

Провайдер с GPT-5.2 по низким ценам: https://ai.wormsoft.ru

Поддержать меня на Boosty: https://boosty.to/amorev
Мой telegram-канал: https://t.me/gmoreva

В этом видео разбираю тему локальных нейросетей (LLM) и отвечаю на главный вопрос: можно ли заменить ChatGPT локальной моделью в 2026 году?

Я делюсь личным опытом использования локального ИИ, показываю реальные ограничения и объясняю, почему ожидания часто не совпадают с реальностью.

В ролике:
- как работают локальные LLM
- какие требования к железу (GPU, серверы)
- сравнение с облачными решениями
- плюсы и минусы локального запуска
- реальные кейсы использования
- когда локальный ИИ имеет смысл, а когда — нет

Это не хайп и не теория — только практика и честный разбор. Если ты думаешь:

- запускать ли нейросеть у себя
- покупать ли мощную видеокарту под ИИ
- или искать альтернативу ChatGPT

То это видео сэкономит тебе время, деньги и нервы.

Таймкоды:
00:00 Введение
02:46 Почему мы разбираемся в локальных моделях?
04:20 О чем видео
06:35 История появления локальных моделей
08:47 Про квантизацию моделей
16:51 Финансовые подвиги AI-провайдеров
21:36 Важность размера контекста
30:51 На чем можно запускать локальные модели?
37:22 Запуск на очень дешевых видеокартах
43:07 На каком софте запускать локальные модели
48:24 Софт. LM Studio
50:21 Софт. Llama.cpp
56:03 Подбор параметров для запуска
59:32 Как я понимаю умность модели
01:02:58 Про самые глупые модели
01:09:42 Внешние UI: WebUI, CherryStudio
01:15:19 Важное про квантованные модели
01:15:54 Подводим итоги

#нейросети #ai #llm #искусственныйинтеллект #chatgpt #локальныйии #machinelearning

## Содержание

### [0:00](https://www.youtube.com/watch?v=-vYjoiW2Zd4) Введение

Всем привет. Сегодня я хочу с вами поговорить про запуск локальных моделей. Эта мысль у меня уже давно крутся в голове, и вот буквально недавно, там недели две назад, я выложил ролик про OpenClone, про прагматичный, про то, как в целом Openклом можно пользоваться, как он работает, как он устроен под капотом и то, что он не настолько магический, насколько об этом говорят все вокруг, то, что это чуть ли не замена всех наших сотрудников. Мне в комменты к этому видосу накидали мысли из серии: "А что, если запускать его нелокально? " Почему мне накидали это? Потому что, ну, он довольно прожорливый, он ест очень много токенов, и поэтому получается у нас очень много денег на это уходит. И казалось бы, логичная мысль, мы берём и меняем архитектуру. Если у нас с вами сейчас механика стандартно такая, вот у нас ваша ВПС или ноутбук, сейчас я попробую даже нарисовать. Вот он ноутбук, на котором стоит OpenC. Вот здесь вот Open Clore стоит. И мы сейчас как у нас работает то, что у нас тут есть Open, AI, например, либо Clк Clк, либо что там ещё есть грок, неважно, что угодно, что находится внутри в облаках. Это облако я такое нарисовал. И у нас получается любой запрос по любому делу у нас идёт туда. То есть мы так отправляем туда в элмку. Ох, рисовалка моя сбоит. Лмку запрос, она отвечает. И тут за это у нас с нас списываются довольно-таки такие ощутимые денежки. Мы, получается, тратим токены этих облачных провайдеров, они с нас берут деньги за это. И казалось бы, почему бы не пойти таким хитрым путём, что мы понимаем, что у нас есть локальные компы, на которых есть вроде бы процессор, есть вроде видеокарта. И почему мы нам не сделать следующим образом? Мы берём и у себя локально где-нибудь вот прямо внутри ноутбука ставим сюда аламу VLM, ну что угодно там или этот AM CPP и третий, а и LMUдио. Всё, прошу прощения, я забыл. Вот, то есть вот здесь вот локально запускаем всё это, и в итоге у нас он, получается, сам в себя ходит, да, у нас какое-то там время это всё будет генериться, работать, будет тратиться какое-то количество электричества, но при этом у нас получается бешеная экономия. Мы же вот эти вот деньги ни на что не тратим. И казалось бы, мы всех перехитрили, всех обыграли. Но для того, чтобы ответить на этот вопрос вообще в целом, насколько это логично и, ну, насколько, вернее, давайте спойлер, насколько это бессмысленно, честно говоря, сейчас запускать вот маленький спойлер, запускать open локальными моделями, так вот целиком это бессмысленно. То есть, к сожалению, вам придётся пользоваться облачными моделями сейчас просто потому что интеллект облачных моделей он несопоставимо мощнее, умнее, шире, ну, глубже залезает в контекст, чем интеллект локальных моделей, которые мы можем запустить у себя локально. То есть в целом, если вам было интересно получить ответ на вопрос, можно ли Openк или вообще какие-то серьёзные агентные решения запускать на локальных моделей, ответ нет. Ну, в случае с OpenCl просто нет. В случае с агентными моделями нет, со звёздочкой. А теперь давайте переходить непосредственно к самим

### [2:46](https://www.youtube.com/watch?v=-vYjoiW2Zd4&t=166s) Почему мы разбираемся в локальных моделях?

кишкам ролика, где я уже буду пояснять свои взгляды. И мои взгляды опираются не на том, что я там что-то начитался и поизучал на тему, а на том, что я уже больше 2 лет, ну, у меня компания своя, мы занимаемся оказанием разных услуг в сфере разработки. И когда хайповать начали искусственный интеллект и прочие вот эти вот локальные модели, мы, разумеется, тоже начали эти услуги оказывать. То есть какие услуги, мы прямо приходили сейчас прямо буду интерактивно показывать, поскольку показать иногда понятнее, чем рассказывать. То есть у нас была такая история, что есть мы, это Warmsoft, есть наш клиент. И вот у клиента есть какая-то своя инфраструктура, там всякие серваки, что угодно. То есть он, ну, он понимает то, что у него есть ресурсы. И тут есть, что самое главное, у него есть вот эти вот прекрасные три буквы ГПУ, то есть видеокарты в этих серверах. И он приходит к нам и говорит: "Антон, так и так, мы хотим, чтобы вы нам сделали локальную инфраструктуру, чтобы у нас был локальный искусственный интеллект". Мы приходим в итоге, тут пишем э ну тут делаем внутри впэски отдельно ещё впэски с гпушками, которые стоят довольно-таки дорого. И, знаете ли, настраивать не очень-то и просто и в итоге у нас вот это внутреннее решение, которое мы разработали, будет общаться уже непосредственно с этой ГПУшкой. И мы этим занимаемся уже пару лет. Мы на этом много проблем уже наелись, много носов себе граблями посломали. Поэтому мне есть, что по этому поводу рассказать. И сегодня этот ролик будет полностью посвящён извлечением знаний из моей головы на тему запуска локальных моделей. Присаживайтесь поудобнее, потому что ролик получится, скорее всего, достаточно длинный. Да, кстати, там это в комментах писали то, что воды очень много. О, если для вас в ролике про openнк club было много воды, то тут вы просто захлебнётесь. Маленький

### [4:20](https://www.youtube.com/watch?v=-vYjoiW2Zd4&t=260s) О чем видео

пересказ того, о чём буду сегодня рассказывать. В этом видео я поделюсь большим количеством опытом запуска локальных моделей, но очень важно, основная часть ролика будет посвящена запуску моделей на видеокартах. То есть, если у вас видеокарты нет, то, скорее всего, в целом вам идея запускать модели локальные, она, ну, немножко неуместна, скажем так. Вот, простыми словами. Я, конечно, затрону тему именно запуска на оперативном памяти компьютера, но именно в случае в моём и случае всех серверов, на которых мы работали, мы специально как бы экономим на процессоре и не экономия на видеокартах. Получается так, что на процессоре в 30 раз медленнее генерация токенов в секунду. То есть получается, в принципе, неюзабельно, но я эту тему обязательно затрону. Сразу оговорюсь, важный дисклеймер, я абсолютно не имею никакого опыта запуска локальных моделей на MacPro, Мак Mini, ну, на чём там вот запускает Openкло. Есть смешной ролик этим с петухом, который кричит Openкло. Вот сейчас он где-то здесь появляется в этом месте там, ну, как это, все эксперты в данную минуту. И там как раз-таки говорят то, что OpenCla очень классно запускает на Макмени, потому что на Макми можно запустить большую языковую модель локально, которая будет, в принципе, удобоваримо работать. Я не имею мнения на этот счёт. Я не могу сказать, не дай, нет, но я вам лишь могу сказать, что в это верится с трудом, то, что можно запустить реально большую модель, что она будет настолько быстро работать, что это будет, в принципе, комфортно, потому что большую-то модель могу я у себя запустить. У меня 96 гигов оператива на процессоре, и я могу очень многие модели, которые, ну, довольно-таки большие, конечно, не хедлайнерские модели, типа Minimx 2 с там или этот JLM п, он не уместится у меня никак, даже если сильно попытаться. А какие-то модели попроще я могу запустить, но они будут так медленно работать, это будет просто невыносимо. Поэтому эту идею я отбрасываю. И мы сегодня с вами будем говорить про запуск на видеокартах. Я коротко, короткая историческая справка, расскажу, как мы пришли к тому, что у нас появились в локальной модели, почему вообще это стало доступно именно сейчас. Ну а потом уже на практике покажу, как это работает. Покажу просто задачи, которые я решаю на локальных моделях. Покажу какие вещи мом, в принципе, удобно настроить для себе, для того, чтобы вот сейчас прямо вот сидя здесь и сейчас локально у вас работал локальный чат GPT, о котором многие говорят, что это заменяет клод GPT 5. 2, GPT вообще любые. Это в целом вызывает у меня такой шок, как, не знаю, если сказать то, что машину можно забрать не бензином там, а водой, и она будет ехать, типа, вот будет то же самое. Вот примерно настолько большая пропасть между тем, как работают локальные модели и как работают облачные модели. А, к сожалению, куча всяких инфлюненсеров, блогеров начинают рассказывать про то, как они ловко обошли систему и запускают локальную модели, на них запускают OpenClo. Короче, я уже говорил про это, скажу ещё раз, это работать не будет. Давайте теперь переходить, в принципе, к процессу, как мы шли постепенно к

### [6:35](https://www.youtube.com/watch?v=-vYjoiW2Zd4&t=395s) История появления локальных моделей

локальным моделям. Если обратиться к исторической справке, то в целом, э, GPT система, которая имеет какой-то либо смысл, они появились в двадцатом году. То есть в двадцатом году компания Open AI, тогда она ещё была по-настоящему Open Open. Она пилила open source модели, делилась ими со всеми. Она выпускает модель на 175 млрд параметров. Это GBT3, та самая первая, которая облачно запустилась. И она реально уже дала понять то, что в целом все эти задачи, которые связаны с искусственным интеллектом, их можно решать, да, с оговорками, да, с некоторыми сложностями, но это возможно. То есть доказали то, что это технически возможно. Потом спустя пару лет они выкладывают этот чат в открытый доступ, типа вот, ребята, регайтесь, юзайте и всё будет хорошо. И произошёл невероятный хайп. Я помню, какой-то был хайп и шок, то, что есть что-то, что говорит как человек, понимает как человек и выдаёт какую-то полезную информацию как человек. И тогда ещё была там вроде какая-то закрытая регистрация, только по рефсылкам можно было, но там что-то за месяц 100 млн людей набралось. Ну, и все как бы поняли, что тема реально имеет смысл и потенциал для монетизации. Оказалось то, что в это же время Facebook ныне запрещён на территории Российской Федерации, там и Мета и всё, что с этим связано, они тоже разрабатывали свои модели под названием Лама и вроде как говорят то, что там была какая-то утечка или что-то не утечка, не знаю. Ну вот так сложилось то, что они разом в интернете появились в открытом доступе вот эти модели на несколько вариантов миллиарда параметров. И там среди них была лама, которая вообще маленькая, на 7 млрд параметров. И её стало можно запустить локально там на какой-нибудь 3090 видеокарте, да, с оговорками, да, там с кастрацией, это кастрацией комватизацией, но запустить стало возможно. Потом уже в марте двадцать третьего года GPT4 выходит, потом выходит Лама 2. Уже мне это поняли. О'кей, ну раз произошла утечка, опять же я не уверен, что она произошла, но вдруг произошла, давайте теперь open source будем делиться. И они начали делиться тоже своими моделями Лама в Сорсе. Потом и Gemini, ну Google своём Gemнай подъехал. И потом произошла такая некоторая лавинная ситуация, то, что там в двадть треть-два четвёртом году начали появляться много разных локальных моделей, и на рынок вышли китайцы со своими квенами, со своими джелмаами и другими моделями, которые просто, не знаю, они пилили как это, как завод эти модели, выкладывали в open source и тем самым двигали рынок source вперёд. То есть в целом, наверное, если не было такого массового вываливания моделей там в двадцать четвёртом году, просто люди делились и пытались какой-то хайп это подцепить на этой теме, у нас бы сейчас локальных моделей не было. Ну а когда уже всё это разогналось и начало так активно работать, люди начали пилить свои модели. компания начал выпускать свои модели, да, обучать их фантюнить, квантовать, чтобы можно было запускать. И самое главное, что позволило нам запускать локальные модели - это

### [8:47](https://www.youtube.com/watch?v=-vYjoiW2Zd4&t=527s) Про квантизацию моделей

квантизация. Вот она вот она. В двадца четвёртом году появляются просто инструменты, которые позволяют в целом кому угодно взять огромную модель, если у вас есть огромные ресурсы, там огромные видеокарты, взять и её сделать менее огромной. То есть она получается на столько же миллиардов параметров, только получается чуть-чуть потупее. Давайте сейчас, если говорить про квантизацию, про параметры, я попробую очень примитивно пояснить. Я вам честно сразу скажу, у меня у самого примитивные знания того, как это работает под капотом, они очень примитивные, но, наверное, если я сейчас вам расскажу, у вас какое-то в голове может понимание появится чуть побольше, и вы просто начнёте чуть больше в этой теме разбираться и, допустим, как я, сможете поддержать разговор на кухне с другим человеком, который там что-то про и начинает говорить. Вернёмся к тому, как у нас работают эти языковые модели вообще в целом. Опять же, дискймер, всё очень простым языком говорю. Это может быть упрощено просто в миллиарды раз. пожалуйста. Ну, в целом, наверное человек, который шарит вы по-настоящему, он это ролик смотреть и не будет. Поэтому сразу говорю то, что это не единственная последняя станция. Под капотом у нас каждая фраза: "Привет, как дела? " Вот такой запрос есть, который мы можем написать в нашей лмке. Под капотом оно викторизуется, то есть приводится к мбедингам. Это слово очень тяжело выговаривать с моей плохой дикции. приводится к это к мбетингам и превращается как-то, ну, под капотом именно внутри мозгов илиламки оно в какую-то вот линию превращается, в какой-то вектор. И как раз-таки этот вектор, ну, мы привыкли, да, давайте с курса школы, если мы, если мы вернёмся в школьный курс, у нас есть X, есть Y, если не повезёт, ещё и Z, и в нём есть какой-то график. И мы там, не знаю, в пятом, наверное, в шестом классе там график, допустим, x просто y = x и угадать, какая точка будет здесь на единичке, здесь на двойке, здесь на тройке. То есть мы решали задачу, какое какому значению x, соответственно, какое значение y. Но это два параметра. На этой модели нейронку не построить. А если мы говорим про умные нейронки, у них там миллиарды параметров, то есть не X и Y Z, а X YZ Z и так р перечисляется. То есть он многомерный, его представить невозможно. Хотя не знаю, наверное, есть люди, которые могут такой вектор представить многомерный. Я не могу. Так вот, этот вектор строится на основании какой-то заранее заготовленной модели, которая как раз-таки приводит текст вектор. И дальше уже путём математических преобразований берётся следующее. Сначала в модель запихиваются все продолжения возможной фразы: "Привет, как дела? " Там хорошо, у тебя как плохо, та-та-та-та-та-ты. Ну, то есть разные варианты закидываются в эту модель. И эти вещи, вот эти вот ответы, они тоже викторизуются. То есть они тоже как-то там под капотом превращаются вот эти стрелочки. И дальше уже получается задача решается разными методами. Но есть самый простой метод наименьших квадратов. Это когда опять же у нас вот есть наша непонятная функция, которую мы не знаем, как какие у неё параметры, какие коэффициенты. Есть функция, которую мы, ну, знаем только точки. Вот она здесь идёт. И методы наименьших квадратов. Мы пытаемся найти минимальное смещение для того, чтобы понять, какие всё-таки параметры у этой функции y = kx + b. То есть мы пытаемся понять, как именно нам, какие параметры вот эти X и B нужны для того, чтобы сместиться и получить то, что мы хотим. И в итоге получается вот это вот всё добро скармливается туда, оно сопоставляется. И чем занимается модель, когда тратит вот эти кучу видеокарты часов, когда обучается, она как раз-таки привыкает, приучает себя то, что вот этот вектор, он продолжается таким путём, этот вектор таким путём, то есть под капотом у них нет никаких ни приветов, ни пока, ничего. У них просто числа, она пытается угадать, что будет идти дальше. И в итоге получается то, что у нас потом в будущем, когда приходит привет, как дела, он сначала переводит этот вектор, дальше этот вектор на своей стороне продолжает как-то. Вот он продолжил, и у себя под капотом есть обратное преобразование, как вектор преобразовывается в слова, то есть и уже он понимает то, что здесь хорошо у тебя как. Вот пример такая механика происходит. И теперь я очень плавно подхожу к монетизации. Вот эти вот векторы, они у них получается там, не знаю, x1, x2, x3 и x1500. Там числа с плавающей запятой, то есть там может быть два и 16 знаков после запятой. Там, не знаю, один забитой. И как раззация она о том, чтобы, как я опять же, как это понимаю я, о том, чтобы вот эти вот числа квантовать, сократить. То есть, чтобы было здесь не два, это 16, а 2,8 знаков после запятой. Один и восемь знаков после запятой. Это как раз-таки вот если мы сейчас обратимся на какой-нибудь сайт типа Хагингфейса. Вот я сейчас переключу на этот монитор. Давайте даже не Haging Face, а откроем LM Studio. Вот она у меня есть уже открытая. Сейчас я её на этот монитор переношу. И вот любая модель, у неё вот куча квантов есть. Это вот как было восемь знаков потом шестьчетыре. То есть точность модели падает. Параметров остаётся также много, но просто эти параметры более туповатые получаются. То есть способ сделать, ну, то есть модель уже обучена, заранее была обучена на большом массиве данных, на таком количестве параметров, а теперь просто эти параметры чуть-чуть поджали, сделали тупее. Это нечто немного другой процесс. Он не такой не то же самое, что облучить на меньшее количестве параметров. То есть когда большая количество когда большое количество параметров, у него больше точности и больше вариации того, как может фраза продолжаться. А когда мы потом уменьшаем кватизацию, он просто делает продолжение фразы чуть-чуть менее уместной. Допустим, если мы говорим про китайские модели, у них иногда там типа среди вроде обычного русского текста, если модель квантованная, появляются китайские иероглифы. Ну то есть получается такая штука, ну местами сбоящая, но при этом она достаточно умная. Я всё равно, что не знаю, взять человека очень умного и забрать у него часть словарного запаса. То есть вот, да, вот есть же умные люди, которые, допустим, у них, ну, есть проблемы словарным запасом. Ну, просто не можешь рать, да, даже вот я вот английский язык я вроде знаю хорошо, но когда я приезжаю там в англоговорящую среду, у меня бывает там типа I don't know how can I say it. Типа я не знаю, как я это могу сказать, типа, вот нет слова. Я знаю по-русски там, не знаю, это, не знаю, борщ по-русски, да? А по по-английски не могу слово, типа я начинаю объяснять, это красный суп, куда добавляется свекла, там т-т-т-т. Это вот получается я как, ну, квантованная модель, ну, меня сначала обучили говорить на английском языке на большом количестве параметров, а потом заквантовали меня, у меня стало меньше словарных запас и местами начал тупить. Вот примерно так работает квантизация. И в итоге мы получаем, что для того, чтобы можно было запустить локальную модель, вот мы берём какую-то огромную мощную модель, допустим, вот, да, сейчас снова экран покажу. Вот 3,5 397 млрд параметров. Это довольно-таки мощная модель. Я ещё нигде не запускал. Ну, собственно, мне LM Studio мягко-мягко намекает: "Чувак, слишком сильно. Я даже пытаться такое, ну, не советую тебе делать". У неё есть варианты Q8, Q6 и Q4. И видите, как они занимают. Вот это занимает 422 Гб видеопамяти. То есть это получается, что у нас штук пять-шесть А видеокарт с контекстом. Получается каждое А что полто млн. Короче, 10 млн надо будет. Ну, всего-то 10 мультов я выкладываю и запускаю эту модель. И смотрите, в чём главный прикол. Есть, э-э, сейчас LMA сайт, да, сейчас загрузится дербор и что мы получаем сейчас с вами? То, что вот эта вот моделька, которая 397 млрд параметров. Ух, сейчас мы, допустим, давайте просто не про кодинг, а про текст. Это получается, ну, не бенчмарки, это просто какой-то рейтинг строится. Честно, сейчас не могу сказать, как именно он строится, но мы посмотрим. 397B. Вот она находится на двадцать пятом месте. То есть это я потратил 10 млн, чтобы вот это добро запустить. И, честно говоря, я офигеваю не только на видеокарты, я ещё там трачу на процессоры мощные, на то, чтобы, в принципе, была материнка, которая сможет вот это вот всё добро сюда впихнуть. Там материнка на 10 видеокарт, которые ещё будут тамлинком связаны. Это, ну, это баснословные деньги, беспословные там инженерные знания, чтобы это всё запустить. И я получаю, внимание, далеко не самую умную модель. Она всего лишь на двадцать пятом месте. То есть получается модели типа клоса на 4. 5 она уже её обгоняет. Это мы говорим просто про текст. А если мы говорим про кодинг, там она ещё хуже будет. GLM5 её обгоняет, там GPT 5,4. Ну это, да, это топовые модели, всё они молодцы, они крутые. Это, конечно, хорошее место двадцать пятое. Я не говорю, что эта модель плохая, она будет очень хороша, будет, будет невероятно умна, но она всё равно очень сильно отстаёт от топовых моделей. А я, между прочим, чтобы это запустить, потратил уже 10 млн. То есть тут, получается, экономика чуть не сходится. И подождите только я ещё не проговорил одну важную вещь, то, что я для того, чтобы запустить потратить 10 потратил 10 млн, я запустил неполноценную версию, я запустил квантованную версию, получается Q8. Это ну она ещё была вот ну урезана. То есть она на самом деле будет гораздо более тупая и меня будет гораздо больше расстраивать. И я представляю из себя потратившего 10 млн и получившую модель, которая меня ещё расстраивает. Мы, если с вами глянем на историю вообще развития локальных моделей, то можно

### [16:51](https://www.youtube.com/watch?v=-vYjoiW2Zd4&t=1011s) Финансовые подвиги AI-провайдеров

ужаснуться тому, какие, вот, знаете, это финансовые подвиги совершили компании типа Open для того, чтобы можно было запустить. Сейчас я вот эту белую штучку уберу, вот она раздражает меня, например. Мне кажется, вас тоже всё так лучше. А когда только обучалось всё это добро в двадцатом году, были, ну, не были доступны а что видеокарты, были А1, которые сейчас стоят всего-то по 600. 000 каждая. Вот, если мы в рубли переводить будем. Вот. И для того, чтобы можно было обучить себе нейронку какую-то, нам надо было, вернее, А1 была нужна только для запуска. У неё 40 гигов видеопамяти, их надо было бы штук, не знаю, там 10-20 для того, чтобы вот 10-20 вот по такие по таким ценам, для того, чтобы просто запустить, а чтобы обучить. Там вот были вот такие вот кластера. Один такой сервак кластерный стоил 200. 000 долларов, это он был один, а таких нужно было десятки для того, чтобы модель обучать. Ну и в итоге получается то, что у нас вот я сделал небольшой интерфейс, где показывает то, что GPT3 у неё 175 млрд миллиардов параметров. То есть для того, чтобы в FP16 16 чисел по запятой, надо было 350 Гб. То есть получается это сколько у нас? А, ну вот у нас здесь, давайте 80 Гб VAM - это пять вот таких вот ГПУ минимум, получается, да? Что-то у меня здесь этот, а, это 80 RAM, да? Пять ГПУ минимум. Какая-то этот у меня расчёт я кривоватый сделал чуть-чуть. У меня вот это вот эту запись не смотрите. Вот у нас получается инфраструктура для того, чтобы просто обучать, там была 200. 000 долларов и больше для того, чтобы просто начать там, ну, обучать или запускать. То есть это было двадцатый год. А сейчас, чтобы локально запускать какие-то модели, которые будут полезные, а их, ну, сейчас можно вон 4090 купить. Она, конечно, стоит там дороговато, 1. 150 на текущие деньги, если мы на Авито посмотрим. И уже можно вот квен модели, модели локально запускать, но далеко-далеко не для всех задач. То есть математика этих расходов просто упала не десятикратно, а упала там 200 кратно, то есть 200. 000 долларов просто, чтобы что-то запустить. А сейчас благодаря тому, что появилась квантизация, появилась там всякие энтузиасты, которые запиливают и как-то может, ну, могут ситуацию улучшать в плане запуска локальных моделей, приводит тому, что мы можем вот я на своём вот этом нищебродской 3090, да, это считается нищебродское старьё, которое уже устарело морально везде и вся, даже если мы пытаемся арендовать 3090, там везде пишется типа то, что это уже там устаревшая, типа, пожалуйста, даже не пытайся, хотя бы 4090 возьми. Так вот, я вот на своём старее 390 могу запускать вполне себе интересные модели, но опять же они вполне себе интересные по сравнению с тем, чтобы вообще, когда нет никаких моделей, если мы говорим про серьёзные какие-то вещи, они, к сожалению, ничего такого прямо серьёзного, мощного, типа того же OpenCL, под капотом у себя запустить не смогут. Вернее, смогут, но будут страшно тупить. Но если мы говорим про сегодняшний день, да, сколько сегодня стоит, да, вот опять же показываю этот экран, то, что вроде такая вот инфраму была нужна в двадцатом году и такая сейчас. Но прикол в том, что сейчас инфра ещё мощнее нужна. Я там читал всякие статью, аналитику, то, что чат GPT для того, чтобы локально запускать, ну, у себя запускать всё это добро, вон там тысячи видеокарты тратит, там десятки тысяч видеокарт уровня А100. То есть получается, ну, кстати, это хорошая, наверное, новость, то, что лет через 3-5 эти А100 будут массово выкидываться на рынок, потому что там H200 вышло уже и скоро будут на неё всё переходить. Ну, и в итоге у нас рынок чуть упадёт по ценам, то есть и можно будет подешевле классные видеокарты купить. Но сейчас, то есть там миллионы долларов, если не миллиарды, я даже сейчас не могу сходу посчитать, тратятся на то, чтобы инфраструктура сидела. И, ну, давайте предположим, что там не самые глупые люди сидят, типа. И вот когда мне пишут коммент то, что, а, да, можно то же самое локально запустить типа на этой на оламе и получить всё то же самое, у вас не высока такая мысль, то, что странно, то, что умные люди тратят миллионы и а то и миллиарды долларов для того, чтобы эту инфраструктуру держать, а мы такие хитрые, приходим, запускаем локально и всё работает. То есть даже вот банально здесь вот, если с точки зрения экономики посмотреть, люди просто так не будут этим заниматься. Они этим занимаются как раз-таки, чтобы можно было, они тратят такие высокий ресурс, чтобы можно было такие умные модели запускать. И не прокатят локально запустить модель бесплатно, хитро и всех обдурить. То есть уже, ну, тут на этом этапе именно просто всё посчитав, уже начинаешь понимать то, что ну что-то какая-то лажа про то, что можно локальные модели запускать и ими заменить полностью умные модели. Это, знаете, как подумать то, что вот у меня разработчики вот, допустим, у него зарплата x руб. Вот. А я такой думаю, что я туплю, возьму другого разработчика, который стоит X / на 10 руб. Будет хорошо себя чувствовать, будет всё отлично работать. только, да, этот, который x руб - это синьор разработчик, который всё делает хорошо сам по себе, а это будет джун, который ничего сделать сам без моего участия не сможет. Вот ровно то же самое у вас будет при запуске локальных моделей. Вас ждёт просто тотальнейшие разочарование в некоторых вопросах. Там мы когда привыкли, то что там GPT 5,2, даже 5,2, а не 5,4, он, да, даже пятёрка, да, даже ты и GPT умеет какие-то многие вещи решать, которые мы привыкли, что умеет решать. Мы запускаем локальное и она начинает нас спотыкаться, вызывает какие-то те инструменты, делать какие-то глупые рассуждения. То есть просто даже если на двух экранах запустить локальную модель, облачную модель, мы просто увидим то, что реально мы взяли разработчика, которому платим, не знаю, миллион руб. в месяц и которому мы платим 10. 000 руб. в месяц. Вот. И вот примерно такая разница в их скилах и будет. Это, конечно, не гарантирует то, что мы платим ему миллион, то, что он будет делать на этот миллион, но я думаю, вы это вы, я думаю, вы поняли суть этого сравнения. Не просто так компания тратит такие бешеные деньги на запуск этой инфраструктуры. Я

### [21:36](https://www.youtube.com/watch?v=-vYjoiW2Zd4&t=1296s) Важность размера контекста

ещё не проговорил одну очень важную штуку про контекст. Давайте снова вернёмся к моей рисовалке. Давайте вспомним, ну, если вы не смотрели ролик про OpenC предыдущий, да, я, ну, краткая справочка. Вот у нас вот есть OpenC, наш любимый, и есть любая лмка. Давайте вот любая, это ещё не имеет значения, это облачная или локальная будет. И если мы хорошо помним, мы, кидая сюда любой запрос, даже формата: "Привет, как дела? " Пр к д. Тут летит не только вот эти вот 10 токенов, а тут летит ещё огромнейший контекст, в котором сказано то, что если что, то ты openкc, ты очень умный помощник, ты можешь там того, пяты десятый, есть такие-то инструменты, такие-то скилы. И тут у нас получается 10к токенов, то есть в контексте получается 10. 000 токенов только на один привет. А если мы говорим, как я вот в предыдущем видосе, если вы не смотрели, посмотрите, я там приводил сравнение, сколько уходит токенов на разные запросы, ну там диву даёшься, как много токенов будет сгорать. И в итоге вот опять же возвращаемся к моей 3090 видеокарты, которая у меня здесь стоит. Вот она, 3090. У неё 24 ГБ вирама. А VRAM руками писать ужасно. Прошу прощения за мой почерк. Опускаем вниз. И у нас здесь получается вот. Давайте вот так вот на шкале разместим 24 Гб. И давайте вернёмся, допустим, к модельке сейчас. Вот. Не то нажал. Открываем снова LM Studio. И, ну, вот моя любимая модель Квен 3,5 35 млрд параметров. Вот прям просто вот волшебная модель. Я её просто обожаю. Там это 27 млрд параметров, она ещё покруче будет, чем 35 млрд параметров, но она помедленнее. А вот 35 - это прямо, ну вот на текущий момент это мой личный топ по запуску локальных моделей. Сейчас только, конечно, прогрузится список моделей. Прогрузился. Для того, чтобы запустить самую лёгкую версию именно от разработчиков LM Studio, нужно 22 ГБ видеопамяти. Да. Идём снова на мой рисунок. Вот он мой рисунок. Из двадцатичетырёхгигох видеопамяти для моей любимой 20 Н 35B нам потребуется вот столечка только на запуск. Это launge. Оп. Это мы только запустили модель. И вот тут где-то 2 гигабайтика на контекст остаётся. Я, конечно, человек простой. Я понимаю, что мне этого контекста не хватит. Это будет примерно тысяч 15-20 токенов. Я не думаю, что это больше уместится. Это получается я напишу: "Привет, в Open CL". Openкло ответит: "Всё хорошо". И я ему напишу следующее сообщение, и всё, контекст уже не уместится. А если мы говорим про какие-нибудь кодерские задачи, то ещё меньше получается будет умещаться. Мне меня это категорически не устраивает. Я иду опять же в эту же LMДю иду смотреть, какие есть другие ребята, которые квантовали её. Вот, погнали. Есть, ребята, аслот. И тут уже вот есть такие варианты. И казалось бы, я такой: "А, я самый умный, я самый хитрый, возьму-ка я модель поменьше". Вот, допустим, вот эту 12 гигов. У меня будет целых 12 гигов ещё на контекст. То есть получается, у меня будет контекст 400. 000 токенов. Проблема в том, как я вам говорил, это будет модель, у которой очень сильно сделана более тупой. То есть она сжата максимально и от неё толку не будет никакого. То есть, ну, в моём понимании меньше, чем Q4КL там, ну, а ещё лучше KM, лучше не запускать. То есть Q4KL - это вот те же самые 22 Гб и получается. Ну что я, получается толком-то эту модель запускать нормально не могу. Ну спойлер, я её могу, я её запустил, я её использую. Я правда не помню каком кванте. Мы с вами, когда будем практический пример уже с вами приходить, я вам покажу какой-то квант и как она работает. В итоге приходится как-то балансировать, как-то, ну, придумывать, изворачиваться, как-то искать способ для того, чтобы можно было получить максимум контекста и при этом получить, ну, ещё модель какую-то не самую тупую. Вот этот контекстик - это очень мало. По-моему, у меня запускается та версия, которая занимает что-то 17 гигов, остальное на контекст. И этот контекст у меня там вмещает 44. 000 токенов. Э, я прошу прощения, сегодня очень лагает у меня э моя рисовалка. 44. 000 токенов - это очень мало, потому что мы можем с вами пойти на сайт Open Router. Угу. Подождать, пока он загрузится. Открываем модель, допустим, GPT 5. 2. Это, ну, это моя основная модель, которую я использую везде. Она, ну, прямо баланс качества и денег. То есть вот она мы её тоже продаём вот по таким ценам, по таким подпискам. Если интересно, ссылка на провайдер наш есть в описании. Такая микронативная реклама. Ну вот мы идём на Open Roer, и у него получается вот, ну вот примерно такие цены. Если мы покупаем официальных Open Ai, Open Roer, неважно где угодно, получается вот такие цены за работу 52, но у неё контекст 400. 000. Это вот получается в 10 раз больше, чем у меня сейчас есть. Иногда бывает такое, что этих 400. 000 не хватает, но очень-очень редко. Вот. А 40. 000, ну, я не знаю, давайте далеко ходить не буду. Я сейчас открою вам в килокоде любую задачу, которую я недавно делал. Сейчас мне надо только найти проект. Вот, допустим, вот этот же провайдер, который вам сейчас показывал небольшую. Вот, допустим, мы недавно добавляли наш провайдер работу свен моделью, да, Quen Completions. Вот её показываю на экране сейчас. Это такая простая задачка. Она, ну, там, видите, вот переписка довольно-таки короткая получилась, но это уже 69. 000 токенов. То есть это бы уже в локальной модель никакую бы не уместилось даже близко. И прикол в том, что у килокода такое большое количество контекста прилетает, когда мы его запускаем. То есть, ну, то, что я килокод, умею то-то то- то-то. Такие-то скилы, такие-то инструменты, такие-то т первый запрос проходит уже 20. 000 токенов. То есть получается, если мы запускаем локальную модель, то остаётся 40. 000 токенов. Я не знаю, это как запас топлива в баке. Вот у вас, если маленький контекст, то куда вы, как далеко вы можете ехать на машину, кото на машине, у которой маленький бак, допустим, там 10 л, 10 л - это 100 к 100 км там примерно. Ну так в среднем машине. Вы какую машину себе выберете? Вот у вас стоит чуть-чуть подороже машина, у которой 50 л бак и мощность там типа 300 лошадей, и стоит машина, у которая 10 л бак и там, не знаю, 30 лошадей. Да, конечно, для очень большого количества задач эта маленькая машина. Ездить по городу будет более чем достаточно. Она будет дешевле, как и локальной модели. Но когда мы говорим прочёт серьёзно, допустим, про разработку какую-нибудь, если мы пишем какую-то софт, используя искусственный интеллект, про обработку изображений, про подготовку какой-то маркетинговой стратегии и прочие истории, нам, получается, нужно большой контекст туда загрузить. А чтобы большой контекст загрузить, всё, вот вы никак в принципе физически не загрузите в модель, которая не умещает в которую не вмещается большой контекст. Это физически недоступно, как вот бензобак, у которого 10 л. Только вы не вы с собой канистру никую не возьмёте. И там ещё прикол в том, что, ну, некоторые модели если мы опять же возвращаемся к примеру с Чат GPT, она была обычена вот в таком контексте. Она, ну, может просто физически недмещать. Давайте возьмём 3 с опять вот этот мою любимую 27 биби. Она была обычна вот на таком контексте. И, допустим, у меня выделили бюджет на аж 100. Они стоят по 15 млн. и я запускаю. Но проблема в том, что у нас, в принципе, модель обучается на ограниченном контексте. То есть и локальные модели, которые вмещают в се большой контекст, они уже дорогие. То есть, если мы говорим про JLM5, вот она, у неё контекст, а тут тоже всего лишь 200. 000. То есть я даже сейчас честно вам не скажу, какие openсорсные модели умеют работать на большом контексте. Честно, вот сейчас ходу не скажу, потому что, ну, я что-то думал, что JLM побольше. Да, давайте вот, ну, ээ, КВН 3,5 посмотрим, которая 122, а вот 397 млрд параметров. В каком контексте она обучено? Тоже 262. 000. То есть в целом какую-то глобальную огромную вещь туда впихнуть не получится, но для большого количества задач этого хватит более чем за глаза. Но опять же, я говорю, вот у меня в прикодинге бывает такое, что за 10. 000 контекст вываливается и в итоге всё, у нас модель начинает жёстко сбоить, она пытается моде этот контекст как-то сжать, пересказать. Ну, и в итоге у нас начинаются некоторые страдания. И можно, пытаясь получить опыт работы с нейросетями, получить опыт негативный, никогда больше к ним не возвращаться, просто потому что расстроилсь то, что какое-то [ __ ] получилось. Вот. А оно [ __ ] не потому, что там не только потому, что я что-то криво руками сделал, а ещё потому, что модель какая-то туповатая. Вот эта часть видео, она подходит к концу, именно теоретическая. Я вам обосновал, почему в целом этот тезис про то, что а давайте локальную запустим, он несостоятелен прямо вообще. То есть локальные модели, конечно, это очень круто. И я, да, сейчас вот получается, я буду противоречить всему тому, что я говорил до этого. Локальные модели - это великолепно, это офигенно. И вообще в целом я в своей работе стараюсь идти по принципу local first, то есть я пытаюсь максимально получить возможности от нейросетей при локальном запуске. Генерации изображений я вообще уже давно не делаю через meми джорни и прочие другие инструменты. Я ещё делаю локально на квенмоделях я генерю какие-нибудь ролики, видосики, если надо для, ну, для примера что-нибудь там для, не знаю, прикол или не прикол, неважно. Я генерирую локально. Я локально генерирую текст или песни или музыку себе фоновую генерю локально. То есть многие вещи делаются локально без обращения к каким-то облачным провайдером. А сколько уже наших клиентов запускают все локальные решения на базе CPP? И реально очень довольны. Они не тратят деньги. Ну, тратят деньги только на инфу, на электричество, но это гораздо меньше, чем облачные. А главное, они находятся в безопасности. Допустим, не знаю, я теперь анализы когда какой-то надо расшифровать. Я иду не в облачную, я иду в свою модель, запущенную локально, и с ней там взаимодействую, обсуждаю и как-то информацию вытягиваю. Или, допустим, примеры там ТЗ огромный от клиента приходит там на 50 листов, и мне надо по нему как-то, ну, осмысленно поискать какую-то информацию. 50 листов в ТЗ легко влезает в 20 или 30. 000 контекста. И мы спокойно можем в формате беседы уже по нему ориентировать, какие-то вещи извлекать оттуда и попросить модель какую-то информацию пересказать. Я в течение дня, то есть если мы выбросим именно кодинг, основная моя работа, всё остальное, что не связано с кодингом, практически всё я делаю на локальных моделях, и они прекрасно подходят, но они не подходят под сложные вещи. А вот open, допустим, - это сложная вещь. Некоторые агенты - это тоже сложная вещь, потому что контекст размывается, контекст плывёт, модель туповата, и всё, она получается там, ну, уходит постоянный цикл, начинает сходить с ума, и в итоге, ну

### [30:51](https://www.youtube.com/watch?v=-vYjoiW2Zd4&t=1851s) На чем можно запускать локальные модели?

получается какой-то отстой и разочарование. Теперь давайте поговорим про то, как и где их можно запускать. Вот мы всё мы с вами обсудили. Я там затронул вопрос с видеокартами, с процессорами. Ну больше с видеокартами. Вот, допустим, возьмём мой комп. Сейчас я прямо быстренько диспетчер задач гляну, потому что я всё время забываю, какой там у меня процессор, какая у меня там память, вот это всё. У меня есть видеокарта RTX 3090. Эта видеокарта просто для того, чтобы ещё три монитора можно было подрубить. Эта видеокарта встроеннах процессор, чтобы можно было восьмой монитор подрубить. У меня их восемь на компе. Вот я, кстати, про это отдельный ролик снимал. Сейчас появилась плошка. Вот, можете посмотреть, если вам интересно, на мой рабочий стап, где у меня восемь мониторов, и я, ну, как многие думают, сошёл с ума. На самом деле, это очень удобно. У меня вот процессор. А, загружайся, давай. AMD Ryzen 9, короче, AMD. Кто шарит процессоры, тот, допустим, понял, что за процессор. Я в них не шарю. Я мне наш сотрудник всё настроил, и я этим пользуюсь. Вот. AMD CPU есть. От видеокартах я шарю чуть побольше, и то писать только не научился. И то шарю хреноватое. У нас для этого есть специально обученный человек. Вот есть видеокарта GPL и есть, получается RAM. Это у меня 96 гигов. Причём я, когда комп собирал в декабре, я думал купить себе, ну, сразу в два раза больше, но решил типа, что а ладно, после Нового года куплю, а потом после Нового года памяти 20 раз подорожали и теперь буду ютиться как-то на этих 96 Гбх. Если вы посмотрите диспетчер задач, вы можете увидеть то, что, ну, оно уже больше наполовину занято. И как мы можем запускать модели? Мы берём, допустим, модель, которая так, тут у нас сейчас Тут у нас 24 VRAM, 24 Гб видеопамяти. И, например, у нас модель, которая весит сама по себе модель, её веса, она весит, допустим, 10 ГBAM. Между прочим, 10 ГВРAM весит много интересных хороших моделей, которые вот, ну, при работе с текстом более чем вас устроит, там, пересказать текст какой-то, как-то с ним поработать, ну, поивлекать какую-то информацию, они более чем, ну, подходят, допустим, та же самая GPT OSS 20B, а она старая, ей уже больше года, но она всё ещё очень хороша и она невероятно быстрая. То есть вот мы её всю, допустим, можем положить сюда, и она будет выдавать 160 токенов в се 160 токенов в секунду. Я вам даже сегодня покажу, как она у меня работает, просто, чтобы для примера было. Тут ещё можно аж 120. 000 контекста запихнуть. То есть можно реально большие файлы пихать. Вот. И она вам будет в самом помогать. И она, ну, вас, наверное, много в чём порадует. Но для серьёзной задачи она не подходит. Там кодинг, допустим, или какое-нибудь исследование проводить. Она, ну, туповатая, честно скажу. И она ещё не умеет смотреть. Она умеет только печатать текст и воспринимать текст. Если мы говорим про модель ну вот есть моя любимая Квен, Квен 30, 35 би, она квантованная, допустим, весит 18 гиков. Она тоже сюда влезет. Ну и маленький контекст, я про это уже рассказывал. А, допустим, мы берём, открываем LM Studio, и я технически, я даже, может быть, вам сегодня это покажу, но не обещаю, потому что видос и так очень длинный. Н 100 20 2 я вот она у меня даже скачана 75 гигов. Вот она. Давайте мы здесь её сейчас нарисуем. КВН 122 B. Это у нас 75 ГБ. Что это значит? А это значит то, что у нас 24 ГБ уйдёт сюда. 75 -24, а 51 ГБ уйдёт сюда. И казалось бы, мы всё запустили, всё хорошо, но прикол в том, что видеокарты они заведомо ещё когда были только видеокартами, там же в чём прикол, там надо строить треугольники, чтобы нарисовать, допустим, руку в 3D она из кучи треугольников состоит. И это большое количество очень простых операций по расчёте координат. Но их такое большое количество, если процессор это будет считать, и процессор будет просто захлёбываться. Именно поэтому придумали отдельные графические ускорители, там графические процессоры и начали отпачковываться в отдельные видеокарты. И в итоге получается то, что видеокарта в этом супер хороша. Там вот эти тензорные ядра, тут уже всё, мы уходим в ту технику, которую я не сильно понимаю. Вот. Но они оптимизированы для того, чтобы быстро считать маленькое количество операции. Именно поэтому в своё время был майнинг, в котором, ну, я в майнинге какое-то время им занимался, я им примерно в нём разбираюсь. Суть в том, что в майнинге ровно то же самое. Там надо считать большое количество хэшей, просто невероятное количество. Это очень простая операция, но их надо в очень большом количестве считать. Поэтому видеокарты там очень хорошо возымели успех, потому что это возможность быстро включить пересчёт хэ на тех же тензорных ядрах, а потом плавненько хайп из на видеокарты из майнинга перетёк в нейросети. И в итоге получается то, что в нашей вот этой э картинке этой у нас будет что-то. Мы склеили две машины, на которых мы хотим ехать по городу. Допустим, вот этот может выдавать сейчас какую-нибудь 100 км/ч может ехать, а эта машина может ехать 30 км/ч максимум. Ох, купит. И мы же понимаем, да, что мы будем ехать со скоростью самого медленного чувака, то есть со скоростью 30 кмчас. И при этом ещё нам надо будет постоянно какие-то веса туда-сюда перекидывать, потому что, ну, часть посчитали там, информацию между ними обменивается, и как раз-таки в обмене этой информации будет участвовать вот этот вот товарищ процессор. То есть получается у нас задействоваться ещё и процессор будет для того, чтобы, ну, мало того, чтобы посчитать, так ещё данные перегонять. То есть, ну, опять же, это представляете, как едет две машины, и они постоянно друг друга перекидывают. То есть для того, чтобы перекинуть, они останавливаются. Типа проехали метр, остановились, перекинули вещи, потому что типа так, о'кей, ты сейчас провези чуть-чуть вот этот груз, потому что ты получше проедешь и с ним надо поработать, а я повезу остальное. И в итоге получается очень много, большое количество операций на эти перекидывания уходит, и у нас модель работает очень медленно. Причём, когда я говорю очень медленно, я не преувеличиваю. Допустим, вот этот Квен 122B, ну, мы запускали там у соседей на 64 Гб VраAM очень сильно квантованную. И такую же запускали у меня на моём компе вот из того, что я его сейчас вам нарисовал. Ой, из структуры. Ну, у меня было в 30 раз медленней. То есть у него выдаётся там по предложению в 2 секунды, а у меня по одному слову в 2 секунды. То есть, ну, вы сами понимаете, что с этим работать получается невозможно. И при этом там и просто видеокарта просто сходит с ума. Они пытаются как-то выжить. Пожалуйста, лучше убей меня, пристрели, хватит меня заниматься, такой ерундой заставлять. Но это всё же возможно. То есть мы приходим к тому, что запускать на что? На чём-то, что связано с ЦПУ, смысла нет. Ну только ради что поиграться. Надо максимум стараться умещать всё видеокарту, чтобы не заниматься этими страданиями и мучениями. Мы идём по тому, что мы

### [37:22](https://www.youtube.com/watch?v=-vYjoiW2Zd4&t=2242s) Запуск на очень дешевых видеокартах

пытаемся запустить всё на видеокарте. По поводу видеокарты есть небольшой читерский лайфхак. Я сейчас его открою на Авито, если Авито в этот раз загрузится. О, Авито загрузился. PS14100 называется. Вот она прекрасная загружается PS1400. Одна видеокарта стоит 2. 000 и имеет 8 Гб видеопамяти. Мы можем сделать, что правильно? Мы можем взять их две видеокарты и получить 16 Гб видеопамяти. И именно это в формате эксперимента мы в своё время сделали. У нас есть специальный обву GPU Beach, ну то есть beachсервер с ГПУ. Сейчас мы к нему подключимся, и я просто вам покажу, как это выглядит. У нас сейчас как раз-таки здесь запущено GPT OSS на 20 млрд параметров. Вот у нас две P14 по 8 гигов каждоый. И у нас получается 16 Гб видеопамяти. И GBTSS занимает 7 гигов здесь и примерно 7 гигов здесь. Сейчас я открою её здесь на экране, покажу, как, в принципе, GPTS работает. Вот я запустил. Вот получается, смотрите, у нас для того, чтобы нам этот комп получить сейчас может на экране какие-то фотки появляются, мы купили э сначала эти две видеокарты, получилось там это 4. 000. Мы взяли с помойки где-то у нас там, ну, в шкафах валялся комп старый с материнкой. Воткнули та эти две видеокарты, там бичёвский прот там ужасно медленный диск, который модель загружает примерно минуты три. То есть, если мы говорим про запуск такой же модели у меня здесь локально моём компе с SSD, он загружается там за 5-7 секунд, а там минуты три, там любая операция. То есть я это не знаю, я ставил, когда пакеты, я просто, честно, я прямо чуть не сдох, пока этим занимался. Это было всё очень медленно, но когда запущено, вот как оно работает. Не знаю. Привет. У меня зависло. Привет, как дела? Вот он пошёл думать. 40 токенов в секунду. Вот как выглядит Напиши рассказ про программиста в 10 абзацев. Ну, сейчас просто увидите скорость его мышления. Вот с какой скоростью он умеет думать. И вот пошёл рассказ. То есть в целом я читаю медленнее, чем он пишет. Не знаю, может быть, вы читаете быстрее, но в итоге получается, что мы уже для простых рядовых задач можем собрать такой же сетап, как у меня, из говна и палок, назвать его бич сервер. Он у нас там стоит на стойкеде, то есть рядом стоят стойки с разными мощными серверными видеокартами и рядом этот бичарский сервер стоит. Мы, конечно, в проде GPT OSS уже вообще не используем, поэтому я сейчас запустил просто вам для теста, для того чтобы показать. Но на этой видеокарте офигенно работаютбединги. Ммбединги - это лёгкие модели. Они не занимают много верама. Имбединги обычно быстро не нужны. Ну то есть причём там не будет такой истории, что на 3090 имбединг работает за одну наносекунду, а на этой видеокарте за 2 секунды. Нет, ну будет примерно так. Один запрос на эти на этой бич видеокарте будет занимать примерно, ну секунды, допустим, две, а на 3090 будет полсекунды. Но в наших решениях, в наших местах эта разница скорости нас более чем устраивает, а разница цене нас просто вызывает восторг, потому что вот PS4 стои на экране показывает, сколько стоит. И давайте вот посмотрим просто. RTX390 - это наша основная рабочая лошадка для всех решений именно по запуску легковестных моделей. То есть когда клиентам мымы мы когда мы тратим деньги клиента на его инфру, мы там и аж 100 что можем ему купить и спокойно запустить, там уже модели огромные. А когда мы запускаем что-то, ну, локально для тестов, у нас, конечно, лично у нас использование только 3090. Вот. Поэтому сейчас, возможно, загрузится или не загрузится, потому что что-то Авито, пока я сел записывать, начало сильно лагать. В общем, не загружается, не будем тратить сейчас время. Ну, стоить она будет минимум 55. 000, поскольку я постоянно мониторю рынок RTX 390. Минимум 55. 000 надо будет потратить для того, чтобы купить нормальную 3090. О, кстати, пока я говорил, загрузилась. Вот они 60. 000 там, а кто-то там 75 продаёт какой-то оптимист. Вот 55 мы купи покупали там в наш штат видеокарт по 52-55. 000. Они более чем живые. И по ним прямо видно, что майнинги их юзали просто во все щели, как только можно. Но для нашей задачи они более чем подходят. 3090 отлично переваривает GPT OSS 20B. Вот давайте, кстати, далеко, чтобы не ходить, я вам покажу. 20B. Привет. Как дела? Вот как работает на 3090 GPT OSS 20B. Он сейчас её быстренько загружает в видеопамять. Можем прямо этот процесс увидеть. Вот он здесь. Вот он пошёл, её выгрузил. Видите? Ну, получается, он там чуть чуть больше или чуть меньше половины ему нужно для этого. Сейчас он всё загружает, и он нам быстренько ответит. Вот мы попросим его то же самое рассказать, что рассказывал нам модель на дешёвой видеокарте, и мы поймём то, что нету такой драматической разницы, которую мы могли бы заметить своими глазами. Вот всё, побежал. То есть, да, оно идёт быстрее. Давай напиши рассказ про программиста 10 ап зацев. Вот он пошёл. Оно идёт быстрее, да? То есть, ээ, там, где на дешёвой видеокарте генерится строчка, тут генерится пять примерно за это же время. Но всё равно это примерно раз 10 быстрее, чем я могу читать. Всё, вот он пошёл этот рассказ генерить. То же самое, как и здесь. То есть у него здесь 40 токенов в секунду, а тут, блин, тут не пишется, к сожалению, сколько токенов в секунду. Или я не знаю, как это увидеть. Вот. Но он генерит. То есть сильной такой разницы нету. И когда мы говорим про запуск таких простых моделек, то более чем. И ещё мы на этой конфигурации запускали очень крутую модель. Кстати, вот Н 3,5, скорее всего, в 9 млрд параметров, да, её можно будет спокойно запустить. Вот эти вот шесть, она даже на одной видеокарте запустится, и она ещё умеет смотреть, то есть она может понимать, что происходит на картинке. Вот. Да, 35 би, скорее всего, не уместится. 14. Да, сейчас 35B. Вот эта вот она. Ой, нет, от анслота 30,5 35 би. Вот отслота, есть ли там кван, который влезет. Но в целом, смотрите, можно даже вот этот кван впихнуть в эту бич сборку, и она будет смотреть. Но я вам не могу сказать никаких прогнозов по поводу того, насколько она будет туповата. То есть я не делаю вообще даже намёков на иллюзию, на то, что она

### [43:07](https://www.youtube.com/watch?v=-vYjoiW2Zd4&t=2587s) На каком софте запускать локальные модели

будет умной. Вот насколько она будет тупой, я не знаю. Поговорим теперь про то, на каком софте, каким софтом запускает локальные модели. Это VLM, это Lama, LM Studio и Lama CPP. Это вот четыре варианта, которые я вам сегодня, про которые я вам поговорю. Первый VLM - это тот вариант, на котором мы остановимся намале на минимальное количество времени. Если мы берём, допустим, не GPT OSS, а вот JLM пятую, её выкладывали в открытый доступ, и мы хотим её запустить, и мы идём сюда в файлике и видим вот эти вот ужасные 282 файла. Save Tensers, это Давайте я сейчас калькулятор включу или не включу. Давай калькулятор. Хотя у меня вроде здесь была волшебная кнопка по запуску калькулятора, и она даже сработала. Кайф. 282 файла по 5,3 гига. Это получается вот столько нам надо будет видеопамяти, чтобы это всё разместить. 1,5 Гб видеопамя 1,5 ТБ видеопамяти. Это получается, если мы даже берём видеокарты аж 100, которые по 8 гигов видеопамяти, делим на 80, 19 видеокарт и ещё две видеокарты на контекстик потребуется. 21 x 1,5 млн. 31 млн будет нужно, чтобы это запустить. Это нас не устраивает. Как раз-таки именно вот Save Tensers файлы, они запускаются через VLM. Это вы можете просто прямо взять и запустить. То есть там вот VLM он прямо рассказывает, как можно запустить. Также это всё можно запустить в ранподе. Ладно, сейчас не буду тратить на это время. В ранподе также можно запускать модели с VLM. Там можно арендовать на какое-то количество маленькое времени видеокарту себе, сервер с видеокарты, и там через VLM запускать. Когда ты хотелось сделать видос на тему, но что-то похоже спрос на запуск на ранподе, он вообще нулевой. Поэтому, если вдруг вам интересно, как запускать на ранподе видос, видос про это, могу снять. Но, честно говоря, ну да, думаю, что вам это не будет интересно. Вот. То есть тут запускается на VLM. Этот вариант нам точно не подходит, потому что, ну, потому что если вы дошли до тако до такой кондиции, что вы запускаете модели неквантованные форма полностью через VLM, то у вас уже настолько знания по этому поводу, что вы этот ролик смотреть не будете. Мы же с вами сегодня разговариваем про запуск бичва вариантов, как вот какими обычно пользуюсь я. И тут первым обычно, если вы в интернете будете искать информацию про запуск локальной модели, на сцену выйдет Олаama. Allлаama прекрасный продукт. Это возможность максимально быстро и просто войти в мир локального запуска не сетей. Заходим на сайт allama. com. Всё, вот тут ставится одной командой, есть куча моделей, и в них же есть возможность оплачивать себе эти три, ну, облачные модели. То есть можно тут GPTOSSS локально, а вот можно облачное что-нибудь запустить. GLку, ту же самую GPT SS будет запускаться на мощностях Оламы. Вам при этом трать их не надо будет. И это вроде будет стоить, ну, не очень дорого. Я не знаю, не смотрел в эту сторону. Но проблема в том у Аламы, то что все модели, которые появляются крутые, новые, они появляются как-то не очень быстро. Если мы смотрим какой-то модель, которая вышла уже вот сегодня, кстати, вот Mini Max M27 вышла дня 2-три назад, а она вот только здесь появилась 14 часов назад, потому что команда Оламы, она либо сама квантует по-своему для того, чтобы у себя в ЛАМ запускать максимально оптимизированно, либо ждёт, пока наквантует кто-нибудь другой. И обычно это бывает растягивается, поэтому, ну, Олама в этом плане отстаёт. Но если у вас нет срочности, вы не торопитесь, вам надо просто запустить. Вот моя любимая Квен 3, сно. Тут все варианты параметров есть. Ну и тут пишется, сколько она занимает место видеопамяти. Вот берёте, запускаете прямо здесь вот через удобный интерфейс. Погнали и всё. Также здесь можно настройках включить, чтобы улам была видна в интернете, работала как сервак. И вы к этому серваку любой инструмент, который там вы хотите подрубить, допустим, тот же самый Open Clow. Open clow олама. Тут есть официальный коннектор колламе. Он подрубится и вы бет не будете знать. Он будет использовать вашу ламу, которая работает под капотом. Она может свичить модели. Она понимает, допустим, если мы, ну, видеопамять занята этим GPTS20B, она, допустим, гемы 34, он эту выгрузит с памяти, загрузит эту, короче, он может сам этим всем жонглировать и для личного использования более чем подойдёт. Но я абсолютно никогда, если можно было бы запрещать, я бы вам запретил, но я не рекомендую использовать это в продакшене на серьёзных решениях, когда мы отходим от той идеи, что мы запускаем что-то для себя. Coming out. Сначала мы клиентом запускали все решения прямо на базе Allлама. То есть мы поднимали оламу на серваке и с ней работали. Но проблема в том, что чем выше уровень продукта, который используется, ну, разрабатывается нами, тем выше там нужна кастомизация и тем меньше там нужна самодеятельность. И вот это одна из причин, почему OpenC клиентам мы серьёзным не продаём. Мы пишем уже точечных агентов под их запросом, потому что в Open Clow много чего происходит своего под капотом, на чем мы не имеем никакого контроля. А нам надо контролировать, поскольку мы за это берём деньги, мы это гарантируем. С уламы такая же проблема. Лама она самостоятельно распределяет, как там видеопамять и оперативную память используется. Если вдруг там модель какая-то одна загруженная, мы пытаемся загрузить вторую модель, она её будет выгружать на процессор и всё. И драматическое падение скорости. Нас это не устраивает. Мы от эту ламы отказались, например, через полгода использовать. Полгода, год мы прямо юзали в проде там, везде всё. Ну проблемы особо не было. Была только вот эта история с тем, что у нас самодеятельность, а нам такое не подходит. И мы перешли на lama CPP. Потом мы выяснили то, что Олаama работает под капотом как раз-таки на базе CPP. И сейчас у нас везде лама CPP - это просто великолепная штука. Вот этот интерфейс, который я вам показывал на нашей дешёвой видеокарте. что всё время все это как раз-таки lama CPP. Но если опять же вы запускаете локальную модель себе, а то в сторону Оламы лучше не смотреть, лучше посмотреть в сторону LM Studio. Да, единственный минус LM Studio в том, что она не умеет

### [48:24](https://www.youtube.com/watch?v=-vYjoiW2Zd4&t=2904s) Софт. LM Studio

подрубаться к внешним модель, внешним провайдерам. Ну, у Олама, у Олама есть свой внешний провайдер, которым она может подрубиться и как бы вам может на время дать там помощнее мозгов поиспользовать. Она студии такой не имеет. Она работает только с локальными моделями, но она офигенна для личного использования. Тут есть поисковик моделям, и он ищет модели не какой-то своей базе, он ищет модели на huging face. Вот есть Хаuging Face. Это как GitHub или там, не знаю, как YouTube в мире ведвидосов, как GitHub в мире разработчиков. Это место, где люди делятся бесплатно всеми моделями, которые у нас есть в интернете. И вот мы можем там типа рис недавно обновлённый, нет. И вот мы можем видеть любую модель, которая есть на hgeningface. Удобный интерфейс мы можем выбрать, какой квант мы хотим скачать. А у меня даже скачана была 4,7фш. Вот скачиваем её и используем прямо здесь при загрузке этой модели. Вот у меня какое количество моделей. Мы можем выбрать, допустим, сколько мы хотим контекста себе выгрузить, сколько нам надо на видеокарту, сколько на процессор. Тут куча технических моментов есть, которые, ну, по сути, они передают эти аргументы в лам CP, то есть под капотом. Тут также, если мы посмотрим настройки Runime, тут та же самая Lama CP используется, то есть ровно то же самое, ну, что можно будет запускать реально потом своими руками. Это офигенный вариант. Я модели качаю только через LM Studio. Это очень удобно. Тут удобный интерфейс. Он сразу скачивает все нужные файлы. Всё, мы скачали модель. Я запускаю локально её здесь разочек там. Ну вот давай сейчас самую простую модель запустим. Я запустил на 3,5 на 8 млрд параметров. Вот она запустила. Что умеешь? Она сейчас просто будет как пулемёт выдавать, да? Вот что он умеет. Это Квен на 0,8 млрд параметров. Тут также спокойно можно пошарить сервак LM Studio. Сейчас где-то там вот lm сервис и к нему уже подрубать другие сервисы. В то же время OpenCl тоже умеет дружить с LM Studio. И я считаю то, что LM Studio, вопреки распространённому мнению того, ну, о чего пишут обычно все про Лама, LMO - это самый лучший вариант для того, чтобы локально запускать какие-то свои модели. Ставите и экспериментируете. Ну, а если вам нужно ещё больше контроля, если вы хотите

### [50:21](https://www.youtube.com/watch?v=-vYjoiW2Zd4&t=3021s) Софт. Llama.cpp

запускать это на серваках, вот как в нашем случае, да, я локально всё на винде там поигрался, поэкспериментировал, потом мы понимаем то, что надо внедрять клиентам или надо внедрять наши в наши внутренние проекты, которые мы на базе нашего и провайдера делаем. Тут мы уже переходим к lama CPP. Вла CPP интерфейса нет. Есть только вот такая штука. Сейчас я вам покажу. Заранее заготовленный набор команд. Вот они. Я скачал Lлаama сервер отсюда прямо lama cpp. Переходим сюда, скачиваем из релизов вот последнюю версию. Вот вы обновили, видите, 20 минут назад. Я се жду, когда они обновят, чтобы конin нормально работал. Качаем и качаем, э, либо для куды и кладём в одну папку и запускаем lamaму CVP вот такой команды. То есть вот он у меня путь это на серваке, а вот путь на моём компе, где там типа D, Worksoft, вот lava server и указываем путь до модели. Вот. и все параметры, которые мы также обкатали на lmudo. Допустим, если у нас модель умеет смотреть, вот у нас модель, если я хотел сказать кукологическая модель, в общем, модель, которая умеет смотреть, вот у неё самую модель и механизм и модель для того, чтобы она могла смотреть. Всё, мы вот такую команду запускаем и у нас запускается локаль наша модель. Давайте мы сейчас именно это и проделаем. Так, я сейчас повырубал то, что употребляет мою видеопамять. Вот, чуть-чуть подосвободилось. Ну и давайте пробовать запускать. Мы хотим запустить модель 3,5 э на 27 млрд параметров и хотим дать ей возможность посмотреть. Сначала я через нтудию всё скачал. У нас появилась такая вот папка. Вот её путь. Там юзер там. И вот лежат два файлика. Я их просто вот таким же образом указываю. Бач сайт контекст 65. 000 и погнали. Запускаем и надеемся на лучшее. Вот он пошёл выгружать. Выгружается у нас запускается на локлохосте на восьмитысячном порту. Открываем. Пока сейчас у нас ещё загружается. Всё, модель загрузилась. И вуаля, мы получили результат. Вот у нас запустилась наша моделька Квен, которая уже, ну, можно вот. Привет, что умеешь? Проблема именно квенам, да, у каждой модели. Ух ты! Вот смотрите, как медленно это делает. Это ужасно медленно. А почему он так это медленно делает? Потому что вот смотрите, произошло то, о чём я вам рассказывал. Она у нас вся не уместилась. И вот такая скорость, два токена в секунду, потому что у нас видео видеокарта максимум используется и используется процессор, потому что чуть-чуть количество слоёв выгрузилось в нашу процессорную память. Останавливаем, смотрим. Да, давайте контекст мы подсожмём. Не 65. 000, а 45. 000 контекста. Ждём. Выгружается. То есть, ну, команды заранее заготовленные. используется. Получилось, что я загрузил. Так, и давай заново. Во, уже лучше. 22 токена в секунду. Вот он думает. И прикол всяких openсорсной модели то, что у них есть разные свои приколы. Видите, как он долго думал, что можно ответить на этот вопрос. Всё, потом пошёл отвечать. Отвечать он будет довольно-таки хорошо. Он, ну, реально, типа, интеллект этой модели довольно-таки умён. Но если я напишу проверка связи, например, иногда бывает такой прикол, особенно если квант низкий, он начинает долго думать, что это может быть. То есть, если мы говорим про чат GPT, проверка связи, он даже думать не особо не будет. Он сразу даёт ответ. Он понимает, когда думать надо, когда нет. А в случае с Квеном он всё ещё думает. Так, что же юзер мог иметь в виду? Он говорит: "Типa так, это конекнчек". Хорошо, надо ответить как-то. Как можно ответить? Давайте попробуем подумать. Какой? О'кей. Четвёртая подходит. Вот варианты типа по-русски вот. Короче, в итоге у нас, получается, он будет думать пример при примерно вечность, но нет, он когда-то ответит. Только уже вот косарь токенов ушёл. То есть косарь токенов ушёл на то, чтобы просто понять, что ему отвечать на вопрос о проверке связи. И он всё ещё думает: "Ну, давайте подождём". Типа, ну, мы терпеливые люди, мы всё-таки связь проверяем. А это важно. Как он понимает то, что вот он перебирает варианты? Даже иногда забавно. Ну, типа, о'кей, как вариант пойдёт, типа, человек вот это, меня бы это устроило более чем вообще. Кто ещё пошёл? Вот он пошёл, думает: ту-ту-ту-ту-ту-ту-ту-ту-ту-ту-ту-ту-ту-ту-ту. Ну и представляете, да, вы включили Openкло на базе этой модели и ждёте. Типа вы думаете, что он там умбно учит, умное думает, а он на какой-то мелочи застрялся, он зациклился и пошёл вот так рассуждать. Кстати, вот тут мы пришли уже в стандартную историю с циклом. Видите, он всё, он одно и то же говорит, типа stop. Окей, это, короче, ну, скорее всего, мы попали в бесконечный цикл, да, и эта штука, она теперь будет очень долго крутиться. Возможно, перестанет делать, когда закончится контекст. А я запустил просто вот, ну, команду, как есть, без каких-либо параметров, без ничего. просто запустил команду. И тут мы приходим к тому, что нам надо заниматься уже всякой всякими танцами с бубном. То есть мы идём этот анслот. Надолот - это как это энтузиасты, которые квантуют модели для того, чтобы можно было их запускать на таких дешёвых сетапах, как у меня. И тут смотрим, типа, если сейчас repeat pty, ну вот есть такая штука пит penty мы, ну, заставляем его не повторяться. То есть опять же, насколько он это послушает, неизвестно. Он всё, он всё ещё пытается понять, что ответить. Знаете, как он прямо как, знаете, бывают люди показывают, типа, я не знаю, что ответить, ответить. Вот вот он примерно этим занимается. Сейчас очень полезным делом занимается моя видеокарта, как вы понимаете, она просто выжигает электричество. Простите, ребят, ну, это тем, кто в соседней комнате сидит, у вас чуть меньше электричества, потому что она занята очень важным

### [56:03](https://www.youtube.com/watch?v=-vYjoiW2Zd4&t=3363s) Подбор параметров для запуска

делом. Угу. Да. Ну, то есть тут её надо запускать уже в каком-то разном формате. Надо экспериментировать, пробовать. ээ перебирать параметры. Обычно в этом сильно помогает этот, ну, написать ему в чат GPT, помоги мне разобраться с этим. Вот. И он постепенно с этим пытается разобраться, какие-то параметры и перебирает. То есть прямо кидаете ему эту ссылку. Вот сейчас как я прямо покажу вот пример, да, Tempor Chat. Прочитай и скажи, как лучше всего запустить на RTX 3090, чтобы не было повторений и была максимальная скорость. Команду сейчас запускаю так. Ну вот давайте скопируем. Дай мне новую команду одной строчкой, чтобы выжить максимум. Ну вот примерно так. То есть мы пытаемся разобраться, дальше чат GBT что-то ответит. В это время он бедный, всё ещё не может понять, что мне сказать. На мой вопрос проверка связи. Так, уменьшить контекст. Хорошо. Вот оптимизированная команда. Что он там предлагает? Контекст 32. 000. Убивает зацикление. Репить снижает повтор фраз. Хорошо, хорошо. Так, ну погнали. Скопировали, вставили. Угу. Всё. Вот он. Да, меньше контекста. Хорошо. Она будет как бы нам сейчас так много контекст для примера не надо. Угу. Ну что ж, дадим ему ещё шанс. Угу. Скорость больше не стала. Те же самые 24 токена в секундуы, которые были до этого. Но он стал быстрее думать. Вот. То есть вот сейчас вот на живом примере я показал, как бывает, да? Вот мы локально запустили модель и с начальными параметрами ничего не меняя, потом поняли, что с ним что-то не так. Вот надо эту команду мне на будущее сохранить. Прямо так, чтобы не тупило и не повторялось. Всё, я сохранил этот файлик. Всё, он будет работать. Про эти параметры очень коротко проговорю. Это сколько слоёв выгрузить на видеокарту. У видеокарты количество слоёв, ой, у модели количество слоёв можно вот в Studio посмотреть, можно где-то ещё посмотреть, но я обычно Studio смотрю. Ну, обычно можно написать вот 999, и он, получается, будет всё погружать. Размер контекста. А батчинг - это какими партиями мы будем потреблять промпты, когда мы будем кушать. Тут надо оптимизировать под каждую модель, под каждую видеокарту свои параметры. Только методом тыка можно посмотреть, ну, сколько, какой параметр будет самым быстрым. Это тоже второй батчинг. Не помню, что именно. Тредс - это количество потоков процессора, которые будут использованы. Вот у меня центральный процессор, у него получается 12 ядер, вроде как, да? Поэтому можно 12 потоков. Flash attention - это ускорение при использовании видеокарты. Не помню, что это значит. Map тоже не помню. Угу, это тоже не помню. Э, да, а эти вещи, про эти вещи стоит спросить уже у чат GPT, что всё что всё значит. Вот. Но тут можно и на сайте онлода посмотреть, что они всё значат. Вот тут уже таким образом перебирается. Да, мы, ну, я вам обещал рассказать про локальные модели и то, что у меня есть большой опыт запуска, но как бы, несмотря на то, что опыт большой, даже мне за это реально платят деньги, я до конца не помню, что все параметры значат, но если там загуглить GPT спросить, то они мне подскажут, я пойму, о чём речь. То есть тут опытным путём мы это всё экспериментируем. Вот мы запустили самую умную модель, которая может сейчас быть доступна мне на моём сетабере на

### [59:32](https://www.youtube.com/watch?v=-vYjoiW2Zd4&t=3572s) Как я понимаю умность модели

адекватной скорости. Давайте теперь расскажу вам про мой самый универсальный бенчмарк. Как я могу понять то, что модель достаточно умная, чтобы с ней заниматься какими-то вещами, которые связаны именно вот с моей личной окололичной жизнью? То есть мы не говорим про кодинг, мы говорим про всякие поисковые задачи, про задачи, связанные с этим с задачи, связаны с пересказом, с извлечением информации из ТЗ. Давайте вот мой любимый бенчмарк. А мой так у меня старший сын сейчас в четвёртом классе, иногда бывает такое, что я не могу понять, что хотят задача. Он мне кидает фотку: "Па, помоги, помоги". Ну я разбираюсь бывает сам, а бывает вот, ну, ну я там не очень помню там про падежи, про окончание проклонения, я могу ошибаться. Вот. И у меня вот уже есть вот бенчмарк мой личный, да. Вот есть всякие, ну ээ плохие бенчмарки, бенчмарки курильщиков, скажем так, вот эти бенчмарки открываем и там вот эти вот, ээ, какие-то цифры там типа вот лидерборды, там информация с этим. Сейчас там всякие графики эти красивые рисуются, там вот эти кружочки там всё. Я смотрю на эти бенчмарки. Ну, сейчас не загружается что-то, ну, тормозит опять. Вот, вроде бы. Ну, так всё по-умному, по-красивому. А я хочу, чтобы мне в приземлёне сказали, типа, смогу ли я свои задачки решать. И я ему прямо пишу: "Кто тут номер 207? Реши мне номер 207". Вот он читает промт. Он сейчас вот тут можно увидеть, как он будет пытаться это впитать в себя. А, он уже впитал всё. То есть, да. Так, сейчас он думает. Думать он может довольно-таки долго, как я вам показал, да, он хочет всё-таки ответ дать более смысленный, более хороший, более правильный. Вот. И в случае с агентской работой, конечно, лучше думалки его не лишать. Хотя я для некоторых локальных задач, у меня отдельно на серваке запущена версия вот такая enable thinking false, чтобы он в принципе не думал, а сразу выдавал результат. Допустим, в тех местах, где она сделать пересказ чего-то, ну, я ему кидаю текст, и перескажи, он отлично отправляет. Вот если мы говорим про то, что про задачи, которую надо прямо так вот решить обдумано, тут лучше с режимом думалки. Причём вот именно у Квена пока такая беда то, что, ну, у большинства моделей можно это на уровне запроса указать, там думай или не думай. Как вот мы в чат GPT можем здесь сказать ему думать или не думать, типа сейчас думаю и или не думать. А здесь именно у этой модели так делать нельзя. У некоторых моделей онрссинг так можно сделать. Надо это всё изучать. Тут, ну, всё-таки большое количество времени уходит на то, чтобы разобраться, что модель умеет, что не умеет. И я отдельно запустил просто режим бездумалки. И вот всякие, допустим, история с этим. Вот сейчас я покажу. Бот, который показывает, что, ну, на картинке, ну, вернее, не показывает, описывает. То есть у меня вот слепой товарищ есть, я ему сделал бот, он ки он кидает фотку и, ну, я ему говорю: "Опиши детально, так, чтобы ну не зрячи мог понять, что происходит". Вот я ему кинул фотку, как там типа ребёнок что-то шара отдыхал в снегу. Вот. И вот он написал, что происходит. То есть тут не надо, чтобы он рассуждал, думал, надо чтобы просто бк выплюнул сразу и всё. И он, получается, видите, вот, ну, меньше чем за минуту он всё это сделал. И получается быстро. Тут, видите, он всё ещё думает. И, наверное, в случае с задачками из учебника четвёртого класса можно было бы так детально не думать, но он всё ещё думает. Он будет думать довольно-таки долго, скорее всего. Тут, к сожалению, это предсказать невозможно. Вот. Но это особенность локальных моделей. Ну вот, как мы видим, мы на бенчмарках, я уже это проверял, да, у меня я уже подготовил, заранее сделал. Я сверил, я знаю, как вырачку это решать. сверил. Всё, вроде бы, решил этот товарищ, наверное, пусть всё ещё думает. Может быть, он когда-нибудь закончит. Он, правда, уже 3. 000 токенов потратил на

### [1:02:58](https://www.youtube.com/watch?v=-vYjoiW2Zd4&t=3778s) Про самые глупые модели

то, чтобы просто подумать. А всё ещё мне ничего не сказал умного и полезного. Давайте я теперь очень коротко проговорю про туповатые модели, самые топоватые. То есть пока он здесь думает, я заранее накачал вам разных моделей, да. Вот опять же мы сейчас вот этот бенчмарк будем использовать в других местах. Квен 3,5. У неё есть разные варианты миллиардов параметров. Вот есть 0,8B. Я сейчас запущу, она запустит даже рядом. Ну, она ничего не съест. Да, она чуть-чуть подъела, но а нет, он пошёл на процесс загрузить, потому что у меня та загрузилась максимально. Ох, господи. Всё, я прошу прощения, мы не будем ждать, пока он даст ответ. Я просто вам наперёд скажу, он даст нормальный ответ. Я уже с этой моделью решал задачку. Вот сколько он думал по этому поводу. Кстати, он думал гораздо меньше, потому что вот я запустил с другими параметрами. Вот. И он стал думать глубже. То есть тут надо прямо балансировать, побирать этим всем вот заниматься. Это, ну, собственно, это то, за что нам платят, потому что мы, ну, нам приходит клиент на разработку чего-то, и мы уже детально вдумываемся, что ему надо, какая модель нужна, как её загрузить. Ну, и она получается всё равно узковато. То есть не получится, как тебя GPT использовать её вообще во всём, что угодно, просто кидаешь, сам разбирается, сам себя перенастраивает, всё такого тут нет. Мы понимаем спектр задач, которые будут решаться этой моделью. Мы понимаем, какая модель подходит, и мы понимаем уже, какие параметры нужно будет под это дело использовать. Вот пример, да, для проверки связи нужны были те параметры, как которые я сейчас уже указал. А для решения задачки, школьной задачки, оказывается, они были не нужны. То есть, да, вот этот пример, который я вам сейчас показываю здесь, он как раз-таки использовался со штатными параметрами. Он довольно-таки быстро так подумал: "А, всё". И дал мне правильный ответ. Абсолютно правильный. То есть он всё меня устроил. Вот. А и вот пропустили с другими параметрами, получается какая-то ерунда. Давайте мы сейчас эту модель выгрузим из памяти и покажу вам просто, что на этом моём любимом бенчмарке выдаёт, допустим, модель 08B. Всё, мы загрузили. Реши 207 номер. Загадка. Мудрец мудреца. Не. Так. Феди. Ну, короче, посмотрите, он уже просто дичь выдал какой-то. Какой-то Феди 3 какой-то этот. То есть с этим поработать не получится. Давайте сейчас, допустим, рассказ. Вот. Вот он новый чат. Рассказ про мальчика, который кричал: "Волк". Вот тебе рассказ. Перескажи его. Три строчки. Мальчик, который кричал два раза в Норвосеки. На следующи день волки вышли из леса, и мальчику стало очень тяжело. Ну вы понимаете, да, тут всё-таки дровосеки приходили, тут же кинулись. То есть, ну, он теряет весь контекст вообще моментально. Он даже такую маленькую рассказку пересказать не может. Но для чего эта модель нужна? Эту модель можно запустить, допустим, на телефоне и она будет довольно-таки нормально работать. Я вам сейчас покажу. Я эту же модель беру и выгружаю её целиком на видеокарту. Ой, без видеокарты. Он загружается это в оперативную память компьютера. Это будет проOs, что ещё там было. И вот смотрите, какая будет скорость рассуждений. Вот. То есть это на том процессоре, на котором мощная видеокарта выдавала примерно один токен в секунду. Вот. И, ну, мой процессор на телефоне у меня Vivo X300, он тоже будет примерно с такой же скоростью работать. Вот постушок еле остался жив. Ну, короче, такой выдаёт он полную ерунду, да? То есть это про то, как можно локально выпускать модели. Но мы же всё-таки понимаем то, что лэмки они не только для таких вот человеческих вещей, они могут использоваться для, допустим, выявления каких-то фактов или запросов. Допустим, мы сейчас можем ему сказать, для чего вообще эта модель может быть нужна. Ниже, э, текст. Скажи, есть ли в нём просьба? Привет. Помоги мне отнести телевизор. Вот, пожалуйста. Да, в тексте есть просьба, поможем. В контексте одна коляска конте. То есть в целом он какие-то уже смысловые вещи может из них извлекать. И знаете, это сейчас выглядит беспонтово, бестолково, но 5 лет назад я бы за такое отдал бы большие деньги, потому что мне писали штуку, которая пытается из контекста фразы, он пытается, ну, по ключевым словам, там, типа, у нас была куча информации, как это работает, именно выявлять просьбы. И оно так и не заработало нормально. И мы даже клиенту деньги вернули, потому что сказали: "Типа, ребят, такое мы сейчас не сделаем". А имеем мы такие модели: "Ну, о'кей, может чуть поменяет, там 4 млрд пат запустили, мы бы нормальное бы решение бы человеку запустили бы, он был бы доволен, ему надо было мониторить то, что в чате какие-то вещи просят сделать, чтобы эти просьбы все собирались. Сейчас это можно вот сделать даже вот на таком даже на маломощных процессорах, которые там в телефоне лежат. Дальше давайте вот, ну, очень короткий бенчмарк этой модели. Ну, тестирование модели, допустим, на 9 млрд параметров. Это уже будет модель гораздо более умная. Так, реши задачу. 207 задачу. Извлекай и решай, что-то он сказал. то, что я сначала текст извлеку, а вон что-то так. А, ну вот всё. Ну о'кей, бывает такое, то, что он тупанул, типа, а, наверное, сначала надо излечь текст. Ой, посмотрим. Звлекаешь. Так, ну всё, короче, оно пошло та думать. Во, всё. Вы видите, под капотом он понял зеркало. Хорошо. Здание один. Всё. Потом он пошёл сейчас смотреть, какие платежи там. Ну, то есть там задачка такая, она многосоставная. Сначала отгадать загадку, потом выписать в разных патежах, там типа выделенные слова. Вот. И в целом он уже, ну вот зеркало здесь персонального мудреца окончание уу. Тактактак. Особая группа. М, ну он почти её решил. То есть если бы я бездумно бы своему сыну бы это скинул, скорее всего, он переписал бы, получил бы какую-нибудь тройку или четвёрку. Вот. То есть в целом уже начиная с 9 млрд параметров для таких вот человеческих вещей оно уже работает. Ну и дальше вот тоже, видите, есть 9 млрд, 27 млрд параметров, 2че, какие там ещё есть? Ну не знаю, разные варианты есть, короче. Да, мне кажется, вот я а ну я все показал, которые используют, которые можно у меня запустить, но мы если мы говорим про 27B, оно решит однозначно правильно эту задачу. И в целом большая задача, которую мы деригируем именно искусственному интеллекту, она будет решать и как этот искусственный помощник, который рядом сидит, более чем подходит этот вариант. Я ещё сейчас ещё коротко покажу вам про 35 би. Так, 23 9. Хоть только бы пароль сохранился. Я сейчас не вспомню его ни фига. Да, отлично. Тут у меня, по-моему, да, всё, он тут подумал какое-то время и выдал мне ответ. И ответ весь правильный. То есть он её решил полностью правильно. 35B вообще топ-топмоделька. Она чуть-чуть потупее, чем 27 би. Хотя, казалось бы, да, 35, ну, как она может быть тупее, чем 27? А прикол в том, что вот у некоторых моделей бывает такая штука хитрая, которую с ходу можно не уловить. Квен 3,5 35 би, а активируется 3 млрд параметров. То есть там другая архитектура. Если мы говорим про 27 би, она целиком все 27 млрд параметр пихает и по ним работает. А тут активируется всего лишь три. То есть, ну, тут получается в угоду скорости и почти без потери интеллекта. Вот. То есть 35 би

### [1:09:42](https://www.youtube.com/watch?v=-vYjoiW2Zd4&t=4182s) Внешние UI: WebUI, CherryStudio

да, она у нас используется более чем в наших рабочих задачах. Уже всё, мы подходим к концу. Есть ещё полезные штуки под названием, э-э, как-то внешние интерфейсы для работы с вашими локальными и не только локальными моделями. Это может быть Open Web UI, вот такой продукт open sourceный. Это получается мы можем захостить свой chт GPT интерфейс, да, он ставится через Docker Compos или по-другому. То есть выглядит он примерно так вот, да, то есть свой интерфейс якобы чат GPT, где подрубаются разные модели. То есть там можно настраивать агентов, можно настроить всякие тулы и так далее. Работает через веб, запускается на серваке. И мы можем все модели, которые нам доступны, можем подрубиться к облачным моделям типа chт GPT официальному. Можем подрубиться, допустим, к нашему провайдеру AI. worsoft. ru, где дешёвые модели лежат. Вот. Ээ либо можем подрубиться к локальным моделям. Я этим вариантом пользовался, вот, но мне он не зашёл, потому что его на серваке запускать. Это чуть-чуть не так удобно, когда я за комфом работаю. Я поставил себе прогурестудио называется. Сейчас она откроется. Так, вот она у меня открылась. И сейчас подключена квен, которая находится на нашем серваке. Вот. Ну вот, собственно, то же самое, что я вам вот здесь сейчас показывал. И тут у меня под капотом, то есть вот здесь можно посмотреть провайдеры, вот перечислены включённые параметры. На ранподе я запускал разные модели. Три, ну, локальная лама. Вот GPTS та самая набечёвой видеокарте. Наш IWMSoft, мои локальные провайдеры, которые я тестово запускал. Облачный провайдер Квен - это я, ну, просто для тестов типа 3,5+ использую. Вот. и наш провайдер в формате comptions. И я вот здесь могу добавлять кучу разных ассистентов, которые, ну, заранее настраиваются. Сейчас вот открываем эту штуку. Тут системный промт можно настроить. Тут можно настроить какие-то параметры температуры, использовать, как использовать инструменты там и так далее. Можно MCP сесра подрубить. Вот у меня мой основной ассистент, у него подрублён подрублен Websearch. Это наш инструмент, который мы локальную у себя запустили. Я сейчас локальную себя на компе запускаю. Вот он MCP сервер. Вот он. Мы его открываем и можем видеть, как он запускается. Это отдельная джесовская утилита, которая ходит в интернет и ищет информацию для меня. Ну и можно вот прямо попросить его. Это используется. Ну, если надо что-то посложнее, я могу подрубить с нашего провайдера 5. 2 Опenна спокойно. Вот. Но мне это не надо. Обычно я мне хватает вот этого 3090 видеокарты. И найди, скажи мне, какая сейчас самая популярная локальная модель, доступная для запуска на RTX 3090. Используй веб-поиск для этого, по идее, да, я уже сказал, чтобы он использовал поиск. Он пошёл искать. Вот он. Вот такой поисковый запрос. Он его отправит там в Google Braй, что-то ещё там под капотом разные эти провайдеры есть. У нас в целом скоро вот на нашем AImsoft. ru появится тоже MCP готовый для поиска. Вот мы пробуем, ну, нашу платформу как-то развивать, чтобы пользователи могли этим пользоваться. Вот он сейчас ищет. Вот нашёл кучу информации какой-то. Сейчас он её перелопатит, приведёт как-то в порядок. Самый популярный на лама 31, лама 32. А вот видите, ну сейчас потом Квен 2 с поно. Так. Качество, скорость, мистрал, да? То есть он, ну, я с ним, наверное, бы не согласился. Вот, может быть, реально это самые популярные. Вот. А что скажешь про запуск Квен 3,535B3B на RTX 3090? Поищи информацию. А с GG в формате, ну, в квантованном. Сейчас перемотаю, как он найдёт сразу. Ну вот смотрите, да, тут он уже чуть-чуть ложанул, признаю. Вот он Квен 2 с по загуглил. Вот и всё, у него чуть-чуть крыша поехала. То есть он слегка, ну он в целом говорит по делу про мощность, про ресурсы, но что-то Впоиск криво ему информацию выдал, потому что, ну, в Гугле он бил, он вбил в Google 2 с по, а не 3 с по То есть это вот, ну, особенности этой локальной модели, она чуть-чуть затупила. То есть тут признаю, но тут ещё прикол в том, что я выключил ему ризинг, он, то есть не думал, я ему выключил рассуждение, он прямо сразу выдаёт эту информацию, которая относится к моему запросу, а не так, что сначала подумать, потом отдаёт. Вот. Но, э, если мы включим ему режим думалки на этом сероке, то он, конечно, качественно ответов в таких вопросах может увеличиться. У меня именно в этой программе через студию я настроил несколько MCP серверов. Допустим, есть Server Command. Тут у меня перечисляются SS-рвера, которым, ну, которым я не боюсь давать доступ для того, чтобы машина сходила этот и сходил, что-то посмотрел. Gitlab, он может эмрки смотреть, может мониторить, какие вещи на меня поставились. Феч - это просто для отправки запросов. Допустим, я какую-то штуку написал и хочу, чтобы он прошёлся и, ну, вот я ему каки скидываю тесткейс и прошу пройдись, посмотри, как всё работает. Он сам сделает курлзапросы, как надо, и мне какой-то ответ из этого отдаст. То есть в целом вот для того, чтобы начать свой путь в мир локальных моделей, ну вот я пошёл по такому пути. Я использую через студию, которая подрубается к уже запущенному лама CVP. То есть сервера у меня, я сейчас открою сервак на 3090, где у нас сейчас. А это давайте прямо даже здесь. Lama server у нас запускается. Вот я открыл файл. Вот примерно так. Путь до файла L ser сервер. Сама ошибочка сама модель. Параметры все вот порт. Ну клей к я его просто сейчас за, ну затёр, чтобы вы его просто не увидели. И всё. Он как сервер запускается и поддерживает свою жизнедеятельность. То же самое со всеми моделями на видеокартах 3090, 5090, вот на V1, на H100, если мы запускаем, мы запускаем ровно таким же образом, как system севис, который поднимает ламы

### [1:15:19](https://www.youtube.com/watch?v=-vYjoiW2Zd4&t=4519s) Важное про квантованные модели

сервера. Важно ещё учесть то, что, ну, вот я вам рассказывал про квантованные модели. Тут как с тарентами, не знаю, если вы, ну, застали тарента, когда все играли в пиратские игры или пиратские фильмы скачивали. То есть там есть разные форматы, разные репакеры, кто по-разному, допустим, готовит пиратский фильм, кто по-разному готовит пиратскую игру. какую-нибудь. И там какое-то время люди выбирают там конкретных хрипакеров для того, чтобы можно было быть уверенным в качестве того, что он сделал. То же самое и здесь. Квантуют разные компании, разные комьюнити по-разному. И надо, ну, просто смотреть, как модель была квантована, как какие у неё отзывы. Короче, всё примерно то же самое, что в мире Open Source. То есть в этом плане надо быть внимательным и

### [1:15:54](https://www.youtube.com/watch?v=-vYjoiW2Zd4&t=4554s) Подводим итоги

искать хорошие кванты, перебирать разные варианты и уже потом с этим чего-то делать. На этом я подхожу к концу. Если вот так вот резюмировать именно видос про локальные модели, я вам могу сказать то, что моё видение то, что со временем локальные модели, конечно, будут всё круче и круче становиться и скорее всего будет приходить к тому, что у нас локальные модели будут узконаправлены. Знаете, как раньше там смотришь там в шестидесяты- семидесятые годы в Америке, там машины были шестилитровые, там они ели под 30 л бензина на сотню и всем было пофигу. А потом, когда с энергией, с электричеством, с этим с бензином ставили проблемы, начали делать маленькие там полтора-двалитровые машины, пытаться как-то выжимать из них полную мощность там на этой мощности и как-то их уже узконаправленно реализовывать. Там использовать их для города, например, только или для трасс. Ну, короче, просто получается узкая специализация. Сейчас мир неростей находится в том месте, в котором автомобильная промышленность находилась там в тридцатых, сороковых годах. То есть они только начинают развиваться. И я вижу то, что со временем будет куча разных узконаправленных локальных моделей. Ну, это моё такое предположение, моё видение будущего. Вот как вот есть эти всякие квенкодеры, которые довольно-таки отстойные, я не знаю, я не могу с ней работать. Вот как есть отдельные другие кодерские модели, есть отдельные медицинские модели, которые доучены на медицинских данных. И вот просто со временем будут появляться модели, которые вот реально узко направлены для конкретных задач. И они будут отлично запускаться на видеокартах уровня 3090, отлично работают, потому что у них не будет куча мусора. То есть их можно будет что угодно спросить про медицину, допустим, но спросишь его про почему не объяснение, он просто на этот вопрос не знает ответа, потому что этого этой информации в детасете не было. И в итоге, как бы, я думаю, что будучи всё-таки локальными моделями именно в контексте тех вещей, на которых можно зарабатывать мне, мне хочется верить, что это будет так, потому что это я знаю, как монетизировать, да. А если мы поговорим ещё про монетизацию, у меня есть сообщество на Бусте, если вы до этого момента досмотрели, мне, во-первых, очень приятно, во-вторых, маленькая реклама моего сообщества на Бусте, где уже вчера появился или позавчера первый подписчик, который добавился в чат. Мы с ним вместе пытались разорваться, как ему OpenCL запустить, как ему Openкло настроить так, чтобы он, ну, работал, как надо. В целом я там людей готов консультировать на разные вопросы, именно не в контексте того, что и всех заменят, и мы типа останемся без работы. Нет, я в эти истории не верю. Я скорее про то, чтобы прагматично, аккуратно, безопасно использовать искусственный интеллект в своей жизни, своей работе. Просто потому что, ну, штука довольно-таки мощная, инструмент довольно-таки крутой и глупо его обходить стороной. И вот как раз-таки вот в этом формате либо платных консультаций, либо в формате платной подписки в чате я людей консультирую, подсказываю, веря готов консультировать, подсказывать, пока был только один такой человек, может быть, ты вот смотришь ролик, и ты будешь вторым. подсказывать все разные вопросы на тему того, что может быть и сделано с помощью искусственного интеллекта конкретно в этой задаче. Не надо ждать фантастики, то что из серии вы придёте. Хочу, чтобы из-за меня работал. Скорее всего скажу, типа, чувак, вот давай возврат оформляй, ну забирай. Я, ну, не могу тебе помочь. Я, во-первых, в это сам не верю, во-вторых, я не знаю, как сделать так, чтобы есть изменил тебя полностью. Но если приходишь реальной задачей, то либо в формате консультации, либо в формате общения в чате, там какого-то с совместного решения проблем я обязательно помогу. На этом всё. Большое вам спасибо. Было очень Було очень рад вашему вниманию. Ролик получился длинный. Надеюсь, я приоткрыл завесу тайны в контексте локальных моделей для вас сегодня. Ещё раз вам большое спасибо за внимание. Это был Антон Морев. Это был проект Галеры Морева.

---
*Источник: https://ekstraktznaniy.ru/video/15026*