"GPT-5.2 – самый большой скачок для моделей GPT в области агентного программирования со времен GPT-5 и является лучшей моделью программирования в своем ценовом диапазоне" – Это одна из цитат в блог-посте компании OpenAI. Я решил разобраться так ли это.
В этом коротком выпусуке посмотрим на бенчмарки новой модели OpenAI, сравним с Claude 4,5 Opus и Gemini 3 и узнаем, какая лучшая нейросеть сегодня.
Если вас интересуют нейросети, gpt 5, Claude и всё, что связано с ИИ, этот ролик – ваш универсальный гид по последним трендам нейросетей. Погнали!
🔥 Aijora собирает более 20 моделей в одном окне и единая подписка на всё 👉 https://aijora.ru
Реклама. ИП "Новиков Олег Петрович". ИНН 502913008977. Erid CQH36pWzJq5EDqiDLVFUAbUDekRwtpXdd5yE8qHcahcyTf
📚 Эфир про CLI агентам - https://t.me/how2ai_bot?start=dl-1765530626c04038d36068
#новости #ии #chatgpt
тайм-коды:
00:00 – Интро
02:28 – Обзор релиза
03:17 – GDPval
07:13 – Длинный контекст
08:35 – Бенчмарки – GPT – Claude – Gemini
12:02 – Мой тест на фронтенд
Бусти – https://boosty.to/prodadvice/single-payment/donation/535968/target?share=target_link
Тг How2AI – https://t.me/How2AI
Тг чат How2AI – https://t.me/how_to_AI
Тг Креативный Совет – https://t.me/creadvice
🥸 Личный тг Дяди Д – https://t.me/true_dyadya_d
Оглавление (6 сегментов)
Интро
Люди, роботы, привет. Open выпускает новую, самую мощную модель GPT 5. 2. Неужели компания сумела оправиться от этого разгрома со стороны Google, подсобраться и выпустить что-то действительно интересное? Мы не часто записываем такие обзорные ролики после выхода каждой новой модели, но этот релиз меня удивил. Хочется с вами пробежаться по тем бенчмаркам и по блокпосту, который Opena A опубликовали. И я успел уже провести один тест и получить результаты, с которых я, ну, мягко говоря, а сильно удивился. Чтобы не пропускать полезные ролики, подписывайтесь на наш канал, оставляйте лайки, комментарии и погнали. GPT 5. 2. В чём заключается основная идея этого выхода, этого нового релиза? Прокачали с точки зрения интеллектуальных возможной агентского программирования, использования инструментов и понимание длинного контекста, ну и, в принципе, длинных и долгих размышлений. Пока я тут разглагольствую, можете вот посмотреть на бенчмарки и посравнивать с предыдущей версией GPT и с другими моделями, но к бенче мы ещё вернёмся поподробней. Что ещё хочется рассказать? Во-первых, доступно всем. Если вы смотрите ролик уже завтра, то даже на бесплатной подписке у вас должна появиться GPT 5. 2 с определёнными ограничениями. Но тем не менее основной сюр заключается в том, что теперь для бесплатных юзеров вот этот роутер, который сам определял, какая модель будет использоваться instant, то есть с быстрыми ответами, либо думающая модель, либо супердумающая, отменили к чёртовой матери. Ну почему? потому что он, собственно, особо не работал. И теперь даже на бесплатном плане вы можете сами выбрать версию модели. И это прекрасно. Спасибо, как бы, Open за это, потому что этот роутер - это был полнейший провал. Итого с этим релизом у нас с вами есть как минимум две версии модели. GPT 5. 2 - это думающая модель. Ну, наверное, какой-то instantт формат, где просто не используются никакой reasonнг. они тоже как бы предложат там в чат GPT и GPT 5. 2 Pro, который думает долго, усердно и должна вот быть доступна всем подписчикам за двухсотодолларовую
Обзор релиза
подписку. Что говорят те сервисы и компании, которым Open этот доступ к модели выдали чуть-чуть раньше? Ну, как всегда говорят, что это лучшая модель SOTA в своей категории. Вообще ничего круче мы ранее не видели. Например, WНСf заявляет, что это самый большой объёмный прыжок вообще для GPT моделей с момента релиза GPT5. Jet Brain заявляет: "Невероятно твёрдые результаты на 35% лучше справляется с нашими самыми сложными агентскими задачами. Н планирует глубже, исполняет лучше. По сравнению с предыдущей моделью изменения значительные. Листая блокпост, меня зацепило две вещи. Первое - это вот этот вот GDP WAL. Посмотрите, насколько
GDPval
сильно скакнули показатели модели в сравнении с предыдущими версиями. GDP Wall - это бенчмарк, который был представлен Open AI и изначально вообще на нём победил клод 4,5 Sonet. Вот тут, кстати, у меня есть такая табличка, которую я составил с общим э сравнением по разным бенчам. Jeept 52 Thinking, Gam 3 Pro, Clodus 4 с по ид OPUS 4,5, и тогда замерялся CLД 4. 1, показывал хорошие результаты в районе там 50%, в то время как ээ GPT 5. 1 показывал результаты скудные. Но сейчас скачок очень весомый. Этот бенчмарк показывает, как модель справляется с реальными задачами из реальной профессиональной деятельности опытных специалистов, у которых там 14 + лет стажа, и на суперразных ээ доменах от программирования до всякой юриспруденции, до медицины и так далее, и так далее. в 74% случаев, ну, чуть меньше там в 70 GPT52 thinkнкиing, эксперты или в целом обозреватели предпочитают ответы моделей, а не ответы людей, которые в этой сфере уже давным-давно работают и в целом выполняют эти задачи на ежедневной основе. И это удивительно, и это можно назвать прорывом вообще в агентских способностях LLM. Вот тут в блокпосте можно даже посравнивать, посмотреть, как GPT52 thinking выполняет эти задачки. например, там всякие финансовые таблицы строит, э, презентации гораздого гораздо лучше, нагляднее, визуально лучше и проще это воспринимать и больше информации заключено там в каждом элементе. Вот у новой версии модели. Сделаем короткую остановку, чтобы поговорить, где же модель взять. Разумеется, в интерфейсе GPT эта история понятная, но у меня, например, была оплачена подписка на ClДОД, и во мне было достаточно мало энтузиазма платить ещё одну подписку на чат GPT и платить сразу 40 долларов. В общем, история с тем, когда вы, как я, например, оплачиваете отдельные подписки на каждый отдельный сервис, она для кошелька не самая приятная. И ещё она не самая приятная с точки зрения доступа, если вы живёте в России с оплатой всех этих сервисов. В общем, много головной боли. Есть хороший агрегатор под названием Aжоora, который объединяет в себе уйму разных моделей не только для генерации текста, но и для генерации картинок. И самое главное, добавлять эти модели, ну, просто, ну, может, не минуту в минуту, но очень быстро. Посмотрите, GPT 5. 2 уже находится здесь. Прошло несколько часов с момента релиза. У вас здесь есть текстовые модели, причём самые разнообразные модели можете вот здесь вот в левом кликере выбрать. Вы можете не просто с ними чатиться, но, конечно, использовать ряд инструментов. Это поиск в интернете и работа с файлами. Дальше, если нужны картинки, идём в картинки. И там, конечно, полный фарш, все наныбананы, в том числе про версия рекрафты. Самые топовые инструменты. Не сумасшедшее их количество, чтобы вы не запутались, но всё, что нужно здесь есть. И оно работает. Я вот там, помните, даже прикалывался уже как-то в одном из выпусков и показывал возможности нанобаны в режоре. У вас тут единая система токенов, по ним идёт оплата. Вы можете отследить, сколько, за что, за какие операции. какие токены тратятся. И в общем, подписки начинаются от очень-очень катастрофически низких сум. Что удобно, если вы хотите просто потестировать те или иные модели. Есть понятная документация как для пользователей. Всё очень чётко по полочкам, так и для разработчиков. Можно программно тоже получать доступ к моделям, которые есть у Ажора, и тоже платить за это всё российскими картами. И здесь себе голову не ломать. И мобильное приложение есть. То есть можете даже всё это синхронизировать у вас с вашим мобильным устройством. хороший добротный сервис с оперативным добавлением моделей, с их быстрым инференсом и доступом. Поэтому, если вам актуально, то переходите по ссылочке в описании этого ролика, регистрируйтесь, пользуйтесь. Другой бенч, который меня
Длинный контекст
сильно удивил - это работа с длинным контекстом. Вот тоже это внутренний бенчмарк OpenA, который, э, хорошо показывает, насколько модели справляются с пониманием и с вытаскиванием нужной информации из долгих контекстов. Вот на 256. 000 э токенов в данном случае, в данном бенчмарке проверяют модель 5. 2 и 5. 1. 5. 2, в принципе, не теряет понимания этого контекста в сравнении с тем, какие как сильно ухудшаются результаты у 5. 1. То есть там каких-то четыре зашитые вопроса и просят модель дать ответ на какой-то на конкретный вопрос, который вот там зашит в большом наборе всяких там ответов в вопросах. В общем, сложно действительно это найти. Вот ещё один пример, где уже восемь рандомных вопросиков, оставленных без ответа. И здесь модель справляется, конечно, хуже. То есть мы видим ухудшение результатов, ухудшения понимания контекста, когда эта иголка спрятана вот там, скажем, на 128. 000 токенов или дальше, и убывание не такое катастрофическое, как у GPT 5. 1. Разумеется, там полный фарш и на вине. Это теперь лучшая модель, которая воспринимает визуальную информацию. Полный разнос на агентских способностях. T2 Bench Telecom работа инструментами, но как будто бы давайте вот такую сводную табличку откроем и ещё раз на неё глянем всё-таки. Лучше ли GPT 52
Бенчмарки – GPT – Claude – Gemini
thinking, чем Gemini 3 Pro и Clot Opus 4,5? Итак, на кодинге. Ну, в принципе, паритет и CLД 4 и Clot Opus 4,5 даже здесь выигрывает на SWE Bench Verified. Общие знания MMLU Gemini 3 Pro здесь обходит. GPQA Diamond сложные вопросы PhD уровня в разных доменах. 52 выигрывает. Дальше олимпиада по математике. Тут, в общем, Open ушатали всех. Без использования инструментов модель закрыла этот бенчмарк на 100%. То есть в науку, в математику, в вычисление, но это что-то абсолютно недосягаемое. Ну как бы бенчмарк закрыт. Всё. Humanity Last Exam, но чуть-чуть не дотягивает до Gemin 3 Pro. По агентным задачам, как уже сказал лидер, хоть и не насильно не намного отрывается от OPС 4,5. Дальше пойдём на Endдинing Bench, посмотрим. Здесь нету в целом, я не нашёл никакой информации про Wending Bench. Это то, насколько модель тоже может долго планировать и насколько она может зарабатывать деньги в каком-то реальном бизнесе, в управлении вендинговым аппаратом. Здесь Gemne 3 Pro Leader, Clot Opus 4,5 и на втором месте у 5. 2. Мы не видим здесь никаких результатов. GDP Wall полный разнос. Тоже на этот бенч с вами посмотрели. И по ценам, в принципе, это сейчас, ну, можно сказать, что, э, лучший представитель на рынке. OPС 4,5 сильно дорогой. Geminite 3 чуть-чуть дешевле в ответах на output дороже в ответах в дороже в токенах на input. Ну и thinkнкиing вот такой имеет прайс 1,75,14, что чуть-чуть выше, чем то, что у нас было у модели GPT 5. 1. Если подытожить, это очень плотный релиз с потрясающими показателями, с потрясающими бенчмарками. Я бы ещё дождался индекса Artificial Intelligence, ээ вот такого сводного индекса, который, скорее всего, скоро сделают, и в новостном выпуске я про него расскажу. Поэтому не забывайте подписываться. У нас тут много контента в новостях. Всё, что после этого релиза, там в течение нескольких дней появится, в воскресенье мы вам расскажем. А теперь давайте перейдём к моему интересненькому тесту, замерам, и я поделюсь с вами своим удивлением. Но перед этим маленький анонс. У нас скоро будет эфир по CLI агентам. Надеюсь, вы смотрели наш ролик про CLI. Как же превратить ваш терминал в невероятно мощный инструмент для взаимодействия с вашим компьютером, папками, директориями, всей информации и, конечно же, программирование. Буду рассказывать про клод-код, вероятно, буду рассказывать уже и про кодекс, хотя подписку на кодекс я не оплатил. Ну, может, курсор туда как-нибудь в терминальные свои версии залетит. И про всякие open sourceные варианты, там про OpenCд поговорим, промирал Vipe и про всякое такое. В общем, как работать с LM через терминал и не только для программирования, но и для того, чтобы, в принципе, сделать такой крутой инструмент продуктивности под вашими, э, пальчиками. Это очень круто, интересно. Приходите запись по ссылочке в описании этого ролика в нашем боте. Там мы все эфиры проводим. Жду вас там вот в такую-то дату, в такое-то время. Но если пропустили, смотрите позже, всё равно приходите, там будет либо какая-то запись, либо какая-то ещё полезняха. В общем, не оставим вас без контента. Ну а
Мой тест на фронтенд
теперь я оплатил подписку на кодекс, чтобы потестировать все три модельки, потому что там они есть, а там, в общем, в удобном, прикольном режиме. Сейчас это можно делать, но это не столь принципиально. запустил. Ээ, в чём заключается мопромт? Вы видите сейчас его на экране. Я вот так не так давно тут начал потихонечку перекодить тире вайпкодить, в общем, пересоздавать, переоформлять наш сыгряном сайт и попросил модель, используя все компоненты, всю ту стилистику, которая у меня есть на главной странице, воссоздать вот эту вот самую интерактивную таблицу с бенчмарками, точнее, взять эту таблицу с бенчмарками и создать какой-то прикольный интерактивный такой лейаут. Ээ, и главное ещё определить, какая модель у нас является королём LLM. То есть здесь задачка и, во-первых, понять код базу и определить, какие есть компоненты, грамотно использовать эти компоненты. Ну, и небольшой ризанинг провести аналитику, сделать вывод, а какая модель, по её мнению, сейчас самая крутая и почему. Вот так вот пока что выглядят мои несчастные попытки сделать нам классный дизайн на сайте. И, собственно, все три модели сейчас активно пыхтят. Дождёмся результатов и посмотрим. И начну я, пожалуй, с Gemin потому что, ну, это худший результат, который я получил Gemin 3 Pro. Эээ, не сказать, что она восприняла чётко все компоненты и сохранила стилистику. Вы можете видеть, какие-то тут другие появились цвета, слишком яркие. Ну, как бы это, наверное, и компонент, да. Ну, и в целом лей-аут не очень понятный. То есть я вообще не сразу догадался, как мне посмотреть на все бенчмарки, на описание всех бенчмарков. Вот нужно пойти там в таблицу наверх, нажать на бенчмарк и внизу появится. В целом, ну, интересное решение, но я не я бы не сказал, что это самое удобное решение. И по версии Geminite 3 победил у нас GPT 5. 2 Thinking. Она у нас является королём. Ну, как бы особо рининг я не проверял, как она к этому пришла, но как бы о'кей. Пойдём посмотрим на клода. Что мне сделал клод 4 опуса? Во-первых, он там так как-то с импортом за зафакапил в самом начале, но потом это просто поразительно крутой результат. Мне нравится анимация. Э, мне нравится этот плавающий смайлик. Ээ, ну, в целом, не идеальные использование, переиспользование компонентов, но подход и анимашки, и вот всякие этот motion граpic. Всё это выглядит, на самом деле, очень приятно, мило, достойно. Нажимаешь на бенчмарк, он показывает описание. Сделано удобно и прямо, ну, вкорячил внизу прямо тот компонент, который у меня был на моей базовой странице. Короче говоря, очень плотный результат. И он добавил ещё вот этот вот радар-график, что тоже меня удивило. Это было круто. Ээ прям ну хорошая креативное решение. 1. 300 строчек кода он мне наваял, в отличие от Джемина, который наваял 300 строчек. Думал, разумеется, дольше, изучал дольше, поэтому гораздо более сильный результат от OPUS 4,5. Ну и пойдём смотреть на Gemini и на Gem GPT 5. 2. И справедливость ради - это просто полный разнос. Я не могу сказать, что это м идеальный вообще вариант и то, что вы хотели получить. Но с точки зрения использования компонентов, посмотрите, кнопочки те же, как бы блоки, цветовая палитра, шрифт. Просто потрясающая как бы динамичность всей этой таблицы какая-то зашкаливающая. И даже, наверное, это немножко плохо, потому что не очень просто всё это понять, но это выглядит очень и очень профессионально. на мой непрофессиональный веб-дизайнерский фронтендовский взгляд. Напишите в комментариях, что думаете вы. Но, по-моему, это очень плотный результат, возможно, даже слишком плотный, что это воспринимать человека. Ну, это нужно прямо разобраться, чтобы понять, что здесь происходит, и какие-то, конечно, элементы я бы отсюда удалил, но просто упростить всё это дело. Выбрала себя как короля LLM и в целом молодец. Тут какой-то у неё достаточно сложный рининг. Почему она решила выбрать так, как она это посчитала, тоже я не стал вдаваться сильно в подробности, потому что больше следил за именно ээ юам, наполнением и переиспользованием компонентов. Я думаю, что 5. 2 победила. Думала, кстати, она дольше всех приблизительно и около там 1. 000 строк кода написала, может быть, чуть-чуть поменьше. Потрясающе. Что ещё сказать? Напишите в комментах, что думаете вы об этом релизе. Успели ли вы попользоваться моделью? Э, как вы успели её потестировать? Расскажите, пообсуждаем. Ну и на сегодня на этом всё. Если какие-то новые апдейты появятся в течение нескольких дней, как я уже сказал, к нам в новостной выпуск заглядывайте, там тоже всё это обязательно расскажем. И увидимся в будущих выпусках. С вами был дядя Д. Продуктивный совет. Пока. Угу.