Codex 5.3 VS Opus 4.6 на РЕАЛЬНО СЛОЖНЫХ задачах по написанию кода

14:51

Codex 5.3 VS Opus 4.6 на РЕАЛЬНО СЛОЖНЫХ задачах по написанию кода

Взорви свою личную продуктивность 09.02.2026 4 399 просмотров 132 лайков

Machine-readable: Markdown · JSON API · Site index

Смотреть на YouTube

Поделиться Telegram VK Бот

Транскрипт Скачать .md

Анализ с AI

Описание видео

Мой бусти про ИИ-кодинг: https://boosty.to/aiproductiv Телеграм канал: https://t.me/AIproductiv Наше бесплатное сообщество по ИИ-кодингу: https://t.me/aiproductiv_community Раунд на codeforces, который решали нейронки: https://codeforces.com/contest/2187 В этом видео сравниваем модели от Anthropic и Open AI для написания кода на реальных олимпиадных задачах по программированию. Результат меня удивил. Opus 4.6 был в Claude Code упряжке. Codex 5.3 был в родной Codex CLI упряжке. 0:00 Выход Codex и Opus 0:10 Необычный бенчмарк 0:34 Тестируем на олимпиадных задачах 0:49 Дисклеймер 1:22 Что такое codeforces 1:38 Как устроен раунд 2:14 Как проверяются решения через тесты 2:33 Почему div1 2:55 Уровень задач и кто их решает 3:15 Мой опыт и рейтинг 3:39 Это стресс тест на умность модели 3:50 Таблица результатов 4:09 User experience 4:31 Буквы задач и рост сложности 4:49 Задача B и время решения 5:01 Задача D 5:11 Задача C опус запутался 5:26 Codex 5.2 попытка 5:44 Сколько тестов я прогнал 6:08 Как я задавал промпт для задач 6:24 Промпт для решения олимпиадных задач 7:05 Подписка на бусти 7:33 Опус ломается 7:56 Почему это не проблема провайдера 8:18 Пробую субагентов 8:50 Пробую просто реши задачу 9:04 Хак сохраняй результат в файл 9:50 Почему на задачу ушел час 10:22 Проверка в веб версии клода 10:50 Опус зависает на задачах уже сутки 11:09 Пробую sonnet и opus 4.5 11:37 Почему лимит вывода не увеличивается 12:03 Откатывал версии и менял модели 12:24 Claude code в работе и разочарование в тесте 12:40 Результат эксперимента стал открытием 12:59 Совет как выбирать подписку и модель 13:16 Когда брать кодекс 13:31 Пост коллеги и покупка лимитов 13:50 Что изменилось по сравнению с codex 5.2 14:02 Итог почему кодекс выигрывает 14:20 Телеграм канал и бесплатное сообщество 14:39 Ответы на твои вопросы

Оглавление (42 сегментов)

Выход Codex и Opus

Недавно в один день вышли модели GPT 5. 3 кок и OPUS 4,6 от Anтроopic. Это действительно серьёзный шаг вперёд, и я

Необычный бенчмарк

устал от типичных бенчмарков нейронок, где их заставляют писать какой-то код. Современные нейронки уже очень хорошо пишут обычный код, который должен писать программист. И я редко вижу с тем, чтобы модель не справилась. Обычно люди дают слишком расплывчатую задачу и потом смотрят, насколько долго нейронка будет что-то допиливать. Поэтому я решил

Тестируем на олимпиадных задачах

проверить то, как эти нейронки будут решать сложные олимпиадные задачи по программированию. Я вас уверяю, что вас удивит сегодняшний результат. Во всяком случае, меня он очень сильно удивил, поэтому досматривайте до конца. Я сразу

Дисклеймер

же сделаю дисклеймер, что если какая-то нейронка лучше решает задачу по программированию, это далеко не значит, что она кажется лучше для ваших повседневных задач. Но такие модели, как Кодекс и OPС, очень часто используют при планировании каких-то сложных вещей, чтобы дать дополнительной информации и что-то детальнее и лучше продумать. Поэтому я решил для себя разобраться, какую модель мне стоит использовать, когда у меня есть именно такая потребность в решении сложных задач. И

Что такое codeforces

решил скормить нейрон последний C forces раунд. Для тех, кто не в курсе, COD Forces - это такой сайт, а, один из самых популярных сайтов, на котором публикуют олимпиадные задачи. И на этом сайте происходят соревнования. Вот

Как устроен раунд

например, прямо сейчас идёт одно из соревнований а по олимпиадным задачам. А сегодня мы будем рассматривать CД Forces Round 107. Сам раунд из себя представляет список задач, где каждая задача - это какое-то математическое, э, какое-то математическое условие. И, э, на вход нам даются какие-то входные данные. И на эти входные данные мы должны придумать правильный ответ. Вот пример самой простой задачи, которую только могут дать. Нам на вход подаются

Как проверяются решения через тесты

два числа, и мы должны вывести их сумму. Соответственно, когда мы пишем своё решение на языке программирования, отсылаем посылку с этим решением, на ней запускаются многочисленные тесты с разными наборами входных данных и проверяется, что выходной ответ действительно правильный. Я взял раунд

Почему div1

дивизиона один. Как вы можете видеть, а последние задачки решили решило очень мало человек. Например, задачу D решило всего лишь 300 человек, задачу Е решило всего лишь 100 человек, а задачу G всего лишь 27. Это уже учитывая, что раунд прошёл и разбор задач опубликован. Эти задачи очень серьёзной сложности. И

Уровень задач и кто их решает

задачи подобного уровня решают в основном ребята, которые ездят уже на всероссийские олимпиады или же на международные. То есть это очень серьёзный уровень задач, где нужно действительно очень много думать. Ссылку на этот раунд, чтобы, если вам интересно ознакомиться с задачами, я, конечно же, оставлю в описании. Я достаточно хорошо

Мой опыт и рейтинг

знаком с олимпиадными задачами и в школе активно занимался их решением. А у меня, например, рейтинг 1. 700. На самом деле это не очень большой рейтинг. Чтобы вы понимали, это тот рейтинг, который мне в школьном возрасте удалось набрать за несколько лет решения олимпиадных задач. Самый большой рейтинг задачи, который сегодня решит Неронка у нас, будет 3. 600.

Это стресс тест на умность модели

Так вот, мне кажется, это вот хороший стресс-тест на умность модели. Это не значит, что неронка у нас будет хорошо кодить или писать код. Мне кажется, это хороший тест, чтобы проверить, насколько хорошо

Таблица результатов

она думает. Итак, вот наша сводная таблица по всем задачам. Кто как справился, сразу же, конечно, виден спойлер, что кодекс 5,3 экстra решил все задачи. При этом я думал, что он будет думать крайне долго, но оказалось, что он думает раза в два быстрее, чем опус.

User experience

Сейчас я подробнее объясню, почему так происходит. Тут, э, очень важен и usе в этом всём, потому что отправив задачу в кодекс, я просто отправил, забыл про неё, засабмитил и всё было готово. Сосом мне пришлось повозиться. Ну да ладно, давайте обратим внимание на вот эту

Буквы задач и рост сложности

часть экрана. Тут у нас представлены задачи. А чем больше буковка у задачи, тем она сложнее. А-а, я также игрался с уровнем рининга у кодекса, а также попробовал использовать кодекс 5,2, а о чём расскажу чуть попозже. А на задачу

Задача B и время решения

Б, которая достаточно простая, кодекс медиум решил примерно за 5 минут. То есть это было достаточно легко. Опус тоже с ней справился. А задачу D коeкtra

Задача D

хай решил за 15 минут, а OPС решал целый час, и мне приходилось его подпинывать. Задачу С Opus решить. Я потратил на неё полтора часа

Задача C опус запутался

и Опус просто запутался и ничего не смог сделать. Кодекс же решил её за 25 минут. Я для интереса, после всех этих, э, многочисленных тестов я решил для

Codex 5.2 попытка

интереса запустить кодекс 5,2 хай на задаче, а он потратил где-то минут 40-60, выдал два раза неправильное решение, но в итоге смог с третьей попытки его выдать. Итак, я нахожусь сейчас в

Сколько тестов я прогнал

проекте, в котором я это всё запускал. Как видите, тестов было проведено достаточно много, и это не все, а-а, поскольку я запускал это в разные дни. А вот текущие тесты, которые у меня сохранились. Естественно, результат по остальным у меня тоже есть, и он сейчас будет проведён в таблице. А как происходило решение задач? Я не скидывал

Как я задавал промпт для задач

прямой промб "Риши задачу", потому что, ну, он объективно работал бы гораздо хуже на таких сложных задачах. Поэтому я подготовил специальный промпт вместе с нейронкой, который позволяет нам решать эти олимпиадные задачи. Вот как этот

Промпт для решения олимпиадных задач

промпт выглядит. В нём ничего замысловатого нет, а просто он действительно хорошо написан под решение олимпиадных задач. Вы наверняка видели курсы по вайп-кодингу за 60-80. 000 руб., которые часто ведут люди, никогда не писавшие код профессионально. И эти курсы устаревают через 2 месяца, потому что скорость развития ИИ сейчас бешеная. Я решил сделать по-другому. По цене чашки кофе ты получаешь материал от тени разработчика, который пишет весь свой код с искусственным интеллектом и получает качественный результат, который не разваливается через неделю. Ко мне на консультации приходили люди, которые вообще не умели программировать, и начинали писать рабочий код. Приходили

Подписка на бусти

джуны, медлы, которые не дотягивали по скилам и в итоге выстраивали нормальный процесс работы с искусственным интеллектом. Но консультации могут позволить себе не все, поэтому я беру все инсайты и упаковываю это на бусте. Поэтому, если хотел улучшить свои навыки использования и то переходи, подписывайся. Мы только запустились, поэтому для первых подписчиков действует скидка 25%. Ссылка в описании. Итак

Опус ломается

давайте теперь я объясню, что же происходило у нас во время решения задач. Он постоянно отдавал вот такую ошибку. Причём я тестировал это на различных версиях каткода. Я тестировал это и, как вы видите, на Opus 4,5 и на OPUS 4,6 на всех версиях-кода, на всех версиях модели выдаёт следующую ошибку

Почему это не проблема провайдера

когда я скармливаю достаточно сложную задачу. То есть это не проблема с провайдером. Когда я в опус кидаю задачу, а он без проблем её решает, но как только в него попадает действительно сложная задача, ему становится очень и очень плохо. Он думает 10 минут, а потом отдаёт ошибку. Я подумал: "Ну хорошо, ну

Пробую субагентов

что с этим делать? А может проблема в моём большом промпте, а который я уже показывал. Я подумал, что проблема в вот этом большом промпте, который я написал, из-за этого уровень рининга слишком большой. Но нет, я попробовал две версии. Первый - это через субагенты. На нём я всё также поймал вот такую ошибку. Я думал, что субагенты помогут разгрузить контекстное окно и, может, как-то упростят решение, но нет, этого не произошло. Дальше я думаю: "Ну ладно

Пробую просто реши задачу

попробую в тупую". А-а, просто реши задачу. Нифига не работает. Он просто затыкается на 10 минут и не может ничего сделать. Дальше я начал пробовать всякие хаки. Ну, чтобы он хоть как-то начал

Хак сохраняй результат в файл

свой результат думания сохранять файл. И помогла следующая приписка. Вот, например, задача, которую я смог таки добить за несколько за примерно час. Помогла вот такая приписка. Обязательно не дол не думай долго сам с собой, сохраняй результат в файл и пиши по 100-200 строк за раз. Аа он опять начинает думать 10 минут. Я его останавливаю, пишу: "Не забывай писать файл". Он опять начинает думать, думать. Его опять выдаёт вот эту ошибку. Я ему опять говорю: "Пиши файл". Потом пишу: "Пиши по 200 строк". Потом ему опять он начал очень долго думать. Я ему пишу: "Давай в другой файл писать, в новый". Вот. И такими вот усилиями мне таки удалось

Почему на задачу ушел час

решить задачу а спустя час. Вот это вот 6 минут - это только часть ээ после того, как я его прервал. Суммарно на это всё ушло около часа. Я прекрасно понимаю, что это про скилл использования нейронки. И действительно, можно придумать промпт, с которым опус будет справляться гораздо лучше, чем то, как я это сделал сейчас. Но это уже был ночи, и я хотел из него выжить хоть что-то, хоть как-то. Для чистоты эксперимента я

Проверка в веб версии клода

решил сделать следующее. Ну хорошо, может что-то не так с клад-кодом. Я скинул условия задачи и тот же промпт в обычную веб-версию клода с опусом 4. 6, и он точно так же застыл. А-а, также для всех сложных задач B, C и D, я скинул условия веб-версию кдкода. Вот эти три задачи, и они просто застыли в процессе выполнения уже на несколько, ну, уже 24

Опус зависает на задачах уже сутки

часа точно прошло. При этом какие-то другие задачи он может делать. То есть, а, тут проблема не в том, что сервис Клода недоступен и Опуus не может ничего делать, и я попал просто на какую-то техническую неполадку. А в том, что он просто настолько сильно начинает думать и захлёбывается. Тут я подумал: "Ну

Пробую sonnet и opus 4.5

ладно, ну может я дурак, может проблема в опусе 4". И давайте попробуем прогнать на саннете и опусе 4,5. Так вот, на опусе 4,5 произошло всё то же самое. Произошла вся та же ошибка на саннете. Она на саннете её не было, но саннет я скормил задачу А. И то даже с задачей, а он не смог справиться э после нескольких попыток. Я тут сделаю ещё одну душную

Почему лимит вывода не увеличивается

ремарочку, что, конечно же, я пытался менять вот этот код max outputs, но это не работает. На это заведён ишью в гитхабедкода, и ты не можешь его поменять. Он просто не устанавливается. Ты устанавливаешь, неважно 60. 000, 128. 000. Всё равно выводится эта ошибка при 32. 000. Я откатывал версию подкода и

Откатывал версии и менял модели

менял модель, думая, что это какая-то конкретно специфичная ошибка Опуса, но нет, это было давно. Так и на Опусе 4,5 тоже. Поэтому какие-то аргументы по типу того, что это о просто новая модель и новый клад-код, они не успели это пофиксить. Видимо, нет, это было так давно. Я тут не хочу сказать, что-код

Claude code в работе и разочарование в тесте

плохой для решения конкретно задач программирования. Я его использую каждый день, но проведя вот этот тест с олимпиадными задачами, я очень сильно усомнился в томю экспириенсе, который я получаю при использовании моделиic. И

Результат эксперимента стал открытием

если честно, для меня результат вот этого эксперимента стал открытием, что кодекс действительно настолько хорош, чтобы это видео стало полезным. Мне, наверное, нужно сделать некоторые выводы. А если вы сейчас думаете, что же взять кодекс или подписку на чат GD, или

Совет как выбирать подписку и модель

же подписку на ClД, то советую вам очень хорошо подумать и всё-таки, может быть, взять, а, действительно подписку на чат. То есть, э, я очень не хочу экстреполировать результаты этого эксперимента на, опять же, полностью любые задачи, но как только в вашей

Когда брать кодекс

задаче происходит что-то сложное, где нужно действительно много думать, а-а, принимать сложные решения, в таких ситуациях я теперь буду выбирать кодекс 5,3ra High Ну и закончить этот ролик мне

Пост коллеги и покупка лимитов

бы хотелось бы постом моего коллеги Глеба Кудрявцева, который пишет, что после выхода до кодекса 5,3. Он докупил кодекс за 200 долларов, чтобы иметь больше лимитов. Он настолько хорош сейчас, и действительно тесты это отражают. Мы это увидели в таблице. И по

Что изменилось по сравнению с codex 5.2

ощущениям, по сравнению с кодексом 5,2 очень многое поменялось. После всех тестов я с этим постом абсолютно солидарен и думаю, что на текущий момент

Итог почему кодекс выигрывает

кодекс действительно выигрывает в этой гонке. Если тебе понравилось видео, то переходи и подписывайся на мой Telegram-канал. Там гораздо больше интересных и полезных постов о том, как использовать и в разработке. Также мы недавно запустили полностью бесплатное

Телеграм канал и бесплатное сообщество

сообщество про И-кодинг, где мы обсуждаем все последние новости, ээ люди рассказывают кейсы, как они используют искусственный интеллект и получают результат от этого. Мы обсуждаем инструменты, кто что использует. Последние новости. А, переходи и

Ответы на твои вопросы

подписывайся. Ссылка на сообщество в описании. Также вы можете зайти и задать абсолютно любой свой вопрос про то, как писать код C. В отдельном топике вопрос-ответ.

Другие видео автора — Взорви свою личную продуктивность

Ctrl+V

Экстракт Знаний в Telegram

Экстракты и дистилляты из лучших YouTube-каналов — сразу после публикации.

Подписаться

Лучшие методички за неделю — каждый понедельник