Codex 5.3 VS Opus 4.6 на РЕАЛЬНО СЛОЖНЫХ задачах по написанию кода
Machine-readable: Markdown · JSON API · Site index
Описание видео
Мой бусти про ИИ-кодинг: https://boosty.to/aiproductiv
Телеграм канал: https://t.me/AIproductiv
Наше бесплатное сообщество по ИИ-кодингу: https://t.me/aiproductiv_community
Раунд на codeforces, который решали нейронки: https://codeforces.com/contest/2187
В этом видео сравниваем модели от Anthropic и Open AI для написания кода на реальных олимпиадных задачах по программированию.
Результат меня удивил. Opus 4.6 был в Claude Code упряжке. Codex 5.3 был в родной Codex CLI упряжке.
0:00 Выход Codex и Opus
0:10 Необычный бенчмарк
0:34 Тестируем на олимпиадных задачах
0:49 Дисклеймер
1:22 Что такое codeforces
1:38 Как устроен раунд
2:14 Как проверяются решения через тесты
2:33 Почему div1
2:55 Уровень задач и кто их решает
3:15 Мой опыт и рейтинг
3:39 Это стресс тест на умность модели
3:50 Таблица результатов
4:09 User experience
4:31 Буквы задач и рост сложности
4:49 Задача B и время решения
5:01 Задача D
5:11 Задача C опус запутался
5:26 Codex 5.2 попытка
5:44 Сколько тестов я прогнал
6:08 Как я задавал промпт для задач
6:24 Промпт для решения олимпиадных задач
7:05 Подписка на бусти
7:33 Опус ломается
7:56 Почему это не проблема провайдера
8:18 Пробую субагентов
8:50 Пробую просто реши задачу
9:04 Хак сохраняй результат в файл
9:50 Почему на задачу ушел час
10:22 Проверка в веб версии клода
10:50 Опус зависает на задачах уже сутки
11:09 Пробую sonnet и opus 4.5
11:37 Почему лимит вывода не увеличивается
12:03 Откатывал версии и менял модели
12:24 Claude code в работе и разочарование в тесте
12:40 Результат эксперимента стал открытием
12:59 Совет как выбирать подписку и модель
13:16 Когда брать кодекс
13:31 Пост коллеги и покупка лимитов
13:50 Что изменилось по сравнению с codex 5.2
14:02 Итог почему кодекс выигрывает
14:20 Телеграм канал и бесплатное сообщество
14:39 Ответы на твои вопросы