Claude Opus 4.6 vs Gemini 3.1 Pro vs GPT-5.4 - КТО ПОБЕДИЛ? 3 проекта дали ответ

28:29

Claude Opus 4.6 vs Gemini 3.1 Pro vs GPT-5.4 - КТО ПОБЕДИЛ? 3 проекта дали ответ

NullsCode 08.03.2026 3 726 просмотров 132 лайков

Machine-readable: Markdown · JSON API · Site index

Смотреть на YouTube

Поделиться Telegram VK Бот

Транскрипт Скачать .md

Анализ с AI

Описание видео

Сравнил ТОП-3 нейросети на рынке: Claude Opus 4.6, Gemini 3.1 Pro и GPT-5.4 на трёх реальных проектах. Честное сравнение на одинаковых задачах. 🔥 3 проекта для сравнения: 1️⃣ Парсер новостей 📊 Результаты: • Claude Opus 4.6: Справился • Gemini 3.1 Pro: Справился • GPT-5.4: Справился с ошибками, неудовлетворительно 2️⃣ Игра (тест на креативность) 📊 Результаты: • Claude Opus 4.6: Справился, примитивная игра • Gemini 3.1 Pro: Справился, примитивная игра • GPT-5.4: Справился хуже, логика не работала полностью 3️⃣ Лендинг 📊 Результаты: • Claude Opus 4.6: Справился со второго раза, хороший уровень, небольшие ошибки • Gemini 3.1 Pro: Справился отлично • GPT-5.4: Справился отлично 💡 Особенности сравнения: • Одинаковые задачи для всех моделей • Реальные проекты без поблажек • Честная оценка результатов • Каждая нейросеть показала разные сильные стороны Показываю весь процесс работы с каждой нейросетью, все результаты без прикрас. Claude Opus 4.6, Gemini 3.1 Pro и GPT-5.4 — кто справился лучше на каких задачах? ⚡ Темы видео: Claude Opus 4.6 vs Gemini 3.1 Pro vs GPT-5.4, сравнение топ нейросетей, битва AI, тройное сравнение, Claude vs Gemini vs GPT, парсер новостей AI, создание игр AI, лендинг с нейросетями, вайб кодинг, vibe coding, честное сравнение нейросетей, какую нейросеть выбрать, лучшие AI 2026, топ-3 нейросети, программирование с AI, тест нейросетей, Anthropic vs Google vs OpenAI, сравнение AI инструментов. #ClaudeVsGeminiVsGPT #Сравнение3Топов #VibeCoding #БитваГигантов

Оглавление (6 сегментов)

Segment 1 (00:00 - 05:00)

Всем привет. Меня зовут Костя, и сегодня я проведу тест сразу же на трёх нейронгах. Это GPT 5. 4, Gemini 3. 1 Pro и Clot Opus 4. 6. Выбрал я для тестов два проекта. Заранее написал вот эти все MD-файлы, то есть это инструкции для нейросети. В этой инструкции написано, что нужно создать парсер некий, который будет гулять по вот этим вот получается сайтом и брать оттуда новости, которые мы заранее пропишем. То есть у нас будет определённый инпут, куда мы будем писать там, допустим, слово либо словосочетание и количество новостей, которые он нам должен вывести. Соответственно, он на фронтде должен будет обсчитать, э, ну, то есть пройтись по вот этим сайтам, спарсить и показать нам. Это будет первая задача для всех нейросетей. Вторая задача - это создать игру. При том, что у нас не написано, что это будет за игра. То есть ему необходимо ещё и придумать эту игру. Ему только доступно, какие мы хотим использовать библиотеки для этого. А он может также из интернета взять какие-либо файлы для себя, то есть модельки, MP3 файлы и так далее. И он должен, получается, придумывать свою собственную игру. Это такая некая задача на креатив. То есть нейросеть должна будет прочитать вот этот MD файл с инструкциями, придумать свою собственную игру, найти все файлы для игры, написать игру и выдать нам результат. Тестировать я буду всё это в CI программах. То есть перед нами находится Gemini CLI, а далее у нас коeкси и clot код. То есть везде у нас модельки выбраны. Здесь у нас опус 4,6 самая максимальная версия, то есть high. Здесь у нас выбран GPT 5. 4, тоже X. И Gemini 3 Pro, тоже на максимальных настройках. Итак, я прописал все пути, где находятся MD файлы. То есть у меня для каждого для каждой нейросети свой файлик. То есть здесь у нас parcer Gemini, здесь у нас пар GPT, здесь пар OPUS. И сейчас я всё это дело отправляю. И как только они завершат свою работу, мы посмотрим, что у них получилось и получилось ли. Итак, что мы тут имеем? Джеминь у нас очень быстро справился, 7 минут 10 секунд. Клод справился за 8 минут 45 секунд. Тут даже это написано, и очень сильно разочаровал GPT. Он делал это 19 минут 45 секунд. То есть практически, ну, в два раза больше, фактически чем -э давайте проверять, что у них получилось. Для этого мне нужно ввести команду npm run devf и будем по очереди запускать сервера и смотреть, что у нас получилось. Сначала мы проверим Gни. Сейчас у нас local host загрузится, и у него получилось следующее. Давайте попробуем какое-нибудь ключевое слово ввести. Допустим, BTS в плане того, что это биткои. Ага. И у наш и у нас пошла какая-то синхронизация. Да, он, видимо, новости ищет. Давайте посмотрим сразу же, есть ли у нас в проекте ошибки. Какие-то ошибки у нас тут имеются. Ну вот это вот ничего страшного. Это тоже ничего страшного. Ну он какие-то не может спарсить Бин, не может спарсить Google новости. Но у него, по-моему, больше вариантов, чем два. Дадим ему шанс, пусть он попробует. Так, почему-то уже много времени прошло. Он всё ещё он пытается парсить. У него везде ошибки вылетают. Ага, всё, у него получилось. Так, смотрим по BTS. Почему-то он картинки, я смотрю, не спарсил, но он спарсил. Кстати, это с Редита у нас всё прилетело нам. Также я просил его, чтобы мы могли здесь вести количество новостей, которые мы хотим, чтобы он спартил. То есть он это не сделал. То есть он сам автоматически 20 новостей вывел и всё. О'кей. Смотрим, насколько это всё рабочее. Но он просто ссылки, да. Ну, в принципе, так и должно было быть. заголовок, текст и, собственно говоря, ссылка на новость, чтобы её сразу прочитать. Ну, для 7 минут 10 секунд вполне себе. А он ещё и представление, да, разное сделал, что и так можно посмотреть, почитать, и кубиками, и так, и сяк. Ну, в целом он справился. Разве что он картинки не спарсил. Это достаточно

Segment 2 (05:00 - 10:00)

плохо. И спарсил он ровно с одного места, то есть с редито, а с остальных у него не получилось. А нет, кстати, вот ещё кеckр есть. Угу. Всё-таки не только он с одного места спарсил, как минимум с двух. С Редита и с кер вот ещё кеcker news вижу, ещё керс вижу. Вот остальное всё с Редита. Ну, можно сказать, что он справился даже успешно. Теперь нам нужно вот этот сервер потушить и вот этот запуститель. Давайте сначала клод проверим. Я думаю, что у GPT будет самый интересный вариант. Скорее всего, я могу ошибаться. NPM run de. Так, у нас здесь тоже всё запустилось. Щёлкаем. И вот такое вот нам сделал клод OPUS 4. 6. Ну, здесь настроек сильно больше, чем у нас было здесь, допустим, куда больше. Давайте проверим то же самое. То есть BTS. Мм. И тут мы можем выбрать откуда. Ну пускай он отовсюду парсит. А ещё и за сколько? 7 дней. Один день. Последние 6 часов, последний час. И лимит у нас есть, что мне очень нравится. 10 нам хватит. Так, BTS, я так понимаю, нужно нажать, да? И нажимаем search. Вау, как быстро он парсит. О, мне это нравится. Так быстро очень спарсил, вроде бы. Да, это всё про BTS, про Bitcoin, да, BTS DAT. Ну и картинки он даже смог подгрузить некоторые. Так. Всё ли он с одного? Так, это всё редит, по-моему. Да, по-моему, это всё редит с одного места. А, нет, кстати, вот это Google новость, да? Это Google новость. Это Hacker News новость. Так, Reinal GitHub. Почему здесь на GitHub ссылка, а не на новость? Странно. Так, ну, в целом, я думаю, он справился тоже. Также давайте попробуем там только с одного места спарсить, допустим, с тех. Так, а почему он не парсит? Финанс. Странно. Так, а если я BTS уберу отсюда и, допустим, выберу что-то другое? Допустим, GPT. Я хочу, чтобы он только с Ага. Нету результатов, нету. Redit News. Так, по-моему, он не совсем адекватно работает. То есть, если мы сейчас вводим с Почему нет результатов? Интересно, как это нет результатов? А, Джемини тоже нет результатов, хочешь сказать? Нет, сейчас результаты очень даже есть. В общем, всё равно он как-то странно работает, но в целом работает. Почему? в прошлый раз не отработал. Возможно, просто на тех площадках нет новостей. Ну что сомнительно. Мм, не знаю. Лама, есть три новости как минимум. Возможно, за последние 6 часов нет таких новостей, а за последние 7 дней что-нибудь будет. И про Джемини понял. Скорее всего, не было за последнее время таких новостей м на тех ресурсах. В общем, я думаю, что он справился. Очень даже неплохо справился. У него больше настроек, то есть лимиты можно, время, когда выпускались эти статьи, в целом неплохо. Кстати, ещё такой момент, здесь есть дополнительные настройки, то есть, э, через сколько времени обновлять все эти статьи. Ещё есть, а font size, можно выбрать тему, Jсо всё спарсить, вот эти все данные. То есть это достаточно прикольно то, что клод здесь сделал. Ладно, давайте смотреть, что у нас получилось по GPT. На него большие прямо надежды. А давайте так, NPM runf наберём. NPM. Run death. Посмотрим, что нам подготовил GPT. А подготовил нам ошибку. Неужели он столько времени, 19 минут работал, ещё и с ошибкой нам выдал? Ну давайте ему напишем, что вот такая вот ошибка

Segment 3 (10:00 - 15:00)

имеется. Считаю, это прямо провал, потому что вот этот вообще за 7 минут 10 секунд справился с таким вот сервисом простеньким. Этот справился, но за 8:45. Это 19 минут работал, практически 20 и ни хрена не справился. Очень интересные результаты. Итак, прошло чуть-чуть времени, он решил все свои проблемы по проекту. И перед нами вот такой вот проект, который создал он. То есть, если у нас здесь вот эти два более-менее похожит на друг друга проекта, то здесь он нам что-то прямо дизайнерское создал нас GPT. Итак, у нас будет BTS. Так вот, BTS, то есть BTC. Здорово. У нас ещё одна ошибка. Почему? Почему GPT настолько плохой код написал? Почему? Я знаю, что этот промтинг и тырым-пырым, но не может быть такого, что остальные с ваншота написали работающее приложение, а он не смог написать это о чём-то говорит, что Ну вы ещё можете написать вот и режим планирования не включил перед тем, как создать проект. Почему вот эти вот ребята, что Джемини, что Клод, написали бесплана, смогли написать такое приложение, а GPT уже там у него за 20 минут перевалило общее время на проект. Он до сих пор не смог написать ничего, ещё и всё с ошибками. Это о нём говорит много чего, я считаю. Итак, он поправил ещё раз все свои ошибки. Я увожу BTC, как и в прошлый раз. я не понял, а почему всё так? А как я должен эти статьи читать, если вот это всё закрывает огромное количество пространства? Угу. Здорово. За последние 7 дней. О'кей. Настройки-то о'кей. А даже историю можно посмотреть поиска. Это всё круто, но, мм, как мне чистоте читать? Это же неудобно. Хорошо, давайте лист. Ну, это же всё ещё неудобно. То есть вот эта штука закрывает практически всё пространство для чтения. Даже если он спарсил, но он спарсил, я вижу. И что мне этот скриншот даёт? Я не понимаю. Эррор. Хорошо. Есть ещё какой-нибудь? Блин, это ужасно неудобно, то, что он сделал. Как это читать, как по ссылкам переходить? Ну хорошо, можно ещё что-нибудь попробовать спарсить. Там Джемини, допустим, какой-нибудь спарсить, но это по-прежнему ни хрена неудобно. Всё друг на друга накладывается. Парсит ли он? Парсит. Хорошо ли он парсит? Не очень он хорошо парсит. Интерфейс сделал вообще прямо не особо. Не особо. Ну, в общем, сами делайте вды. Мне не понравилось то, что он сделал ещё и не с первого раза. Ещё и очень долго. Там примерно это в совокупности, наверное, 23-24 минуты, когда все остальные сделали это быстрее, сделали что-то рабочее. Дизайн, да, шикарный, но с точки зрения логики это ужасно. Итак, переходим к другому тесту. Тест у нас более креативный. Я напоминаю, что у нас нет определённых требований к игре. У нас не прописана логика. То есть задача сначала придумать игру, потом найти все необходимые для игры какие-либо данные. То есть это может быть и модели, и звуки для игры и так далее. Ну, то есть асист это называется в играх. Он должен, ну, они должны найти всё это сами и создать игру тоже сами, придумать её. То есть это такая с одной стороны и логическая задача, с другой стороны и креативная. И мы посмотрим, что у нас получится. Я отправляю всё это дело, и как только они завершат работу, то а мы посмотрим на результат. Э все вот эти вот MD-файлы с инструкциями, они у всех одинаковые, то есть полностью одинаковые, полностью идентичные. То есть у них вообще никаких

Segment 4 (15:00 - 20:00)

различий нет, так же как и в предыдущей было. То есть это полностью одинаковые файлы. Так, парсер у нас сейчас, смысле игру здесь включим. Вот она игра у GPT точно такая же. То есть они полностью все одинаковые. Прошло буквально 2 минуты, и Джемини уже завершил а свою задачу. Но я считаю, что он сделал всё неправильно. То есть, скорее всего, он просто скопировал эту игру. откуда-то с репозитория, что я считаю не совсем честным. И также предлагаю ему написать дополнительный промт, чтобы он эту игру, ну, заново создал по промту, а не просто скопировал его из репозитория. То есть пусть переделывают. Так, не совсем честно. Итак, 4 минуты, 4 минуты 33 секунды. И как всегда GPT у нас рекордсмен по выполнению задач. Это было 8 минут. Что касается самих игр, давайте проверять вместе. Давайте начнём с Gyame, обычный HTML. Смотрим. Называется игра The Promt. Так, я не всё прочитал. The Promt. Нам необходимо двигать мышкой и коллекционировать. Colкт, короче, нужно управлять токенами. Так, это что такое? У нас движется красная. Угу. Нам, видимо, вот эти нужно собирать синие, да, судя по всему, потому что они внизу вон собираются в какую-то это в какую-то словосочетание, в какую-то фразу. Так, user, вектор, assistant weight. Так, эти, если мы соберём все, то мы, конечно же, проиграем. А, кстати, здесь ещё звуки работают, но вы, скорее всего, их не слышите, потому что я не пишу звук с, получается, с компьютера. А, в общем-то, игра, ну, получилась достаточно интересная. То есть собирать какие-то слова в токены, контекст, контекст провален, в общем, ну, прикольно получилось. Игра, в общем-то, получилась достаточно интересная с точки зрения того, как перфоманс, то, что нейронка сама это придумала. Давайте смотреть следующую. Я, скорее всего, хочу опус сначала посмотреть, что сделал, потом GPT. Итак, что это? Мы не можем передвигаться, можем стоять только на одном месте. У нас есть сйс. Ага, понятно. Это какая-то энергоустановка, которая постоянно перезаряжается и энергетическими ударами убивает врагов. Я понял. Ну, идея, идея пойдёт, но реализация так себе. Так, ну понятно. В общем-то, игра достаточно примитивная. Сейчас он тогда пускай на нас полетит, посмотрим, что будет. Угу, понятно. И давайте третью посмотрим сразу же, что нам GPT за 8 минут смог сделать. Так, ну, с точки зрения дизайна здесь поинтереснее. Давайте я нажму enter. И что это? Так, space to hold wave, чтобы это не значило. И что? Hold space while moving to draw. Ну, ничего он не рисует. Я рисую линию, она не рисуется. И в каком смысле, что я должен рисовать? Допустим, нарисовал. По-моему, здесь в игре что-то не работает, потому что написано, что я должен сaceс нажимать и какие-то линии должны рисоваться, они не рисуются, либо они невидимые, что, скорее всего, неправда. Они просто не рисуются. Но по визуальной части это выглядит интереснее, чем у всех остальных. Но, по-моему, игра всё равно нерабочая, как всегда. Ладно, я решил ещё один тест провести финальный. Это лендинг по уже заранее известному нам промту. То есть я этот промт уже скармл ранее. Я хочу посмотреть, как они теперь втроём справятся над этой задачей. А будет ли

Segment 5 (20:00 - 25:00)

разница какая-то существенная. Итак, пускай они сделают по лендингу, по одному и тому же промту, и мы посмотрим, что у них получится. Пока что GPT у нас в очень сильно отстающих, а, особенно по логической задаче, по игре, ну, более-менее, но там не всё работает. Вот эти двое лучше гораздо справляются. Итак, они все завершили свою работу. А Клод у нас был быстрее всех, он сделал за 4 минуты. Джемини у нас сделал за 6 минут. И наш GPT, как всегда, сделал всё за 12 минут. В общем, на данный момент он вообще очень медленно, конечно, всё это делает. Давайте проверять, а, с нейросети, которая менее расположена, делать красивые интерфейсы, то есть с клода. Я здесь набираю npm run def. У нас открылся сервер. Будем смотреть. О, ну да, вёрстка поплыла. Здесь он что-то попытался сделать, у него не получилось. Анимация, хотя работает, но при этом, ну, как я и говорил, он менее расположен к созданию красивых интерфейсов, хотя он попытался. Я не знаю, что ему помешало в данном случае. Хотя просто как будто вёрстка поехавшая. Давайте попробуем ему написать, что вся вёрстка поехала. Переделай. Дадим ему вариант, чтобы он, в общем-то, исправил за собой, а я запущу следующего. NPM PM run de. Итак, это у нас GPT. Давайте смотреть, что у нас сделает GPT за свои 12 минут или там сколько. Так, здесь у нас всё неплохо. тоже всё неплохо. Хотя я вижу, что сигнал там, похоже, их несколько, но она застрял на первом. Так, здесь всё неплохо. Здесь всё переключается. Так, здесь какая-то анимация. Здесь у нас всё перелистывается. Ну да, GPT справился, можно сказать, со своей задачей. Неплохо. Хотя в прошлый раз он справился гораздо лучше. У меня есть предположение на этот счёт. Я выскажу его чуть попозже. И финально нам нужно проверить Джемини. NPM run def. Смотрим, что сделал у нас Джемини. Так, это всё. Ну вот этот экран скучноватый получился. То есть здесь у нас было поинтересней у GPT. Этот какой-то скучноватый получился экран. Так, зато здесь всё работает лучше. То есть здесь переключается всё. Здесь у нас всё пишется. Здесь у нас тоже всё переключается. Ну вот этот экран получше получился. Так. Угу. Здесь тоже у него получилось неплохо. Здесь у него тоже получилось хорошо. То есть Джемини тоже прекрасно умеет в дизайн. Не хуже GPT и GPT тоже не хуже Дженджени. Возможно, они около одного уровня на данный момент. Аа так. Тогда подождём, пока Клод исправит всё за собой, и посмотрим ещё раз, что он сделает. Итак, судя по всему, он доделал все свои ошибки, вернее, а, исправил, исправлял на 5 минут. Давайте я открываю сервер. Смотрим, что он поправил. Ну да, теперь всё это выглядит гораздо лучше. То есть главный экран точно по правил. Всё, теперь это работает, как положено. И здесь он тоже поправил. Вот теперь это выглядит достойно. Так что клод вполне себе тоже может дизайн, если промт хороший. Так, 1 2 3. А где цены? Давайте по Ага, ну я понял. Здесь какоя-то ошибка со скроллом, скорее всего. Вот такие вот результаты получились у клода. после того, как он всё поправил. Итак, давайте подводить какие-то итоги.

Segment 6 (25:00 - 28:00)

Конечно, у нас неоднозначное тестирование сегодня получилось. Как будто у меня есть предположение насчёт этого. Мне кажется, что GPT гораздо хуже работает в силай и гораздо лучше работает в своей десктопной программе. У меня почему-то сложилось такое мнение, потому что на предыдущих тестах он выдавал гораздо более серьёзные результаты, даже не на Xхай, он делал лендинг гораздо лучше. При том, что, а, возможно, кстати, это касается вообще всех силаев. М, на данный момент вот почему-то странные результаты получились, не те, которые я ожидал, собственно говоря. Либо почему-то GPT не выдаёт всю свою мощность сегодня по какой-то своей причине, потому что все остальные, ну, более-менее какие-то результаты показали. А сильно разочаровался я, когда Парсер делал GPT 5. 4. Он сделал хороший, красивый интерфейс, но совершенно, ну, около нерабочий около нерабочию, в общем, логику он сделал. Ещё не с первого раза, там, по-моему, с третьего раза он сделал только. Там ошибки у него были. С чем связан, непонятно, потому что Джемини я считал аутсайдером именно по логике, а он как бы справился с первого раза, пусть он картинки не спарсил, а, но справился он вполне себе достойно с первого раза. Клод Опус, но, конечно, вне конкуренции он справился отлично. А что касается, потом мы делали игры. Игры мы делали на креативность, то есть неросить сами должны были придумать игры. Условно сделали они ерунду полнейшую. То есть, если б я написал какой-то промт, а где прописал чёткие правила игры, то, я думаю, результат был бы и намного интереснее. Но что получилось, то получилось. Во всех трёх случаях они справились с играми, то есть получились, но почему-то у GPT 5. 4, по-моему, ка какой-то, ну, одна из логик не работала. Потом, что касается лендингов. Лендинги они все условно справились. Даже OPUS 4,6 после того, как он внёс справки, у него почему-то структура поехала, как будто то ли он стиль забыл подключить, но у него всё равно всё ещё ошибки есть именно по ценникам, потому что мы, если, а, с самого начала сейчас перезагрузим страницу, здесь всё будет нормально, нормально, а в конце ценники не подгрузятся. Я думаю, это какая-то ошибка с анимацией на скролл у него есть. Но другие справились с первого раза. То есть и GPT 54 сделал неплохой лендинг, и Gemini 31 сделал неплохой лендинг. То есть по дизайну, я думаю, они вот примерно что-то около друг друга умеют делать. А Клодпус пока что немного отстаёт, но если пром всё же хороший, он тоже сделает нормально. Сегодня я не буду отдавать явное лидерство никому, а вы сами в комментариях решите, кто для вас был лучшим, кто на ваших тестах лучше, чем вы пользуетесь, кто как себя показывает. В общем, напишите в комментариях своё мнение. А я с вами прощаюсь. Большое спасибо за просмотр. Ставьте лайки, подписывайтесь на канал, подписывайтесь на Telegram-канал. Всем спасибо, до скорых встреч. Пока.

Другие видео автора — NullsCode

Ctrl+V

Экстракт Знаний в Telegram

Экстракты и дистилляты из лучших YouTube-каналов — сразу после публикации.

Подписаться

Лучшие методички за неделю — каждый понедельник