о Gro 4. Это важное объявление, которое прозвучало в очень необычное для меня время здесь, в Европе. Сейчас я нахожусь в Словакии, навещаю родственников. Презентация состоялась в четверг утром, и компания XAI представила свой совершенно новый Gro 4. Итак, что же здесь главное? Что ж, это новый лидер по всем показателям, включая последний экзамен человечества и ArcGI, два самых сложных бенчмарка. Оно безоговорочно проходит проверку на соответствие атмосфере. Кстати, у меня есть подписка на Gro 4 Heavy за 300 долларов, и я провел несколько тестовых заданий, которые мы используем для этих моделей рассуждений, и во всех из них программа показала себя превосходно. Подробнее об этом чуть позже. А эта самая умная модель за всю историю также имеет новый голосовой режим для мобильных устройств. Миллионы людей наблюдают за нами прямо сейчас. Вы в восторге? О, я в восторге! Это действительно похоже на выступление на сцене старого театра «Вик», где вас окружает море лиц. Почему же это самая умная модель из когда-либо созданных? В своей часовой прямой трансляции, ссылку на которую вы найдете ниже, они дают довольно много пояснений. Но если вкратце, то они выделили в 10 раз больше вычислительных ресурсов для второй части обучения, обучения с подкреплением, и обучили модель использованию инструментов, тогда как предыдущая версия Grock имела доступ только к инструментам, но они не были включены в процесс обучения. Думаю, хорошая аналогия — это когда 70-летнему человеку дают телефон с инструкцией, и он сам пытается разобраться, как им пользоваться, верно? Но с другой стороны, если включить его в обучающие данные, это будет похоже на ребенка, выросшего со смартфоном. А если дать обоим этим людям, имеющим смартфоны, какое задание, то кто, по-вашему, справится лучше? У них одинаковые инструменты, но это не значит, что они могут использовать их одинаково. И я думаю, что эта аналогия применима и к старым моделям по сравнению с новыми. В версии OpenAI это будет ChatgPT40 против 03. O3 обучался на основе использования инструмента. Вот почему она так чертовски хороша в таких вещах, как просмотр веб-страниц и использование этих данных для предоставления вам более точных ответов. То же самое пока и с Гро. Программа прошла обучение использованию инструмента, и в ходе обучения вычислительные ресурсы были увеличены в 10 раз. Итак, это краткое изложение технической стороны вопроса: почему это так умно? Но на этом канале нас действительно интересует, как это работает в реальных условиях? Стоит ли вам рассматривать эту модель? И хотя у меня на данный момент всего несколько часов, я довольно уверен в своем мнении по этому поводу. Причина в том, что даваемые ответы не слишком длинные. При использовании открытых моделей AAI и Gemini часто получаются очень длинные ответы, на обработку и анализ которых уходит много времени. В то время как Грок, даже в сложных вопросах, относительно лаконичен. Но я думаю, что могу сформулировать свою точку зрения в одном предложении. Если вам нравятся модели 03 или 03 Pro, то эта вам точно понравится. Он примерно в пять- шесть раз быстрее, чем O3 Pro. Это более лаконичный вариант, который, тем не менее, затрагивает самые важные моменты. И здесь соблюдение условий задания остается на прежнем уровне, а это значит, что каждое слово, которое вы введете в задание, будет учтено и выполнено. А в чём же он не так хорош? Итак, начнём с упражнений по программированию. Я не говорю, что это плохо. На самом деле, это очень вкусно. Но уже по первым нескольким тестам, например, по базовому примеру, который я всегда запускаю — это приложение для составления списков дел, — оно многое говорит о визуальном языке моделей. Оно это делает, но не ждите такой же эстетики, как у Claude. И я видел другие мнения в Твиттере, которые отражают это же мнение: для задач разработки это не будет вашим первым выбором. Но для многих людей это не главная цель поступления в магистратуру. Лично для меня это в основном стратегические задачи, связанные с планированием, которые я постоянно выполняю как онлайн-предприниматель. И для этого Offrey и Offrey Pro оказались лучшими, а вот это, я думаю, лучше. Вот хороший пример конкретного тестового задания, которое мы используем в контексте одного из членов нашей команды, Даниэля. Он спрашивает о том, как сбалансировать свою неделю между прогулками с собакой, отдыхом, работой и всем остальным. И, не вдаваясь в подробности, этот ответ, по сравнению со всеми конкурентами, которых мы тестировали — Claw 4, Gemini 2. 5 Pro и Offrey 3 Pro — краткий, по существу, он дает вам расписание, которое ничего не упускает. Это приложение запрашивает информацию и предлагает различные методы повышения продуктивности, не перегружая вас списком из 15 разных дел, а просто предлагает три наиболее эффективных с кратким объяснением, почему? Команда разработчиков поясняет, что эта тяжелая модель Grock 4 работает следующим образом: она запускает несколько агентов, затем сравнивает результаты и выбирает лучшего из них. Подобное может происходить с некоторыми вычислительными моделями, но пока об этом прямо не говорилось. В целом, я считаю, что на данный момент это лучший голосовой помощник из всех существующих. Если вам нужны инструменты для программирования, обратите внимание на Claude и Gemini. Если вам нужно что-то для письма, то многое здесь субъективно, вероятно, это Клод. Но если вам нужен помощник для разработки стратегий и решения сложных задач, то, я думаю, именно здесь он по- настоящему раскрывает свой потенциал. Даже в вопросах, связанных с терапией/коучингом, система находит хороший баланс между персонализацией и практическими рекомендациями, не будучи при этом слишком навязчивой или перегружающей пользователя множеством вариантов. Я не знаю. Думаю, первое, что мне приходит в голову, это то, что мне просто очень нравится то, чем я занимаюсь. И, наконец, хочу отметить, что возможность бесплатного выполнения таких задач по устранению неполадок, которые я иногда называю технической поддержкой, стала неоспоримым стимулом для этого. Она просто отлично справляется с поиском информации в интернете, нахождением актуальной документации и последующим пошаговым руководством. Я не уверен, лучше ли это, но, по крайней мере, это ничуть не хуже. Но за это приходится платить. Получите доступ к Gro 4 Heavy, который использует этот многоагентный подход и затем предлагает вам наилучший ответ. Это стоит 300 долларов в месяц. Это на 50% больше, чем все тарифные планы конкурентов за 200 долларов. И стоит ли это того, решать вам. Платформа надёжная. В них есть основные функции, такие как проекты, а также новый голосовой режим для мобильных устройств, который я еще не успел протестировать. Вот небольшой фрагмент. В сравнении с продвинутой голосовой системой OpenAI, которую, да, именно так они и продемонстрировали в своей презентации. Они провели прямое сравнение с Open AI. Обычно мы так делаем в этой передаче, но, видимо, они просто осмелились на это. Эй, я сейчас назову число. А вы можете повторить мне это же число? Один. Понятно. Это похоже на забавную небольшую игру в эхо. Что дальше? Два. Итак, вы сказали два. Три. Вы это сделали. Четыре. Стабильно и устойчиво. Что дальше? Пять. Пять. Успешно справился. Это довольно весело. Вы можете продолжать в том же духе или снова изменить программу. Эй, Грок. Привет. Чем я могу вам сегодня помочь? Мы проведём небольшой тест. Можете повторить за мной? Один. Все в порядке. Что дальше? Два. Два. Что у тебя на уме? Три. Три. Вам нужно что-нибудь еще? Четыре. Четыре. Чем я могу вам помочь? Пять. Пять. Что дальше? Таким образом, по результатам тестов на ARC AGI 2, он вдвое превосходит показатель Claude Opus, который ранее был лидером. В рамках Международной математической олимпиады это первая модель, получившая идеальный результат в 100%. И всё это доступно сегодня через веб-приложение и API во всех регионах. Ценообразование API аналогично ценообразованию Sonnet 4. Довольно дорого, но вполне разумно. И в нём содержится 256 000 контекстных токенов. Следует отметить, что в API цена удваивается после 128 000 токенов. А еще они подчеркнули, что это только начало. На данный момент у Grock for есть простые инструменты. Вскоре они предоставят ему физические симуляторы корпоративного уровня и многое другое. Они рассчитывают совершить реальные технологические прорывы не позднее 2026 года, возможно, даже к концу 2025 года, что должно быть интересно. И независимо от вашего мнения об Илоне, эта модель впечатляет как по результатам тестов, так и по производительности в реальных условиях. И я собираюсь использовать это во всем, что делаю в течение следующих нескольких недель, и сообщу, если будет что-то еще сказать. Итак