Новости ИИ: Неделя БОЛЬШИХ Обновлений - SORA 2, Sonnet 4.5, Hunyuan Image 3 и многое другое

30:33

Новости ИИ: Неделя БОЛЬШИХ Обновлений - SORA 2, Sonnet 4.5, Hunyuan Image 3 и многое другое

Продуктивный Совет 05.10.2025 14 175 просмотров 416 лайков

Machine-readable: Markdown · JSON API · Site index

Смотреть на YouTube

Поделиться Telegram VK Бот

Транскрипт Скачать .md

Анализ с AI

Описание видео

Новости нейросетей – Claude 4.5 Sonnet снова на вершине, а Sora 2 продолжает будоражить интернет! В этом выпуске разбираем самые горячие новости из мира искусственного интеллекта. Сможет ли китайский GLM 4.6 составить реальную конкуренцию Anthropic в кодинге? Что такое Tinker от экс-CTO OpenAI Миры Мурати? Как агентные браузеры от Comet и Opera изменят наш веб-серфинг? Если вас интересуют нейросети, Claude, Sora и всё, что связано с ИИ, этот выпуск — ваш универсальный гид по последним трендам. Погружаемся в будущее уже сейчас! Тайм-коды 00:00 – Интро 00:27 – Claude Sonnet 4.5 02:49 – Китайский GLM 4.6 обгоняет Claude 03:51 – Tinker от экс-CTO OpenAI 06:28 – Покупки через ChatGPT 07:54 – Агентный браузер Perplexity 08:40 – Opera neon 10:03 – Salesforce Vibes 10:36 – Nothing Vibes для мобилок 11:17 – II-Agent для сайтов и презентаций 12:20 – Cursor видит браузер 12:58 – Google Home умнее 14:07 – Sora 2 и критика OpenAI 15:09 – Апдейты и монетизация Sora 2 16:02 – Главная новость 16:31 – Неожиданные функции Sora 2 19:57 – Sora 2 решает научные тесты 21:45 – Как убрать вотермарку Sora 2 22:04 – Агент Pasta от Google 22:49 – Обновление Nano Banana 23:58 – Новая модель Riverflow 24:19 – Lavender - новый GPT Image? 25:05 – Hunyuan Image 3.0 в топе 27:31 – Обновление Revo AI 28:45 – Cap4D: 4D-аватары из фото 29:10 – Сегментация людей в видео 29:58 – Карта всех ИИ-генераций 🔥Интенсив по видеогенерации уже 10 октября – https://prodadvice.com/ai-video Нучись создавать уникальные, запоминающиеся, продающие ролики при помощи ИИ! Бусти – https://boosty.to/prodadvice/single-payment/donation/535968/target?share=target_link Тг How2AI – https://t.me/How2AI Тг чат How2AI – https://t.me/how_to_AI Тг Креативный Совет – https://t.me/creadvice 🥸 Личный тг Дяди Д – https://t.me/true_dyadya_d

Оглавление (27 сегментов)

Интро

42 взрывает интернет. Новый клод снова лучший. 4D аватары с любой 2D картинки. Люди, роботы, привет. Это Продсовет. Меня зовут дядя Д. Самые важные, интересные новости в мире несетей, искусственного интеллекта для вас собрали. Все новости, события, хайпующие темы, инструменты, обновления сегодня обсудим. Чтобы новые выпуски не пропускать и наши работы поддержать, подпишитесь на канал, оставьте комментарий, поставьте лайк. Погнали. Ло

Claude Sonnet 4.5

4. 1 и OPUS 4. 1 были, ну, если не лучшие, то одни из лучших моделей для кодинга. Нороopic решил на этом не останавливаться. На этой неделе зарелизил новую версию модели Clotanet 4. 5. На SWBCH verified. Вот такие мы видим бенчмарки и приросты и сравнения с конкурентами. 4,5 выбирается, выдирается в абсолютные лидеры по этому бенчмарку. на LM арена по следующим категориям: сложные промкты, кодинг, креативное письмо, следование инструкциям и разные длительные разговоры тоже занимает первое место. Cl 4,5et. У меня есть подозрение, что антропик вкачивал модель исключительно в кодинг или в первую очередь в кодинг, потому что некоторые разработчики в X об этом писали, что именно способность к программированию делает модель разносторонней. И вот я думаю, что они вкачивали эту её способность. И в целом все остальные домены тоже неплохо подтянулись. В общем, модель действительно крутая, и это не единственное, что антроopк зарелизил на этой неделе. Ещё представили вот такой вот resarch preview. И мы это уже с вами видели, по-моему, от Гугла, когда модель генерирует по промту всё. И здесь именно LLM является операционной системой. То есть мы в чат пишем: "Сделай какую-то папку, документ, файл". репозиторию. И вот видите, он это создаёт в реальном времени. То есть нажатие идёт взаимодействие с графическим интерфейсом, оно тоже, по сути, промтит модели. Если мы открываем какой-то файл или папку, то клод начинает токен за токеном генерировать её содержимое. Resarch preview доступно, по-моему, 5 дней. Возможно, уже недоступно, потому что, в общем-то, в начале недели были эти релизы и только подписчикам макс на двухсотдолларовые подписки. Поэтому вот так вот на ролик посмотрим, поразмышляем о будущем и поедем дальше. Разные интересные теоретические новости и релизы, которые были на этой неделе от антропика, я опубликовал в мой личный Telegram-канал. Вы можете туда перейти, сделать такой э подборку самых интересных статей и исследований, которые мне показались на этой неделе важными и которые мне самому хочется прочитать. Там я их оставил, если хотите маленечко углубиться и мозги свои потренировать. Но Anтропик совсем забыл или не подумал, да или в общем и не собирался думать о том, что есть Китай. Но Китай, в свою очередь, э в лице

Китайский GLM 4.6 обгоняет Claude

компании Z. AaiI обновил модель GLM до версии GLM 4. 6. И даже они умудрились уже провести сравнение по бенчмаркам с новым CLNet 4,5. И этот GLM обгоняет почти по всем бенчмаркам клод 4,5. То есть то, что мы видели с вами выше, для GLM - это просто детский сад. Вопрос, как? Ну, как-то, но вот с другой стороны, на SWE Bench Verified не обгоняет. То есть всё-таки в кодинге модель уступает к лоду, но на общих знаниях тимо олимпиад по манематике, GPQA, э, Human Last Exam, между прочим, видимо, в думающий версии, а, с использованием инструментов, она вырывается просто в какие-то сумасшедшие и абсолютные лидеры. Причём Китай, как всегда, славится своими достаточно низкими ценами, высокими лимитами. И я использую LGLM 4,5 в кодинге через clд-код, перейду на эту модель, потестирую, может тоже в одном из наших Telegram-каналов расскажу. Tiner, так называется новый

Tinker от экс-CTO OpenAI

продукт от компании Thinking Machines. Если вы помните, это компания Miram Muratia CPO, если я не ошибаюсь, в прошлом в компании Open AI. Она ушла для того, чтобы организовать собственную компанию по изучению, развитию, созданию AGI. Вот такой первый продукт они выпускают. Он как бы сложный, и особо нам с вами пользователям, ну и даже разработчикам, которые не занимаются обучением моделей, ненужный. Это API, которые позволяет вам файнтюнить модели. Вот у них там разные интересные архитектуры, системы. Tiner Cookbook выпустили. Большие компании Berkкли Sprint там Redwood Research уже этот фреймворк используют. Не уверен, что это решение такое индивидуальное. скорее что-то корпоративное. Э, если хотите файтюнить, то используйте какие-нибудь unslotthy и всякие вот такие решения. Но имейте в виду, что тинкер есть, будеров могут возникнуть проблемы. Почему? Потому что Opena всех маленечко двигает по сторонам, ну или прилагает к этому усилия. Вот теперь можно совершать покупки прямо через чат GPT. Совместно с Stpee добавили такую функцию instant checkout. 700 млн пользователей в США уже могут покупать у продавцов сsi. И скоро продавцов Shopify тоже туда подключат и прямо в чате это можно делать. Работает на такой штуке под названием Adentic Commerce Protocol. Э, две компании Stype Open разработали. И при помощи буквально одной строчки кода можно вкорячивать туда свои товары. Но очевидно, что Amazon, Google как бы будут что-то предпринимать, потому что так большую часть клиентов, которые общаются через чат GPT, у них могут увести. И, кстати, вот, например, Google разрабатывает свой протокол Agent Payment протокол. Amazon там уже блокирует все эти парсеры отсканирования своих страниц. Не на шутку разворачивается вся эта баталия в Екоме. Если вы не в Штатах и если ваш Amazon - это Amazоon без первых двух букв, ну, вы поняли, то пока переживать или радоваться особо нечему. Когда до нас, возможно, это докатится, тогда и будем думать, насколько это всё удобно. Агентный браузинг на этой неделе прям так и пистрит в новостной ленте. Во-первых, комет для всех. Перплексти расщедрился, раздобрился и раздал свой браузер всем. Раньше было только по вейтлисту, но вот, видимо, конкуренты-то поджимают, э, нужно клиентов не

Покупки через ChatGPT

упускать. Браузер комет доступен всем, но есть функции, которые всем недоступны. Например, вот только по подписке Макса за 200 долларов будет у вас так называемый фоновый ассистент, который работает как команда ассистентов и управляется через централизованную панель. А он там умеет в бэкграунд режиме выполнять кучи разных задач, бронировать билеты, писать письма и потом к вам с отчётом приходить. Вот такая штука. всё-таки только по подписке. Но все остальные агентные функции, видимо, менее продолжительные, менее сложные, которые есть в комете, доступны всем пользователям. Opera тоже вышла со своим браузером. Ну, точнее, они его анонсировали какое-то время назад, а теперь они его в ограниченном доступе раздают, то есть уже можно пробовать. Выглядит с точки зрения интерфейса прикольно. Вот такой немножечко гранулированный, э, и с разными интересными переходами интерфейс. Не дурно, что у нас тут есть чат, где можно вопросы задавать различные. Э, говорят, что он очень агентный, сравнивает товары, резюмирует блоги, может пойти в слаг, что-то запостить, организует заказы. И тут есть несколько разных таких UI решений, карточки, что-то вроде автоматизации, которые повторяющиеся команды позволяют вам создавать. и рабочее пространство, так называемый tasks, которые группы вкладок в себя соединяют, объединяют, и у агенты, получается, есть общий контекст вот именно по этим вкладкам. Я не уверен, что это прямо идеально всё

Агентный браузер Perplexity

работает. Я не уверен, что это прямо нужно, потому что, ну, опять же, пошли в Перплексте, задали вопрос, сделали либо resarch, либо какой-то глубокий поиск, либо поверхностный поиск, быстро это всё определили. Я вообще не люблю, когда куча вкладок у меня открыта. Зачем это нужно, не знаю, но когда вот там эта штука ещё и забронить за тебя что-то может или вообще догадывается, что у тебя там какой-то событие и нужно к нему подготовиться и сама там за тебя делает. Ну вот если так будет работать, то это интересно. Больше вайба нужно всем компаниям, в том числе большим корпорациям. Sales Force делает Agent Force Vibes и инструмент для ваe-кодинга, который на базе Sales Force, вот всех их инструментов, позволяет писать разные приложения. Вкоде называется и агент, и это Fork расширение Cline для Visual

Opera neon

Studio Code. Cline вроде штука прикольная. GPT5 модель, Quent 3. 0 модель, ну и планируются платные планы. Пока что это, в общем-то, всё работает бесплатно. Vй для мобильных юзеров организуется здесь уже со стороны мобильной компании под названием Nothing. Они представляют такой Playграунд и платформа, которая позволяет быстро создавать виджеты как-то, наверное, какие-то там то ли библиотеки, то ли ещё какое-то ограниченное количество кода. Ну, в общем, приложение в этом полноценно не создадите апку, а вот только виджет можно. Вроде прикольно, вроде интересно. очень так кастомизированный тот самый софтвер с небольшими ограничениями для пользователей, которые не разбираются в коде. Но, кстати, в код там тоже можно залезть. Посмотрим, приживётся или нет. Но вот эта идея выглядит как будто бы такой достаточно жизненеспособной. Хотя чёрт его знает. II Agent выходит от компании какой-то компании Intelligent, что-то там. Основателем этой компании, если я не ошибаюсь, является основатель Stable Diffusion. В общем, я периодически за ними послеживаю. И здесь они будут делать упор именно на создание веб-сайтов, исследований и презентаций. И всё это будет прямо в браузере. Достаточно минималистичный, вроде как дизайн, а в то, что получается, по

Salesforce Vibes

крайней мере, вот на этом превью выглядит не дурно. М и заявляет, что это всё делается по одному промту. То есть должна быть штука агентная, работать должна долго, там тоже план составлять. В общем, всё сейчас, конечно, строится на том, какие какой контест, какие инструменты, как вот этих и агентов для кодинга компании настраивают. Э, ну, и, в общем-то, конкуренция в этом поле идёт. Посмотрим, что из этого выйдет. Пока что, пока что тоже там такой previewйст, то есть полноценно туда залететь сейчас нельзя. И там будет ещё функция подключения разных лэмок со своими API ключами. А курсор

Nothing Vibes для мобилок

беспощадно продолжает вкачивать и добавлять новые функции. Теперь они нативно добавили ээ способность, умения агенту смотреть на браузер. То есть раньше там какой-нибудь Playri MCP нужно было туда подтянуть, чтобы это всё работало. Теперь есть это просто функция уже конкретно в самом курсоре. Это потрясающе. Курсор накодил, посмотрел, что он накодил, понял, где нафакапил, пошёл исправлять. Включается она в настройках вот Agent Windows и курсор браузер. Включите и Early Access на вот все эти бетафункции тоже добавьте и сможете ей попользоваться. Коротенько обновление

II-Agent для сайтов и презентаций

гла. У него были софтверные обновления, Игорян об этом расскажет, э, и вот такие хардверные Google Home станет ещё умнее. Новые инструменты, точнее, новые устройства. Вот такая у нас Google Home Speaker. Э, и она стоит достаточно дёшево. Почему вообще сюда я её решил добавить? 99 баксов, что, в общем-то, как будто не так уж-то и много, учитывая, что там будет Джеминей уже жить, который, в общем-то, и хорошо общается и беспощадно будет вас там поддерживать и контролировать ваш дом, делать его, заряжать его своим прекрасным интеллектом. И добавляют ещё разные камеры и вот такие вот, э, дверные замки или вот эти вот звонки. Почему это прикольно? Ну, потому что там тоже живёт модель, которая может анализировать обстановку и определять, а что там происходит. И, например, не спамить вас беспощадно сообщением, если просто пришёл человек, она поймёт, что это пришёл курьер, и там напишет вам, что это курьер, а не кто-то к вашему дому подбирается, срочно бегите спасать

Cursor видит браузер

жилище. В общем, всё умнее и умнее при помощи элмок становится всё это кажется хорошо. Ну и коротенько я свои пару копеек просору вставлю и на нескольких мемах свою часть завершу. Конечно, критика есть в сторону Open. Надеюсь, вы ролик про Сору 2 уже посмотрели. Если не посмотрели, то посмотрите. Но сейчас, я думаю, Грян тоже коротенько про неё расскажет. Э, получается, что компания беспощадно ищет ресурсы, инвестирует в инфраструктуру, и мы ждём AGI, а получаем, как вот сейчас это всё в Твиттере называется, Infinite AI TikTok slop. машин, но то бишь AI и TikTok, который жёстко вас погружает и

Google Home умнее

заставляет залипать во всё это дело. Как бы пытается оправдываться, говорит, что это больше для создания контента, для творчества, нежели для залипания. Но как бы народ-то залипает. Камон, в любом случае. Э, в общем, есть критика в сторону Open стороны. Нам нужно больше компьютера, чтобы что? Чтобы найти лекарство отрака, разумеется. Simpson style, гибли Style. Напишите, что вы думаете по этому поводу в комментариях. И как некоторый ответ на критику Сльтман всё-таки выдаёт в своём блоге и рассказывает о будущих апдейтах Соры 2. Хотят добавить более тонкий контроль над генерацией персонажей. Больше будет настроек, как этот Комео может работать, как вы можете взаимодействовать с другими персонажами. И вот что кажется интересно, будет распределяться доход. Ну, в очередной раз Альтман об этом говорит. Сначала у нас был GPT Store, который как-то особо не полетел. И вот теперь, если с вашим, э, лицом делают ролики, то, вероятно, это будет чего-то стоить, и часть дохода может капать вам. Альтоман говорит, что это будет совсем скоро, и можно это ждать прямо в

Sora 2 и критика OpenAI

ближайшее время. Полетит, не полетит и что это вообще за такие тренды новые. На этом всё, — люди, роботы, привет. С вами Игорянна. И давайте быстренько пробежимся по новостям креативных невертей последняй неделя. А главная новость заключается в том, что Миджорни планирует собирать вечеринки на огромном катамаране в заливе Сан-Франциско и спрашивает: "Какое время лучше и кто придёт. Естественно, только для тех, у кого есть подписка, и, естественно, это шутка". Не сама новость, а то, что она хоть насколько-то значимая, а реально значимая новость. Вот. — Пикапика, пикачу, пикапика, пикачу. — 42, друзья. Мы уже сделали подробный ролик с обзором ссоры. Если интересно, то смотрите. Инструмент реально классный. Если хотите поглубже его изучить, то присоединяйтесь к нам в спринте по генерации видео с помощью нейросетей, как для новичков, так и для тех, кто уже это делает, потому что это

Апдейты и монетизация Sora 2

будет не только образовательный интенсив, что, конечно, в первую очередь, но также и просто возможность объединиться в команду, найти единомышленников, прикольных ребят, которые тоже генерируют видосы. И мы в таком едином заряде мотивации, в общем, будем всё это дело там творить, создавать короткометражки, какие-то рекламные ролики для ваших брендов и, в общем, любой контент, который можно с помощью видео нейросетей создавать. А вариаций действительно много, как какие-то Короче, надеюсь, дядя Д вам и так всё уже неплохо рассказал. Переходите в бот, если вам интересно почитать поподробнее. Будет реально интересно, весело, дружелюбно и мотивирующе. Если же уходить в подробности и говорить о том, что случилось вот с момента, как мы этот ролик выпустили, потому что выпустили мы его сразу же после релиза, то, во-первых, появилась 2 Pro, которая доступна владельцам проподписки за 200 долларов. Про-версия предлагает чуть больше настроек, а именно продолжительность ролика, то есть можно

Главная новость

до 15 секунд ролики удлинять, разрешение можно выбирать высокое или стандартное. При этом время генерации увеличивается очень сильно. То есть, чтобы 15 секунд в High Resolution сгенерировать, вам потребуется 20-30 минут. Результаты реально лучше, но не прям-таки, чтоб сильно. То есть артефакты как были, так и есть. И это, наверное, главный минус 40 по моему мнению. Очень много артефактов. Всё время дрожит, никакой стабильности нету. Хоть какие-то объекты иногда и сохраняют свой внешний вид после того, как из кадра исчезают. С

Неожиданные функции Sora 2

этим всё неплохо. Во-вторых, Сора 2 умеет делать сториборды. То есть мы вот создаём, значит, раскадровочку такую, загружаем в ссору. И модель воспринимает эту раскадровочку не как первый кадр, хотя на самом деле как первый кадр, но она использует её реально как один кадр и сразу же после кадра понимает, что опть не как кадр, а как просто какую-то основу для написания сценария. И дальнейшее видео никак не основывается на первом кадре, за исключением того, что берёт вот структуру раскадровки. То же самое можно делать, если вы, например, создаёте рекламу для какого-то продукта. Загрузили картинку продукта, написали промт, что не использую эту картинку как первый кадр, а просто вот сделай рекламу для этого продукта, и реклама будет. кадр сразу же за секунду меняется на какой-то другой видеоряд и больше не всплывает ничего, кроме как вот сам объект из этой начальной картинки. Могу немного путаться в словах, потому что, к сожалению, записываю это в 2 ночи почти так вот сложилось, но нельзя же всех вас без новостей оставить, поэтому записывать всё-таки приходится, но спать хочется тоже. Помимо этого, в веб-кодеры 2 были найдены э какие-то основы для того, чтобы создавать такие сториборды. И если вспомнить, то нам действительно обещали такие сториборды в Сори 2. И в общем, эта функция, которая не за горами вот-вот должна появиться у нас. И можно будет в целом с намного большей свободой творить в ссоре какие-то приколы. Хоть и сейчас как бы мы можем это с помощью одной картинки делать, либо просто даже с помощью промпта, но в перспективе это будет намного удобнее. плюс можно будет намного более длинные ролики создавать. Помимо этого, сори неплохо решает бенчмаркет для LLM моделей. Например, в знаменитом бенчмарке GPQA Diamond, который заставляет проходить такие сложнонаучные тесты, Sora 2 набирает 55%, при том, что GPT5 набирает 72, это суперпровной результат, а 55 вполне себе сравним с результатом GPT 4 и тут встаёт хороший вопрос, как же она это делает. Есть у нас два варианта. Первый, более очевидный, заключается в том, что просто языковая модель пока переписывает пром для сосоры 2, всё это решает сама и пишет уже готовый сценарий с правильными ответами. Второй же вариант заключается в том, что SOA вот такая умная модель, которая физику понимает вне модальности, и там, в общем, всё перемешано уже языковая модель, диффузионная модель. И вот оно так случается, что как бы из такого промпта естественным ответом будет получаться правильный ответ на тестовый вопрос JPQA. Скорее всего, правда, где-то посередине, и оба варианта имеют отношение к реальности. И то, и то влияет на то, как SР справляется с научными тестами. Ведь все мы знаем, что модели для генерации изображений и видео уже не раз показывали свои возможности к выполнению каких-то задач, которых от них не очень ожидают, как, например, решение каких-то научных проблем. так и решение лабиринтов и много чего другого. Но вот понять, что на это больше влияет, их всеобъемлющее понимание нашей реальности и связи между вопросом и ответом, либо просто то, как языковая модель переписывает промп перед тем, как сгенерировать результаты, точнее, отдать диффузионной модели этот результат генерировать. Непонятно. Самая главная

Sora 2 решает научные тесты

проблема, с которой столкнулись большинство пользователей - это то, что даже в проверсии ссоры у вас на видео будет генерироваться марка. О том, как справиться с этим, я рассказывал в своём Телеграме креативный совет. Поэтому обязательно переходите в него. И если хотите узнать больше лайфхаков, советов и так далее, то ещё раз напомню про то, что на следующей неделе, а точнее вот уже в эту пятницу, у нас стартует наш интенсив по генерации видео. А далее новость про то, что Google Resarch публикует забавную штуку. Новый агент паста, который позволяет превращать в генерацию изображения в что-то более удобное, нативное. В общем, посредством беседы, где пользователь выбирает, какой результат ему нужен, нейросеть создаёт итоговые, вот максимально приближенный к тому, что вы хотите результат. И это чем-то напоминает то, что делает AI, но насколько-то менее удобно, конечно. Хотя посмотрим. В общем, ждём, когда они это выпустят в народ. То, что они в этом направлении двигаются, в любом случае очень круто, потому что пока что нанобана - это, конечно, качественный инструмент, но вот интерфейс там вообще ни к чёрту, функций никаких нету, и это печалит. И, кстати, про это Google обновляют нано банану. Не так, чтобы сильно, но вот они добавляют ей какой-то функционал. Во-первых, 10 aspect ratio, то есть соотношений сторон. Во-вторых, мультиimage блендинг, хотя он не улучшен, не добавлен. Он и так был в целом, как был, так и есть. Ну и в целом, на самом деле, всё. Дальше они просто перечисляют функции, которые у них так были. В общем, ключевое - это вот соотношение сторон. А, ну ещё image only output, то есть вот функционал, в котором в ответе текста не будет. Будет только картинка. Ну, кому-то это там, наверное, нужно для каких-то там API приколюшек, но я, честно говоря, этим сам пользоваться не буду. Меня пару

Как убрать вотермарку Sora 2

лишних слов не особо напрягает. А дальше много обновлений про генерацию изображения, а точнее про редактирование изображений. Это вообще очень нашумевшая тема, как будто бы самое главное, что за последние полгода в мире нейросетей происходит помимо генерации видео бешеных скачов там. Ну, в общем

Агент Pasta от Google

редактирование изображений, да, с момента, как GPT 4O image вышло и стало, в общем, очень приятно редактировать изображение. Много нового всего добавилось, в том числе нанобана. И вот модель называется Riverflow. Вообще непонятно, что это за модель. Она просто появилась на некоторых аренах. И лично по тому, что я видел, работает она очень качественно. Ну вот, можете видеть и сами. Вот ещё, например, примерчик. Ну и больно долго останавливаться на этом не буду, потому что помимо Riverflow вышло ещё и Lavender. А Lavender - это, скорее всего, GPT Image 2, потому что результаты очень похожи на GPT image. Тоже вот эта вот зернистость, вот эта вот

Обновление Nano Banana

красочность, как будто бы всё нарисовано. Плюс нету стопроцентной стабильности, качественно делает, но всё перегенерирует, всё перерисовывает. То есть не идентично оригинальное изображение у нас остаётся. Короче, это в целом всё поле загадок. Пока что это можно наtificial analysis арену зайти и потестировать. Чтобы это сделать, можете перейти в мой Telegram креативный совет, как я уже говорил, ссылочка в описании, и там в одном из последних постов эту ссылку найдёте. А далее то, что уже можно потрогать и не только потрогать, но и скачать себе на комп, а именно Huan Image 3. 0. Очень качественные результаты. И я, на самом деле, поначалу даже недооценил модель, потому что я подумал: "Ну, это какой-то очередной китайский проходняк, какая-то просто качественная моделька для генерации изображений. Ну, ничего уж такого в этом супер интересного нету". В модели всего около 80 млрд параметров, что много, но не прямо супер много. При этом она понимает комплексные тысячесловные промпты, обладает ризанинговым пониманием мира и генерирует качественный текст на изображениях. И вы можете сказать: "Ну, мы это и так часто

Новая модель Riverflow

слышим про каждую вторую модель". В общем, тут никакой конкретики. А по конкретике у нас два пункта. Во-первых, модели заняли первое место на Хагнфейсе, как самые популярные и скачиваемые за последнее время. А во-вторых, модель заняла первое место на LM-ане. И это, ребят, настолько революционная новость

Lavender - новый GPT Image?

что не знаю, что ещё добавить, потому что такого не было никогда со времён выходами Джорни. Лучшая модель на всех аренах всегда была какая-то закрытая модель без возможности установки её локально на своём железе. То есть когда-то там более трёх или даже четырёх уже лет назад это, конечно, была Stable diffusion, когда она кое-как корявенько генерировала людей. А теперь вот спустя 4 года на первое место вырывается Нанюанan Image 3. 0. Надо посмотреть, конечно, как на других аренах она себя покажет, потому что lm арена всё-таки, по моему мнению, не самая достоверная. Да и вообще эта история с аренами меня, честно говоря, в последнее время как-то смущает, потому что как будто бы всё оно не очень уж объективно. На самом деле, как бы способ и не был объективен, но

Hunyuan Image 3.0 в топе

правду на самом деле он не прям-таки отражает. Всё зависит от нужд конкретного человека и так далее. Мне, например, важно, чтобы русский текст могла модель генерировать. Фу, что-то со светом у меня случилось, не понимаю. Да, бывает, бывают проблемы, но решать их тоже времени особо нету. Короче, на чём я остановился? Han 3 Image неплохо генерирует русский текст на изображениях. То есть иногда, конечно, косяки есть, но справляется он с этим, ну, действительно понише хорошо. Может быть, GPT image или диаграм справляются получше, но другие аспекты тут может быть в чём-то и лучше. Короче, модель точно заслуживает внимания, в особенности ввиду того, что она open source. Далее коротенькое обновление от Ra AI. Возможность отображать зеркально объекты. То есть вот мы взяли персонажика прорыва. Я, кстати, тоже недавно делал отдельный ролик. Так вот, берём чувачка, жмём отразить, он отражается. Потом жмём перегенерировать. И смотрите, что сейчас случится. Вуаля, он отразился. И второе обновление, чуть более странно- это возможность вот фотографии в интернете искать. Нашли вам, понравился вам вот кардиган какой-то жёлтенький и вот Рева вам его находит. Это вот как раз лишний функционал. А я недавно только Рева нахваливал за то, что у них лишнего ничего нету. Вот что-то появляется. Но в целом, если это вам нужно для генерации, то может быть не такое уж оно и лишнее. Потому что хочу отметить, что в отличие от GPT иджа, в отличие от нанобана, вот эти изображения, которые Рем отправляет, можно дальше по ходу этого чата использовать э для генерации как референс изображения. А в нанобанане, например, для того, чтобы так сделать, картинку сначала нужно себе на компьютер сохранить, а потом заново загрузить. То есть лишние действия, которые лишние секунды вашего времени тратят. Далее Cap 4D. Крутейший open source инструмент для генерации вот таких 3D аватаров. Ну, а точнее 4D, потому что они ещё по временной шкале как-то изменяются. Ну, достаточно классная штука. Почему бы и нет? В особенности, учитывая, что оно в Open sourceсе. Вот классно копирует движение Майкла Скотта. Ну, не прямо идеально, но всё-таки неплохо для Openourсоч. модель для сегментации изображений, то

Обновление Revo AI

есть разбивки изображений и видео на компоненты. В данном случае тут отмечаются все люди, которые есть. Притом смотрите, какие-то вот стоп-кадры можно ловить, где человек, ну, вообще по форме на человека не похож. Ну, вот на нога, например, вот это с уверенностью 70% определяется как персона. Ну вот смотрите, да, есть моменты, в общем, которые, ну, вообще не должны как персона определяться. Вот там человек вообще закрыт, задвинут. Пум-пум-пум, пум-пум-пум-пум. Короче, классная штука. Тоже в Онрсе есть. Вот смотрите, как добротно определяет она и лабродудели, и стаканчики, и всё. И под конец выпуска вот такую крутейшую штуку нашёл atlas. nomic. ai. Это такой сайт для того, чтобы большие датасеты представлять в удобном визуальном формате. карта со всеми генерациями. Я, честно говоря, не прямо нашёл, что это за генерации, но, как понимаю, источник достаточно хороший. То есть где-то вот взяли всё, что люди генерируют, а как-то это разбили по категориям, сделали вот такую объёмную

Cap4D: 4D-аватары из фото

карту, где вот, например, мужские селебрити где-то вот они там. А Илон Маск вот он такой жёлтенький, достаточно большое пятно, но Илона Маска реально часто генерирует. Байдена сравнительно. также генерирует Трампа, генерирует куда больше. Кошки вообще здоровое облако с каким-то фиолетовым пересекается. Что бы это могло быть? Возможно, кошачье кормы, какие-то корма, либо, возможно, собаки.

Сегментация людей в видео

В общем, что-то вот сильно с кошками пересекающееся акулы. Тут киберпанковое вот пятно, Йода, irймен, роботы, монолизы и так далее. Вот такие пироги. И в общем, это были все новости нейросетей последней недели. И перед завершением этого ролика хочу ещё раз вам напомнить, что уже на этой неделе стартует спринт, десятидневный спринт, где мы будем каждый день созваниваться, проводить эфиры, генерировать видео, повышать компетентность в этом и, в общем, обсуждать проблемы, мотивироваться и так далее. Будет очень классно. Есть экономный, дешёвый тариф, есть тарифы подороже, даже максимальный тариф, где вам на всю жизнь все наши курсы, даже не связаны с генерацией видео, дадут. И цена там достаточно выгодная. Поэтому

Карта всех ИИ-генераций

ещё раз ссылочки все найдёте в описании. Спасибо за подписку на наш канал, комментарий, лайк и что-нибудь ещё. Например, колокольчик. С вами был Игорян. Ещё дядя Дебл. И увидимся на следующей неделе. Пока. —

Другие видео автора — Продуктивный Совет

Ctrl+V

Экстракт Знаний в Telegram

Экстракты и дистилляты из лучших YouTube-каналов — сразу после публикации.

Подписаться

Лучшие методички за неделю — каждый понедельник