Новости ИИ: Горячая Неделя для ИИ-изображений и видео

29:16

Новости ИИ: Горячая Неделя для ИИ-изображений и видео

Продуктивный Совет 21.12.2025 13 091 просмотров 372 лайков

Machine-readable: Markdown · JSON API · Site index

Смотреть на YouTube

Поделиться Telegram VK Бот

Транскрипт Скачать .md

Анализ с AI

Описание видео

Новости искусственного интеллекта: Обновления ChatGPT, Gemini 3 Flash, инвестиции Amazon в OpenAI и слово года. В этом выпуске новостей из мира искусственного интеллекта и нейросетей мы рассмотрим ряд значимых событий. OpenAI представляет GPT Image 1.5 и расширяет возможности персонализации в ChatGPT. Google выпускает новую быструю и эффективную модель Gemini 3 Flash. Технологические гиганты продолжают инвестировать миллиарды в OpenAI. 🔥 Syntx – 100+ инструментов ИИ по одной подписке. "sovet15" – скидка 15% – https://syntx.ai/ Тайм-коды: 00:00 – Интро 00:47 – GPT Image 1.5 01:52 – Персонализация в ChatGPT 02:31 – Вышел Gemini 3 Flash 04:13 – Claude для Chrome доступен 07:07 – GPT-5.2-Codex для агентного кодинга 07:52 – Codex Skills 08:38 – App Store, но в ChatGPT? 09:33 – Amazon инвестирует $10B в OpenAI и не только 10:24 – Nvidia Nemotron 3 11:03 – Meta догоняет конкурентов 12:10 – Opal в Gemini 13:00 – Слово года от Merriam-Webster 15:39 – GPT Image 1.5 17:22 – Flux 2 Max 19:19 – Seedance 1.5 19:38 – Wan 2.6 Video 20:24 – Kling 2.6 Voice Control 20:54 – Kling Motion Control 21:25 – Luma Ray Modify 21:49 – Sicily: Генерация видео 22:14 – Meta SAM Audio 23:07 – ElevenLabs для WhatsApp 23:16 – Плейлисты Spotify по промпту 23:34 – Google VideoFX: Camera2Music 24:19 – Reve: Upscale и удаление фона 24:44 – Рисование в Midjourney (Banana) 24:51 – POV Video из видео 25:29 – Microsoft Trellis 2 26:02 – Как произносить Hunyuan 26:10 – Hunyuan 3D World 26:37 – Decart Lucy Motion 27:19 – Z AI Realtime Video 27:49 – Qwen - Слои в генерации 28:14 – Sync React 1: Липсинк Бусти – https://boosty.to/prodadvice/single-payment/donation/535968/target?share=target_link Тг How2AI – https://t.me/How2AI Тг чат How2AI – https://t.me/how_to_AI Тг Креативный Совет – https://t.me/creadvice 🥸 Личный тг Дяди Д – https://t.me/true_dyadya_d

Оглавление (35 сегментов)

Интро

Open Aкуровать с нано банана, но получается ли? Google радует релизом новой модели Gemin 3 Flash. Быстрая, эффективная и невероятно умная. Что за циркулярные инвестиции в её компании и кто стоит на очереди дать OpenA денег? У Клинга появляется серьёзный конкурент в виде One 2. 6. Flx 2 Max получил граундинг и рисует ещё более крутые изображения. Абсолютное величие от Н с послойной генерации изображений. А, и слоб вырывается из цифры и переползает в словарь. Люди, роботы, привет. Это продсовет. Меня зовут дядя Д. Начинаем наш еженедельный выпуск новостей. Всё самое важное, интересное для вас собрали. Подписывайтесь на канал, оставляйте лайки, комментарии, колокольчики ставьте. Новый год как-никак скоро. Погнали. GPT Image

GPT Image 1.5

полтора - это ответ от Open AI на вот эту фиерию, которую нам устроил Google с Наной бананой и наной бананой Pro. Можно вот теперь делать такие чудесные, немножечко эротичные календари в GPT Image полтора. Ну, наверное, на этом заканчиваются её прелести, хотя я, конечно, немножко утрирую. Игарян поподробнее расскажет про эту модель в своей части и, возможно, посравнивает её с бананой. Своё мнение о ней выскажет. Но у нас до четырёх раз быстрее генерация в сравнении с GPT Image 1. Более точное редактирование с сохранением деталей, рендеринг текста получше. Ну и новый интерфейс в chatчат GPT появился. Нажимаете Images, и у вас вот такая в целом достаточно удобная страничка открывается, где можно развлекаться с этой новой моделью. По моим впечатлениям и представлениям, она получилась, ну, конечно, лучше, чем то, что было в версии 1. Вот небольшое сравнение с блок поста, но всё-таки не дотягивает до нано

Персонализация в ChatGPT

бананы. Есть минорные обновления, но достаточно приятное от ЧА GPT. Во-первых, теперь в мобильной версии появился вот этот вот эта функция ветвления чатов. Нажимаете, долго выделяете сообщение, нажимаете Branch New Chat и его открывать новый диалог. И вы можете этот диалог как бы продолжить здесь, и новый диалог начать и как-то иначе его развить. А ещё появилась персонализация. Теперь можно выбрать теплоту, энтузиазм, headers and lists, наверное, просто форматирование и эмодзи. Вот так вот это можно при помощи кнопочек, а не промтов настроить в вашем приложении. К чат GPT вернусь ещё чуть позже, но хочу сначала

Вышел Gemini 3 Flash

вам показать, конечно же, Gemin 3 Flash. Потрясающая модель. Она сочетается в себе про уровень reasoning с флеш-скоростью вот по сниженной цене. Нам так заявляет Google. Доступно уже вообще на всех фронтах. В Gemin встроено бесплатно в приложение вместо дemна и 2 с5 фш. И модель, ну, катастрофически умная. Вот полное сравнение можете здесь посмотреть. Она гораздо более эффективная с точки зрения потребления токенов. Она чуть-чуть подороже, насколько я помню, чем Gemy 2,5 Flash, что, ну, не критично, там на полцента дороже output price, но она выносит по бенчам и GPT 52, и Gemin 2,5 Pro, и где-то даже обгоняет Gemini 3 Pro, например. Вот посмотрите на этом банчмарке. Мы такие как бы что какой-то ofлон, что бы это не значило, что ещё млу паритет. Ну, то есть очень круто. Есть ощущение, что может быть вот Gam 3 Pro - это какая-то нефинальная версия там этого притрейна, тренировки какие-то модели. Её просто упаковали, вам выпустили, может там сейчас будет ещё что-то более фееричное. Э какой-нибудь Geminate 3. 1 Pro. Ладно, это уже догадки. Подождём, посмотрим. Ну вот здесь LM Арена нам показывает сравнение некоторых бенчмарков кодинговых, ээ, Gamin 3 Flash, Gaminate 3 Pro и, ну, если не хуже, точнее, если не лучше, хотя иногда кажется, что даже лучше справляется Gamin 3 Flash, то, ну, с потрясающе сверх на уровне. А некоторые примеры, ну, вот даже этот, мне кажется, Gem 3 Flash справилась вообще прекрасно, а вот здесь как бы тем более гораздо лучше сходи сходило всю эту

Claude для Chrome доступен

беготню. Клод для Chrome, по-моему, уже было на каких-то подписках, но теперь вот для всех проюзеров тоже это выкатывают. Это прекрасно. Появляется у вас сбоку вот такой вот чудесный окошко. И клод взаимодействует со всем контекстом, со всем вашим браузером. Может тыкать к кнопочке, клавиши, э, работать с презентациями, писать что-нибудь для вас. Всё видит, всё понимает, всё анализирует, взаимодействует с окном вашего браузера. И помимо этого, вот видите, взял, заполнил здесь, собственно, всю страничку вордовскую, изначально просмотрев вкладки. Очень круто. Вот агентный браузинг, здравствуйте. От Клода. Как бы зачем выпускать какой-то Атlлас, если можно просто расширение для Chrма сделать? АlС - это чат GPT браузер отдельный. Вообще не представляю, кто им сейчас, честно говоря, пользуется. Ну да ладно. Клодкод тем временем тоже получает хорошее, полезное обновление э вот с этим релизом. Там появляется сшкоманда Chrome, и вы присоединяете клодкод там через расширение к хрому. Он может наблюдать все ошибки консоли напрямую, сразу с этим на это смотреть и использовать это в своём рининге. В общем, дебашить сразу ваше приложение, ваш сайт фронт, что, ну, вот видите, просто как бы феерично. Классное обновление мне вот прямо зашло. А что ещё определённо может зайти, так это сервис, где собрана уйма нейросетей. Вы получаете к этому всему удобный доступ. Можно оплачивать российское карты без разных трёхбуквенных решений. И меньше чем за 1. 000 руб. можно начать пользоваться всем этим многообразием. 200 пс различных инструментов. Конечно, это классный сервис Synнтакс. Мы уже про них много раз рассказывали. Тут есть и текстовые нейросети. Всех топовых провайдеров, пожалуйста, выбирайте, работайте с текстом. В Что мне, конечно, больше всего нравится, так это обилие разных нейронок для создания изображений, для создания видео. Вот Nan Banana Pro, пожалуйста, выбрали и начали ей пользоваться. расширение до 4К, соотношение сторон добавляют всё очень оперативно. Вышел клинку1 недавно, если вы слышали, Runway 4,5, Jept Images полтора. Это всё здесь уже есть. Просто идёте, смотрите, нажимаете на кликер и выбираете ту версию О1, которая вам необходима. Текст to видео, видео to видео с референсами. Всё работает. Я синтаксом тоже пользуюсь. И классно то, что здесь можно с разными моделями поэкспериментировать. Вот это я, по-моему, в клинге генерировал. Если не работает, пошли там попробовали Veo или там в Сидриме перегенерировали картинку. В общем, хорошо. Тарифы есть разные. Можете выбрать тот, который подходит вам больше. На ряде тарифов у вас вообще будут безлимитные пользование тех или иных моделей. Ну вот здесь без лимита некоторых текстовых моделей на этих тарифов, на с тарифа, начиная с тарифа элит, уже у вас будет безлимит и Veo, и S 2, и Rway, и TP subscaler. Более того, по промокоду Совет 15 можно получить 15% скидку на первую покупку. Переходите по ссылочке в описании и пользуйтесь. GPT

GPT-5.2-Codex для агентного кодинга

5. 2 кодекс для агентного кодинга выпускают. И, ну, вот такого пеликана он сгенерировал. Если смотрите наши выпуски, я периодически вам пеликанов сюда подбрасываю и показываю. Можете, если помните, сравнить. Ну, это так, это больше шуточная история. Вот такие у нас бенчмарки. Чуть-чуть повыше, чуть-чуть получше, чем GPT 52 на SWE Bench, на Terminal Bench. Ну, о'кей. Говорят, что плотно поработали с тем, что держит долгий контекст. Ну, как GPT 52, там тоже был упор на это в релизе. И усилены возможности у модели вот так вот по кибербезопасности, более надёжная для продакшн применений, где нужна защита от всяких инъекций и уязвимостей. А ещё

Codex Skills

добавляют agent skills. Представляете, антропик на этой неделе сделал это открытым фреймворком. Я не знаю, честно говоря, чего это открывать. Это просто маркдау файлы, как нам говорит сам антропик. Ну вот что-то, видимо, открыли, какая-то там лицензия, может накатили, чтобы все могли пользоваться вот без страха потом получить какой-нибудь из катантропика. И Open тут как тут сразу заявляют, что у них Agent Skills тоже будет работать. И в целом я говорил, что они уже добавили что-то похожее на Skills ещё в прошлом выпуске и в chatчат GPT, и в кодекс. Ну а теперь вот всё полноценно у вас пишем промт. Он читает какой-то конкретный скилл. Причём, ну, похоже, тут чуть-чуть получше будет. UI и удобно всё это выделять. Так что да, скилами можно пользоваться теперь и в кодексе. Такая вот интересность. Был

App Store, но в ChatGPT?

анонсирован какое-то время назад Appstore, по большому счёту в рамках чат GPT. Это навd где-то там в середине октября. И вот сейчас это стало доступно всем разработчикам. То есть изначально туда подключили какие-то сервисы в этот Appstore магазин приложений Chat JPT. Убрали так называемые коннекторы. Теперь это вот всё вот на рельсах этих приложений находится. И любой разработчик может создать своё приложение и поддаться вчёт GPT. Это приложение можно будет вызывать в рамках диалога. Там оно будет рендериться, кнопочки, иконочки, интерфейсы, всё это будет доступно обычным пользователям. Так что, если вы разработчик, то есть SDK, вот мы там в Telegram-канале нашем про это на недельке новость эту говорили. Ну и все пользователи тоже теперь как бы спокойно к этому доступ получают. И больше апок там будет появляться. Надо за этим следить, но с другой стороны не уверен. Amazon

Amazon инвестирует $10B в OpenAI и не только

инвестирует 10 млрд в Open и не только Amazon. Ещё Open ведёт переговоры по привлечению 100 млрд инвестиций уже по оценке 830 млрд долларов от разных суверенных фондов. И это вот так называемые циркулярные сделки. Уже вот прямо закрепилось такое такой термин, как паттерн этой индустрии. Open вкладывала 350 млн в компанию Corav, которая купила чипа Nvidia и предоставила вычисление обратно Openi. То есть компания купила кусок, потом как бы сама себе чипы продала. Такие же там были вечеринки из AMD, и с Амазоном, который и вкладывает в компанию, и потом продаёт ей свои эти троиниумчипы. В общем, мне кажется, да, вот эта картинка прикольно отражает ситуацию в высшем слое Кремневой долины. Не уходя далеко

Nvidia Nemotron 3

от этой кожаной куртки, расскажу про NVIDIA Nimatron 3. Это open sourceная модель, которая была выпущена на этой неделе в самом начале. Я даже пытался её скачать, но она мне не пошла, к сожалению. 30 млрд параметров. Моделька всё-таки жирная. Я думал, что мне хватит моих 24 ГБ RAM, но она отказалась работать. Жалко. Модель очень недостойная. Он обгоняет вот эту маленькую GPT OS20B, обгоняет Н 3 на 30 млрд параметров. И вот можете на бенче посмотреть. Ну, чуть-чуть где-то получше и повыше. Никакой-то прорыв, но, э, модель быстрее, это вот стоит отметить до миллиона контекстного окна. Ну и как всегда полный open source. Мета догоняет

Meta догоняет конкурентов

конкурентов в воображении своём, наверное, в мыслях, в надеждах и в желаниях. Две модели будут выпущены от мето. Помните, они пересобрали свою вот эту ээ компанию, свою команду, потому что все бегемот и что там Марик ещё был. Полнейший провал был уметы с этими моделями. Ну вот, может быть, если переключиться с животного мира на ээ растительный и назвать модели манго и авокадо там по фруктам, овощам, то, может быть, будет лучше себя показывать перфомить на бенчмарках лмка. Ну, посмотрим. Стоит учитывать, что команду они пересобрали, но как бы она там уже и начала разваливаться в какие-то моменты. Янкун ушёл и тех, кого они там переманили за бешеные деньги, тоже через какое-то время смотались. Но тем не менее под руководством Александр Н. Это кофounder Scale AI, мета выкупила Scale AI в какой-то момент, э, всё это дело должно вот выпускаться. Думаю, конечно, это как катастрофическое будет давление на компанию, потому что у них огромная аудитория. И, в общем, с моральной точки зрения, не ударить в грязь с лицом будет чуть-чуть посложнее, если бы не было предыдущих факапов. Opel в Gemini

Opal в Gemini

добавляют вот этот вот builder, no cд builder, что-то вообще такое среднее. Добавляют теперь в дмина и все пользователи могут создавать мини-приложения на естественном языке вот через менеджер э games. Это вообще отдельный такой кодбилдер, который можно как бы посравнивать с NAм или можно посравнивать там вот с Chat GPT. У них тоже что-то там в Open Platform было, и мы даже сделали на это обзорчик. Ну, это какая-то более нишевая история, но вот почему-то Google хочет это сейчас. всё-таки вывести из зачем-то, и прямо каждому пользователю, не знаю, у них и в Google Studia есть прекрасный там vipe cд builder. Э зачем вот в дмина всё это запихивать? Если вы вдруг jamной пользуетесь, посмотрите, может у вас это обновление появилось, расскажите, как оно там себя чувствует и нашли ли вы ему какое-нибудь применение. Ну и, наконец

Слово года от Merriam-Webster

слово года от Мэрием Вебстер. Словарь назвал слоп словом 2025 года. Что такое слоп, если вы вдруг не знали? Низкокачественный цифровой контент, который массово сейчас генерируется искусственным интеллектом. Замечательно, мне кажется, картинка. Это отражающая. Вообще история слова продолжительна. Изначально оно значило какую-то грязь или помои или мусор, но сейчас это что-то такое вот у него звучание, как говорит словарь, влаженное что-то, к чему не хочется прикасаться. То он насмешливый, чем испуганный. От мая двадцать пятого года 75% нового веб-контента за предыдущий месяц. использовала какое-либо и в современной технологии продили так называемый сломиy, где массивые контента генерируются в сумасшедших объёмах и монетизируются через рекламу. Как это всё дальше будет развиваться? Будут ли какие-то платформы ограничивать, может быть, и контент? Мне бы лично хотелось, чтобы да, потому что, как по мне, это полный кошмар. Мы так сильно страдали от рилсов, которые снимают молодое поколение. Ну и не только. Оттуда ещё всё это X2, X3, X70. — Ты привет. Это Игорян, и сегодня мы, как и всегда, поговорим про новости креативных нейроседей за последнюю неделю. Эта неделя была, ну, самой, наверное, насыщенной в этом году. Релизов было так много, и многие из них пришлись даже на один день. Короче, будет в этом выпуске много новостей в онлайнеров, на которых я не буду сильно останавливаться, просто упомяну, потому что они заслуживают упоминания. Но останавливаться на них не получится, потому что иначе выпуск будет пару часов, наверное, по времени. Одна из главных новостей последней недели, которую, скорее всего, вам уже начал рассказывать мой соведущий дядя Д-ход GPT Image полтора. И эта модель, что логично, является прямым конкурентом Нанобана. По заявлениям создателей и на самом деле по многим бенчмаркам, модель даже Нанобанану обгоняет, причём вот так вот нехило обгоняет. И даже если зайти на более авторитетную арену нейросетей, всё равно она выигрывает унано бананы. хоть уже и не с таким отрывом, но очень приличным отрывом. Из смешного можете посмотреть на цены API запросов, которые стоят на один доллар за 1. 000 изображений дешевле, чем nanoban Pro. Остальное же можете видеть сами. Я разбирал это, естественно, в своём Telegram-канале. Креативный совет. Вот взяли обложку Наруто, заменили персонажей на SEO корпорации. Да, вроде выглядят неплохо. Такие вот инфографики приятные делает. С текстом работает шикарно. Но всё-таки модель по моим ощущениям хуже, чем nно банана. То есть вот справа Altman, слева Altman, справа Gemini, слева GT Image. Ну и Alteman

GPT Image 1.5

конечно, намного меньше похож на левый картинки. Плюс даже циферблат у Биг Бена немножечко умер. Кстати, сразу же после этого, чуть ли не на следующий день, у нас вышел FL Max или Flux Max. И расположился он прямо за нанобона Pro с небольшим отрывом. Я опять-таки об этом делал посты, делал какие-то генерации, проверял, как оно работает, и, конечно, лицо перенеслось моё хорошо, но смотрите, что стало с рукой. Я думал, что мы проблему генерации рук уже прошли. Ну, и, в общем, я решил посравнивать, как же работают три вышедшие в один месяц лучшие модели для генерации изображений во всём, между прочим, мире. Попросил я сделать такой вот плакат про историю России XX века. Опять-таки, все промпты можете найти в моём Telegram-канале. И такую вот шикарную инфографику сделала Banana Pro. Он же Gemini 3 перенёс картины. Царевны, лебедь, чёрный квадрат, рабочай колхозницы. Всё, короче, правильно перенесено. Всё существующие работы. Есть небольшие опечаточки, конечно же, но я их, честно говоря, сейчас даже не могу найти. Они как будто бы тут были, но реально нету их. Короче, на в прошлый раз мне показалось, что были какие-то небольшие неточности. Сейчас я их найти не могу. И выглядит, по мне, всё, конечно, очень круто, стильно вообще распределено, всё понятно подписано по этапам. И этапы тоже подписаны достаточно точно. GPT полхай. Х - это улучшенная версия, которая, я думаю, вы уже знаете, чем отличается после ролика дяди сделал, в общем, такую красоту. Э, неплохо, но работы не существующие. Все, кроме чёрного квадрата, который, ну, типа чёрный квадрат просто нарисовался. Но это, конечно же, не картина чёрный квадрат, а просто чёрный квадрат. И затем идёт Flx 2 Max. У Флакса самые

Flux 2 Max

большие проблемы из всех моделей. С генерацией текста. Самая какая-то не классная инфографика. Периодов меньше. Примеры картин выдуманы. Также я давал другие промты для сравнения. Можете перейти в канал, чтобы опять-таки познакомиться с результатами. Но вердикт у меня достаточно однозначный. Nanobanana Pro всё ещё лучшая модель для редактирования изображений. Помимо этого вышел Cedens 1 Pro. И очень странно он вышел, на самом деле, потому что доступен он только на сайте Dreaminia, как модель Dreaminia AI Video 35 Pro. Модель вроде как хорошая, но клинк она всё ещё не переплюнула, и поэтому тут я останавливаться подробно не буду. Ждём релиза Sedence 2. 0. А вот более интересный видеорелиз - это One 2. 6. Из примечательного модель может генерировать видео до 15 секунд в 1080p. Генерирует, естественно, видео со звуком. Есть странная возможность генерировать даже видео, основываясь на звуке. То есть под запись голоса, например, можно сгенерировать липсинг. Видео слипсингом. Это достаточно классные функции, в особенности учитывая, что ваншот можно генерировать до 15 секунд. И если вам интересно подробное видео про One 2. 6, то пишите в комментариях. Сделаем обзор. Модель, правда, достаточно интересная. Я далеко не про все её приколы рассказал. Помимо огромного количества релизов от клинк, которые у нас на прошлых неделях были, смотрите прошлые новости, там реально много всего. И ролик, кстати, про клинк тоже я делал. Вышел 2. 6 Voice Control. И это возможность создавать ваши голосовые модели. То есть у вашего персонажа, как, например, в CO всоре, будет всегда один и тот же голос. Работает тут это, кстати, лучше, чем в сосоре. По заявлениям тех, кто это потестил, я ещё не добрался, потому что на этой неделе у нас был поток по AI видео. И очень, я, конечно, устал это всё проводить. Неделю

Seedance 1.5

эфиров, домашек, общения в чате, ответов на вопросы и так далее. Поэтому времени тестировать действительно особо не было. Помимо этого, клинк также выпустил Motion Control, то есть возможность, грубо говоря, через Ctrl вот копировать действия из видео на другие. И это работает очень круто, лучше, чем у

Wan 2.6 Video

какого-либо другого конкурента в нише. Если вам нужно, короче, видео перенести с одного видео на другое, то, очевидно, это Cle motion Control. То есть и пальцы, и всё остаётся на своих местах. Конечно, работает всё ещё идеально, артефакты есть, но лучше, чем вот это, вы не найдёте. Ама выпускает R3 Modify в дриммашине, то есть возможность редактировать видео, которое в целом и так уже было, но теперь эта возможность улучшена. Есть ратер референсы, есть кифреймы. Ну и вроде как выглядит это неплохо. Тоже бы хорошо было бы это всё с клингом сравнить, но пока что я больше шумихи вокруг клинга, конечно, слышал, чем вокруг Лумы. Также на Artificial Analysis Арене, про которую я говорил в начале, появилась некая модель Сили для

Kling 2.6 Voice Control

генерации видео. Люди подозревают, что это Viно, и модель реально выдаёт очень крутые визуалы. Конечно, посмотрите на это, это красота. Очень стабильно, очень хорошо. Артефактов катастрофически мало. Я бы даже сказал, что их вообще нету. Ну, в частности, на этом видео. Ждём релиза. АмеA, запрещённая террористическая организация, между прочим, выпускает Сэм аудио. —

Kling Motion Control

— Взяли, поняли, да, и отделили гитару от всего аудиоряда. — Они идут чуть дальше, чем Суна, которые создали генерацию аудиодорожек. Тут вы можете сгенерировать песню теперь, да, и из этой песни уже все аудиодорожки извлечь и их как-то по отдельности редактировать. Короче, крутая достаточно штука. Можно с натяжкой сказать, что это такая нанобана для аудио. Но пока что, конечно, уровень чуть-чуть не догоняет

Luma Ray Modify

нанобанану. То есть штука хорошая, но ждём, пока будет следующая итерация. Вот она, скорее всего, уже будет называться нанобананой в мире аудио. Пока нет. 11 Labs поддержка для Ватсаппа. Теперь ещё проще будет ээ интегрировать каких-то агентов в WhatsApp. Но кого вообще это парит? В России Ватсаппа уже давно нету. А Spotify, который, по моему убеждению

Sicily: Генерация видео

глубокому ещё есть в России, создаёт создание плейлистов по промпту. Пишем промпт, который нам нужен, который описывает плейлист, и создаётся плейлист с песнями по этому промпту. На прошлой неделе, кстати, вышел ещё вот этот замечательный релиз от Google Lри. Другая модель для генерации звуков. И между прочим, ничего себе, это так-то это одна из лучших моделей по генерации

Meta SAM Audio

звуков, даже лучше, чем Audio она на аренах. И в общем, лири - это такая среда. Мы тоже под неё, кстати, видео отдельное делали уже полгода назад, которая находится в Google Studio, поэтому с ней можно делать свои приложения. И вот такая вот красотища появилась. Короче, нейросе генерирует саундтрек для того, что вы снимаете на камеру. То есть вот идёте по ээ по лу этому бульвару. И зачем это нужно, я не знаю, но, наверное, зачем это нужно для влогов, может быть, автоматически генерировать звуки. Вве - это, между прочим, лучший интерфейс для работы с графикой. Просто по удобности, конечно, генерирует не так хорошо, как нанобана, но вот гениальный UI абсолютно у них добавляет удаление заднего фона и upscale. Всё работает не прямо идеально, но нормально. В нанобанане, например, удаления фона всё

ElevenLabs для WhatsApp

ещё нет. Ами добавляет возможность рисовать э поверх изображений прямо внутри нанобана. Давно этого не хватало. Хорошая функция промптить, естественно

Плейлисты Spotify по промпту

так и раньше можно было, но теперь вот внутри прямо нанобана, хотя у меня эту возможность ещё не добавили. Классный resе, которым ещё, естественно, нельзя пользоваться, но вот модель, которая по загружаемому видео создаёт по видео, то есть point of view от другого персонажа внутри этого видео. Да, вы поняли, в чём

Google VideoFX: Camera2Music

прикол? И это достаточно крутой, конечно, революционный способ, который поможет очень хорошо видосы генерировать нам и с видеоматериалами работать. В частности, подумайте в VR-индустрии какую это революцию произведёт. Вообще можно будет стать персонажем абсолютно любого фильма. Microsoft выпускает Trailers 2, модель для генерации тридэшки с очень высоким разрешением. Это, конечно, не в отличие от всех моделей, что я пока что видел с высоким разрешением. Тут, конечно, очень классно то, что полигонов мало. Лишних полигонов вообще как будто бы особо нет. То есть гладкие текстуры, несмотря на

Reve: Upscale и удаление фона

то, что разрешение высокое. Но я сам не тридшник. Тридшники, отпишитесь, насколько вам этот глиз понравился. И составляет ли он конкуренцию нынешнему лидеру в генерации 3D моделей Хеньюану 3. 0. Кстати, не Хеньюану, а Hy. Мы это в прошлом выпуске говорили, но я вот всё гадал, как же правильно произнести новое название. И у нас есть ответ. Слушайте его.

Рисование в Midjourney (Banana)

Как будто бы они это сделали для того, чтобы было проще произносить, но вообще

POV Video из видео

понятнее не стало. Теперь знаем, что хай. Но и до этого Ханьюан тоже, как будто бы я знал, как произносить. А те, кто это в первый раз увидят, вряд ли разберутся, поэтому как будто упростили, но не особо. И в общем, они не просто выпускают, а open source модель пол World для генерации миров, которая вот такую память имеет. Видите, слова все остались на доске, красота. Можно вот по мирам двигаться и, ну, внутри них существовать. В общем, метавёрсы у нас вот вот уже где-то прямо суперрядом. Точнее, они-то есть на самом деле у того, у кого есть шлемы, но и

Microsoft Trellis 2

создавать их становится всё проще и проще. AD Card выпускает Luci Motion. Тут мало что вообще стоит говорить. Вот такая возможность промптить, которая есть и в VO3, и в клинге, где её только нет на самом деле. Но Decart - это в целом неплохая среда, которая достаточно забавные функционалы реализует, хоть они там и не суперкачественно реализованы. А ZI выпускает realtime video generator, который вот генерирует видео, в частности, с персонажами в реальном времени. То есть пишем промт и персонаж говорит

Как произносить Hunyuan

говорит: "Это очень хороший результат для анимации говорящего, в общем, такого 3D мультяшного персонажа. В общем, Z AI.

Hunyuan 3D World

Красавчики, как и всегда". Только недавно мы поговорили про то, что Квен делает лейауты фотошопа, но на одной картинке. Через неделю у нас появилась модель, которая делает лейауты фотошопа по слоям, но не очень качественно. И вот теперь нам говорят, что Image Layered грядёт. И это модель, которая уже будет создавать изображения, разделённые по слоям, и качественно выглядящие. При этом, короче, красота. Пока что этого нету, но ждёт нас в ближайшем будущем.

Decart Lucy Motion

Что-то лампечке стало грустно, но ничего страшного, потому что у нас тут десертик. Самое сладенькое я ставил наконец- это Syn React 1. На самом деле Syn - это очень крутой сервис для липсинга. Наверное, даже лучший сервис для липсинка, который есть у нас в индустрии. И React 1 - это возможность управлять вашим видео так, как никогда раньше. Редактируйте, да, редактируйте эмоции, редактируйте, как то что говорит, редактируете слова, которые произносят. То есть можно заставить любого персонажа, любого фильма говорить что угодно. И главное, вы редактируете точечное лицо. Вы редактируете губы, лицо и движение головы. Можете переносить их с одного видео на другое. И всё это оченьоченьочень точечно

Z AI Realtime Video

указывается. Вы можете сказать, что это сейчас был не идеальный пример Липсинка? И, конечно же, это так, потому что, чёрт побери, это суперэкспрессивная игра Леонардо Дикаприо, которая переведена на другой язык. И губы совпадают, неплохо совпадают с тем, что говорится. То есть там скорее губы не совпадают с его головой немножечко периодически, но такое не может сделать ни одна другая модель. Суперэкспрессивная речь

Qwen - Слои в генерации

суперэкспрессивная игра, актёрская, плюс движение головы. И всё это липсинкается, ну, плюс-минус нормально. То есть с точки зрения перевода, например, это уже нам, ну, добаворимая штука. Они специально в презентации показали очень сложную задачу. И за это, кстати, им огромный респект, потому что обычно все показывают, как вот с простыми задачами наша модель справляется и как, смотрите, идеально не придраться. А тут они

Sync React 1: Липсинк

показывают очень сложную задачу, потому что то, что с простыми они справляются, это уже всем и так понятно. В общем, это были все новости прошедших недель. Как-то будто бы я даже достаточно быстро уложился, потому что ни на чём суперсильно не фокусировался. Если вам интересно, чтобы я сфокусировался на чём-то прямо поглубже, то пишите обязательно в комментариях, и мы сделаем отдельный ролик. У нас вот ещё до Нового года столько времени, столько роликов можно снять. Не забывайте про поток и разраб, ссылочку на который вы найдёте в описании. Ставьте лайк, подписывайтесь, если вам понравилось это видео и вы хотите видеть новые. А я советую, потому что реально такое время, Дикий Запад, постоянно что-то новое выходит. Мы, в свою очередь, помогаем вам за этим следить. Это был Продсовет, и увидимся на следующей неделе. Пока.

Другие видео автора — Продуктивный Совет

Ctrl+V

Экстракт Знаний в Telegram

Экстракты и дистилляты из лучших YouTube-каналов — сразу после публикации.

Подписаться

Лучшие методички за неделю — каждый понедельник