Sora AI — AI Video Editing is FINALLY Here!
14:32

Sora AI — AI Video Editing is FINALLY Here!

AI Master 23.02.2024 8 839 просмотров 163 лайков обн. 18.02.2026
Поделиться Telegram VK Бот
Транскрипт Скачать .md
Анализ с AI
Описание видео
#sponsored by 🚀 Become an AI Master – All-in-one AI Learning https://aimaster.me/pro 📹Get a Custom Promo Video From AI Master https://collab.aimaster.me/ In this video we will talk about a new product from OpenAI - SORA AI. This AI tool allows you to create videos of INCREDIBLE quality compared to other AI tools. What is the AI revolution for video editors? How to create video with AI and much more will be discussed in today's video. It seems like it's time to bid farewell to Davinci Resolve, Final Cut Pro or even Adobe Premiere... #ai #openai #sora

Оглавление (3 сегментов)

  1. 0:00 Segment 1 (00:00 - 05:00) 795 сл.
  2. 5:00 Segment 2 (05:00 - 10:00) 750 сл.
  3. 10:00 Segment 3 (10:00 - 14:00) 682 сл.
0:00

Segment 1 (00:00 - 05:00)

Итак, давайте углубимся в Open AI Sora, посмотрим, как она работает, обсудим возможность её использования в Unreal Engine и то, как она навсегда изменит киноиндустрию. Что же такое Sora? Это модель искусственного интеллекта, которая может создавать реалистичные и оригинальные сцены из текстовых инструкций, или, говоря более техническим языком, это модель преобразования текста в видео. Open AI, наряду с впечатляющими видеороликами, которые мы рассмотрели, также выпустила исследовательскую работу, где более или менее объяснила конвейер обработки. Сначала Sora берёт видео и сжимает его в так называемое «загруженное пространство». Загруженное пространство — это своего рода волшебный инструмент сжатия, который берёт что-то сложное и сводит это к его сути. Для Sora это означает взять видео со всей этой визуальной и временной сложностью и сжать его в более простую, управляемую форму. Это не означает, что видео становится короче или менее качественным, а скорее, оно преобразует видео в форму, с которой программе легче работать. После этого сжатия Sora получает множество патчей, каждый патч захватывает часть изображения или момент видео, например... Здесь, здесь и так далее. Этот подход не совсем нов, он уже использовался раньше, чтобы помочь машинам лучше распознавать и понимать изображения, но Sora выводит его на новый уровень, применяя к видео, которые по своей природе более сложны, поскольку в них добавляется измерение времени. Одни и те же фрагменты должны каким-то образом оставаться относительно согласованными на протяжении всего видео. После того, как Sora сжала видео в это пространство Laden и разбила его на фрагменты, она начинает обучение в процессе. Но все это происходит, так сказать, за кулисами. С нашей точки зрения, это волшебство. Так как же она это делает? После завершения обучения Sora объединяет фрагменты в некие размытые изображения с низким разрешением. Я называю это фигурами, потому что на этом этапе вы буквально ничего не видите, кроме бессмысленного набора символов. Когда Sora создает что-то новое, она не просто случайным образом соединяет фрагменты, а использует то, чему научилась во время обучения, чтобы расположить эти фрагменты таким образом, чтобы это имело смысл, основываясь на наблюдаемых ею закономерностях и правилах. Регулируя расположение этих фрагментов, Sora может создавать видео разной длины, разрешения и соотношения сторон, а затем размытые и шумные. Генерируются изображения, ИИ переключается на очистку от шума, по сути, на каждом шаге он предсказывает, как должна выглядеть четкая версия. Это итеративный процесс. Система использует трансформеры, которые представляют собой своего рода небольшие модели, предназначенные для работы с последовательностями. Шаг за шагом система очищает пятна, сохраняя при этом согласованность. Она делает это много-много раз подряд. Посмотрите на это видео с щенком. Изображение Баса с пятнами не выглядит чем-то особенным, но после четырех шагов вычислений и очистки от шума собака выглядит намного лучше и более согласованно. Если мы поставим два видео рядом, мы увидим, насколько похожи они по постановке и кадрированию. Затем, после 302-го раунда вычислений, видео выглядит очень чистым, согласованным и практически фотореалистичным. Я все еще вижу артефакты и нереалистичные движения, но это со временем улучшится. Что, на мой взгляд, наиболее впечатляет в Sora, так это эта согласованность. Все мы помним видео, где Уилл Смит ест спагетти, оно было размытым, неряшливым и согласованным во всех отношениях довольно ужасным. Впечатляюще для того времени, но все же ужасно. Sora, с другой стороны, Он умело жонглирует элементами видео и умудряется удерживать всё на своих местах, даже объяснение, которое я дал, не совсем объясняет, как ему удаётся сохранять согласованность изображений от кадра к кадру, потому что, если вы когда-либо пытались создать что-то с помощью Dolly или подобных генераторов изображений, вы знаете, что очень сложно поддерживать один и тот же стиль и компоновку. Просто подумайте обо всём этом огромном количестве видео, которые использовались для обучения Соры. Каждый кадр приходилось разбирать на отдельные части, анализировать, упрощать и помещать в огромную библиотеку патчей. Но есть ещё одна вещь, которая меня впечатляет ещё больше: физические взаимодействия и основанное на физике освещение в этих видео. Как ИИ может так точно и последовательно рассчитывать освещение и, например, движение жидкости в этих видео? Именно поэтому люди начали предполагать, использует ли Сора движок Unreal Engine. И я нашёл пару очень интересных твитов от Джима Фана, научного сотрудника и руководителя отдела агентов ИИ в Nvidia (да, той самой Nvidia). Позвольте мне зачитать вам пару интересных моментов. Во-первых, он объясняет, кто такая Сора, и этот взгляд на вещи представляет интересную перспективу: Сора — это Физический движок, управляемый данными, — это симуляция множества миров, реальных или вымышленных. Симулятор изучает сложные процессы рендеринга, интуитивно понятную физику, логику долгосрочного горизонта и семантическую основу, используя шумоподавление и градиентный спуск. Я не удивлюсь, если Su обучается на большом количестве синтетических данных. Он работает в Unreal Engine 5, это должно быть так. Я не уверен насчет последних слов, потому что они звучат немного как запугивание, но Джим наверняка знает об этом гораздо больше, чем я. Видимо, некоторые люди не поверили, что Sora выполняет всю эту сложную обработку и рендеринг, как предположил Джим, поэтому ему пришлось дать
5:00

Segment 2 (05:00 - 10:00)

более традиционное объяснение того, как работает Sora. Sora — это сквозная модель трансформера, которая принимает на вход текст, изображение и напрямую выдает пиксели видео. Sora неявно изучает физический движок в параметрах нейронной сети с помощью градиентного спуска на основе огромного количества видео. Здесь он говорит то же самое, что я говорил несколько минут назад: Sora не выполняет никакого рендеринга, как Unreal, просто учится на миллионах кадров, как работает направленное освещение, как работают жидкости, как появляется белая пена, когда разбиваются волны. к берегам и так далее, а затем он просто использует все эти биты как встроенные блоки, чтобы составить из них что-то новое, как огромный набор Lego без инструкции. Но самое интересное начинается там, где gy star анализирует запрос и результат, и это один из самых интересных анализов, которые я читал до сих пор. Посмотрите это видео и напишите в комментариях, что, по вашему мнению, в нем наиболее впечатляет. Запрос к этому видео звучит как фотореалистичное видео крупным планом двух пиратских кораблей, сражающихся друг с другом, плывущих внутри чашки кофе. Теперь давайте посмотрим, что обнаружил Джим. Симулятор создает два изысканных 3D-объекта: пиратские корабли с разным оформлением. Сора должен решить задачу преобразования текста в 3D неявно в его загруженном пространстве. 3D-объекты постоянно анимируются, пока они плывут и избегают траекторий друг друга. Гидродинамика кофе, даже пена, образующаяся вокруг кораблей. Моделирование жидкости — это целая подотрасль компьютерной графики, которая традиционно требует очень сложных алгоритмов и уравнений. Фотореализм почти как рендеринг с помощью В симуляторе трассировки лучей учитывается малый размер чашки по сравнению с океаном, и применяется T-сдвиговая фотография для создания эффекта миниатюры. Семантика сцены не существует в реальном мире, но движок всё равно реализует правильные физические правила, которые мы ожидаем. Просто подумайте о сложности всех процессов, описанных Джимом: преобразование текста в 3D, расчет динамики жидкости и моделирование, всё это реалистично, с применением специального стиля и даже масштаба в физике. Но всё это, что упомянул Джим, — это шаги, которые предприняли бы создатели-люди, если бы хотели создать подобное видео. Сора же, с другой стороны, ничего подобного не делала: она не рассчитывала динамику жидкости, не создавала 3D-модели кораблей, не вычисляла всю эту физику. Она просто брала огромное количество визуальных данных, разбирала их на отдельные фрагменты, а затем объединяла всё это в одно видео. Скорее всего, у Соры были видео с пиратскими кораблями, которые служили источником вдохновения; у неё были видео с кораблями, взаимодействующими с водой; видео с кофейными кружками, и даже все эти видео были стилизованы под миниатюры. Она знала, что пиратские корабли не могут существовать внутри кофейной чашки. Это предложение не имеет смысла в реальном мире, поэтому, на мой взгляд, был выбран художественный, образный подход. Все это звучит даже более впечатляюще, чем то, что упомянул Джим. Но действительно ли Sora использует Unreal Engine 5 для генерации этих видео? Джим считает, что сгенерированные UE5 пары добавляются в качестве синтетических данных в обучающий набор, и я с ним согласен. Вполне возможно, что разработчики предварительно смоделировали множество взаимодействий и ситуаций, основанных на физике, а затем просто предоставили ИИ возможность учиться на этом. Все это, на мой взгляд, может стать революцией в кинопроизводстве и создании контента в целом. Я хочу, чтобы вы подумали о трех вещах: стоковые видео, визуальные эффекты и любительское кинопроизводство. Я думаю, что выход Sora навсегда изменит эти три вещи. Возьмем, к примеру, стоковые видео. В настоящее время рынок огромен, и каждый видеомейкер может продавать свои видеоматериалы онлайн. У меня лично большой опыт в этом, и я активно продаю все, что должен. Но независимо от того, сколько материала есть, всегда будет проблема поиска чего-то, соответствующего вашим потребностям. Даже для моих видео на YouTube часто требуется много времени, чтобы найти подходящие дополнительные кадры. Выпуск Sora в открытый доступ мгновенно уничтожит все платформы для стоковых видео, потому что зачем искать подходящие кадры, если их можно просто сгенерировать, сохранив ту же эстетику, то же освещение, персонажей и так далее? Зачем платить за дорогую подписку на такие сервисы, если можно использовать открытый ИИ и быть в авангарде технологий? Всем этим стоковым сайтам придётся покупать API для Sora и предлагать функцию генерации видео, чтобы оставаться актуальными. Но зачем я упомянул VFX? Возможно, Sora не заменит VFX полностью, но она определённо ускорит процесс. В среднем, чтобы создать кадр с VFX и, например, что-то добавить в него, нужно сделать много всего: множество отдельных съёмок, ротоскопирование, композицию, подбор освещения, добавление зернистости и так далее. И самое худшее — пока вы не сделаете финальный рендер, вы не увидите, как будет выглядеть кадр. Компании тратят миллионы долларов на переделку одних и тех же кадров снова и снова только потому, что какая-то концепция звучит здорово, но на
10:00

Segment 3 (10:00 - 14:00)

самом деле не выглядит впечатляюще или даже не осуществима. Благодаря Sora, киностудии и режиссеры смогут просто загрузить в алгоритм видеоматериалы и попросить его добавить необходимые эффекты, как в примере с объединением двух видео, или же просто загрузить множество концепт-артов и попросить ИИ анимировать все это. Это значительно упростит процесс разработки визуальной части фильма, и отдел визуальных эффектов будет в восторге от возможности выполнить больше работы за меньшее время. Но лично меня гораздо больше вдохновляет любительское кинопроизводство. Начинающие режиссеры и творческие люди обычно сильно ограничены в плане доступных им технологий. Среднестатистический ютубер с небольшим каналом не может тратить много денег на дорогостоящие эффекты в своих видео, а начинающие кинематографисты не могут в полной мере выразить свою креативность, в основном потому, что у них нет бюджета на наем аниматоров, специалистов по спецэффектам и так далее. С Sora они смогут создавать фильмы, которые хотят, видеть свои идеи в действии, рассказывать свои истории, не будучи постоянно вынужденными сокращать масштабы, чтобы снизить бюджет. Sora действительно станет монументальным скачком в мире кинопроизводства, открывая новые возможности для еще большего числа талантов. Не терпится воплотить все свои идеи в жизнь. К сожалению, мы пока не знаем, когда Sora выйдет в открытый доступ. Это может произойти через несколько месяцев или даже полгода. Сроков нам не предоставили, и мы также не знаем, как будет осуществляться дезактивация монетизации. Возможно, нам понадобится отдельная подписка для использования Sora, или с нас будут взимать плату за каждый кадр в секунду или минуту видео. Я могу только представить, насколько дорого обходится обслуживание серверов для чего-то вроде Sora, потому что это гораздо сложнее, чем Dolly. Dolly генерирует по одному изображению за раз, а Sora должна генерировать изображение за изображением и поддерживать их согласованность и сходство. Поэтому я почти уверен, что это не будет включено в существующую подписку за 20 долларов, и время обработки также будет довольно долгим. Не думайте, что вы сможете сгенерировать видео за несколько секунд, как это происходит с изображениями. Допустим, мы хотим сгенерировать 60-секундное видео. Dolly требуется около 3 секунд для генерации одного изображения. Умножьте это на минимум 24 кадра в секунду, и в общей сложности только генерация изображения должна занять около Даже если предположить, что генерация каждого нового кадра занимает меньше времени, поскольку они очень похожи, и разделить время пополам, всё равно придётся долго ждать. Поэтому, если OpenAI каким-то образом сможет сократить это время до безумия — менее 5 минут, это, безусловно, обойдётся в кругленькую сумму. Но если вы занимаетесь видеопроизводством, то увидите, что свобода, которую даёт Sora, стоит каждой копейки, по крайней мере, для меня. Мне также кажется очень интересным обсудить этический аспект всей этой генерации видео. Когда вышел видеоролик с Уиллом Смитом и Иден Спагетти, мы не особо боялись за свою личность, но теперь генерация ИИ настолько хороша, что обычный Наблюдатель ничего не заметит, и это открывает огромный потенциал для фейковых видео. Помните все эти шпионские фильмы или фильмы о тайных агентах, где герой тратит много времени на планирование операций по сбору компрометирующих видеоматериалов о каком-либо субъекте? Теперь всё, что потребуется, — это одна текстовая подсказка в Sora. По крайней мере, я надеюсь, что у системы есть какой-то механизм защиты, который не позволит генерировать видео с реальными людьми. Мне также любопытно, как система отреагирует на описание... Речь идёт не об имени, а о человеке, и ответ на этот вопрос — вот что действительно важно сейчас. Что, если бы кто-то мог просто загрузить вашу фотографию в интернет, а затем сгенерировать кучу видео с вами? Вам бы это понравилось? Лично я хотел бы, чтобы моя личность была в безопасности. Мне также интересно, выпустит ли Open AI API Sora для разработчиков, как это произошло с Chad GBT. Что-то мне подсказывает, что им следует держать эту технологию под полным контролем, потому что как только технология просочится в сеть, остановить это будет невозможно без полного контроля над такой мощной системой генерации видео. Риск слишком велик. Возможно, я слишком тороплюсь, но я точно знаю, что Sora — это революция, это следующая большая вещь, которую ждал мир ИИ. Всё, что нам нужно сделать сейчас, это дождаться её выпуска. А если вы хотите увидеть видео, где я её тестирую, обязательно подпишитесь. Спасибо за просмотр и до встречи в следующем видео!

Ещё от AI Master

Ctrl+V

Экстракт Знаний в Telegram

Транскрипты, идеи, методички — всё самое полезное из лучших YouTube-каналов.

Подписаться