Нейросети генерируют видео: как это работает и где попробовать самому

За последние два года нейросети значительно продвинулись в создании и генерации картинок, однако в сфере видеоматериалов пока есть определенные проблемы, которые требуют дальнейшего улучшения.

Различные компании представляют инновационные модели для генерации, однако доступ к ним остается ограниченным. Получить приемлемое качество видео пока является сложной задачей, поскольку ролики часто имеют низкое качество и обладают многочисленными артефактами. Крупные компании же стремятся сохранить конфиденциальность своих алгоритмов, и как следствие, в единственной действующей открытой нейросети пользователи создают смешные и абсурдные мемы, что затрудняет их применение для других целей.

Разобрались, как работает генерация text-to-video игде попробовать ееуже сейчас.

Что вы узнаете:

Как работает технология text-to-video и что она представляет
Разнообразные модели генерации видео
Платформы, где можно создать видео
БЕСПЛАТНЫЙ КУРС H3: Как быть взрослым
И независимым. Разбираемся в налогах и правах, ищем жилье и оплачиваем коммуналку Изучить

Что такое text-to-video генерация и как она работает

Алгоритмы создания видео представляют собой более сложный процесс по сравнению с алгоритмами генерации статичных изображений. В первом случае необходимо сгенерировать одно изображение на основе миллионов других, а во втором требуется создать последовательность связанных и быстро сменяющих друг друга картинок. Например, для создания пятисекундного видео с частотой 24 кадра в секунду потребуется создать и использовать 120 изображений.

Годом, в котором исследователи впервые осуществили генерацию видео на основе текстового описания, стал 2022. В то время множество компаний представили свои алгоритмы, способные создавать видео с использованием различных подходов.

Стандартные диффузионные модели применяются в следующей последовательности: сначала к изображению добавляется шум, постепенно увеличивая его количество, пока изображение полностью не станет зашумленным. Затем эти зашумленные изображения объединяются парами, создавая пары "исходное изображение - зашумленное изображение". На основе таких пар формируется датасет, на котором обучается нейросеть, в состоянии делать обратную операцию: создавать изображение на основе шума. Именно так функционирует нейросеть Stable Diffusion, предназначенная для генерации изображений.

Когда речь заходит о генерации видео, процесс работает следующим образом: платформа Make-A-Video от компании Meta использует нейросеть, которая на основе текстового запроса превращает его в векторное представление данных, а затем передает декодировщику. С помощью диффузионного метода декодировщик создает не одно, а целых 16 изображений, обеспечивая их гармоничную связь между собой. Затем этот набор кадров наделяется повышенным разрешением и объединяется в видео продолжительностью несколько секунд. Шаг за шагом, Meta удивляет своим технологическим прогрессом, хотя стоит отметить, что их деятельность запрещена на территории РФ из-за ее признания экстремистской.

Профессиональные услуги копирайтера предоставляются для создания качественного и уникального контента на различные тематики. Наши специалисты обладают высоким уровнем навыков и опыта в написании текстов, что позволяет нам гарантировать высокое качество выполнения заказов. Мы всегда готовы учесть все ваши пожелания и требования, чтобы обеспечить наилучший результат. Нашей целью является предоставление клиентам оригинального и увлекательного контента, который привлечет внимание аудитории и способствует достижению их целей. Вы можете полностью доверить нам создание текстов, мы внимательно изучим все детали и гарантируем вам выполнение работы в указанные сроки.

Improve your copywriting skills with Make-A-Video! Our innovative approach focuses on the powerful combination of "text-image" pairs. But that's not all - we took it a step further by training the cutting-edge neural network, Imagen on Google, using the diffusion model, and exposed it to a whole new level of training with "text-video" pairs. Experience the ultimate in creative potential and take your copywriting game to new heights with Make-A-Video and Imagen on Google.

Сложные модели объединяют в себе несколько алгоритмов, включая нейросеть Phenaki, разработанную Google, которая способна генерировать видео. Эта модель использует кодировщик и нейросеть-трансформер для достижения результатов. Кодировщик выполняет преобразование видео в токены, то есть сжатые данные, содержащие информацию о содержании видеоролика. После этого нейросеть-трансформер анализирует текстовый запрос и создает видеотокен, который в конечном итоге превращается в сгенерированное видео, идеально соответствующее поставленному запросу.

При использовании нейросети ChatGPT возможно создание длинных видеороликов продолжительностью до нескольких минут. При этом важно подчеркнуть, что такие ролики требуют детального описания сцен, в отличие от коротких диффузионных моделей. В процессе обучения Phenaki использовались пары "текст-видео" и "текст-изображение".

Выступаю в роли хорошего копирайтера, а сам текст выглядит следующим образом:

Схема работы Phenaki. Источник: arXiv.org

Какие модели генерации видео существуют

Множество моделей остаются недоступными для широкой аудитории, поскольку они тестируются в закрытом режиме внутри компаний. Например, Google с опасением относится к возможности негативного использования технологии пользователями, такими как создание фальшивых видео или порнографических дипфейков.

Проблема авторских прав остается актуальной и влияет на различные области, включая обучение искусственного интеллекта на видеоматериалах, принадлежащих разным правообладателям. Аналогичные сложности столкнулись разработчики нейросетей, способных генерировать изображения. Компания Stability AI, ответственная за разработку Stable Diffusion, оказалась под угрозой судебных исков о нарушении авторских прав из-за использования изображений, принадлежащих художникам.

Вот какие нейросети уже показали исследователи.

В мае 2022 года была представлена открытая нейросеть CogVideo, разработанная в Китае. Она обладает уникальной способностью создавать очень короткие видео с частотой восемь кадров в секунду. Для генерации содержимого нейросеть принимает как текст, так и изображения. Если вы хотите узнать, как правильно формировать запросы к таким нейросетям, включая Midjourney и Stable Diffusion, вы можете ознакомиться с подробностями здесь: [ссылка на статью].

Для ознакомления с функционалом демонстрационной версии, рекомендуем посетить наш веб-сайт, где представлена возможность протестировать демо. Однако стоит учесть, что генерация гифки моделью занимает всего лишь одну секунду и включает в себя четыре кадра. Важно отметить, что данная нейросеть старого образца и демонстрирует лишь средние результаты, а при сложных запросах может генерировать неопределенный хаос.

Представляем вам инновационную разработку Meta - нейросеть Make-A-Video, способную мгновенно создавать короткие видеоролики. Благодаря уникальным возможностям нейросети, вы можете получить ролик продолжительностью не более пяти секунд, сохранив при этом низкое качество. Используя текстовое описание, а также изображения и видео, данная технология позволяет вам воплотить в жизнь самые оригинальные идеи.

Компания продемонстрировала тестовые видеоролики в низком разрешении с видимыми артефактами, несглаженной анимацией и размытыми объектами. Однако доступ к модели пока не был предоставлен, хотя некоторые разработчики уже успели включить себя в список ожидания.

Создаем видео в Make-A-Video, где собака, одетая в захватывающий супергеройский костюм с ярко-красным плащом, изумительно парит в небесах. Получить уникальное видео только на makeavideo.studio.

Source: Imagen Video.

In October, Google unveiled a groundbreaking neural network capable of generating videos in stunning 1280x768 pixel resolution, at a seamless 24 frames per second, with durations of up to three seconds. This remarkable feat is made possible by the innovative Imagen diffusion neural network, renowned for its ability to create stunning images.

Когда дело касается создания видео с помощью нейросети, ни один процесс не бывает совершенным. В таких случаях, много артефактов и шума могут делать итоговое видео непригодным для использования. Однако, несмотря на это, компания, разработавшая нейросеть Kandinsky 2.2, решила не делиться исходным кодом из-за опасений, связанных с возможностью создания пользовательского опасного контента.

Полученный результат из приложения Imagen поражает. По запросу "Мишка Тедди бежит по автомобильной дороге" мы были предоставлены снимок источника imagen.research.

Phenaki – это новая инновационная разработка в мире видеоотображения, представленная компанией Imagen Video Google. Наравне с выходом Imagen Video, компания также показала другую модель, способную создавать подробные и продолжительные видео, которые теоретически могут быть неограниченной продолжительности. В основе работы этой модели лежит передовая нейросеть-трансформер. Однако, есть одно ограничение – видео, созданные с помощью Phenaki, имеют низкое разрешение.

Создатели Phenaki замыслили использование этой системы совместно с Imagen Video, чтобы получать видео в высоком разрешении. Однако пока не был представлен алгоритм, позволяющий реализовать эту функциональность. Также публичный доступ к модели недоступен из-за опасений со стороны Google.

Phenaki позволяет создавать потрясающие сцены. Например, вот результат генерации по запросу: фотореалистичный мишка из плюша непринужденно плавает в океане у берегов Сан-Франциско. Погружаясь под воду, этот милый плюшевый мишка продолжает свои приключения, сопровождаемый яркими и разноцветными рыбками. Внезапно, на поверхность выныривает озорная панда

Вначале 2023 года прошел революционный прорыв в сфере видеоредактирования благодаря усилиям специалистов из Google Research. Их разработка— нейросеть, способная изменять видеоматериалы по запросу пользователя. Невероятным образом она способна добавлять новые элементы, заменять объекты и даже перерисовывать их полностью. Удивительно, что алгоритм работает даже с видео низкого качества, открывая возможности для творчества и экспериментов.

Функционал Dreamix включает возможность создания видеороликов на основе фотографий: позволяет оживить объекты или объединить несколько похожих изображений в один связный фильм. Отметим, что данная функция от Google не будет доступна для пользователей.

Что дает вам генерация в Dreamix? Теперь вы можете заменить собак на котов. Полный контроль над видеомонтажем только с Dreamix-video-editing.

Runway Gen-2: Unleashing the Power of Neural Networks in Video Styling. Introducing the latest innovation from the groundbreaking startup, Runway. The Gen-2 neural network model revolutionizes the way videos are generated, solely based on text descriptions. No longer reliant on pre-existing video footage, this cutting-edge technology creates captivating three-second clips with ease. Experience the future of video creation firsthand by trying out the incredible neural network on our website. Embrace the limitless possibilities that Runway Gen-2 offers and witness the next level of video styling sophistication.

Команда разработчиков продемонстрировала несколько кратких примеров и предоставила доступ к модели для отдельных разработчиков. Видеоролики, несмотря на небольшое количество артефактов и шума, не поражают своим реализмом. Однако общий доступ обещают открыть уже весной 2023 года.

Где можно сгенерировать видео самому

Вмарте 2023 года китайская компания Alibaba DAMO Vision Intelligence Lab представила новую нейросеть ModelScope соткрытым исходным кодом. Она была разработана специально длягенерации видео и базируется надиффузионной модели, аналогичной алгоритму Stable Diffusion.

Имейте доступ к нашему демо уже сегодня! Наши нейросети создадут для вас 2,5-секундные видеоролики с нашим фирменным логотипом Shutterstock. Возможность удалить логотип не предоставляется. По-видимому, это связано с тем, что наша модель ModelScope обучалась на датасете, состоящем из стоковых видео с водяными знаками.

Как создать видео с помощью ModelScope? Чтобы начать процесс, перейдите на сайт Hugging Face и введите короткий запрос на английском языке, например, "конь бежит по океану". Затем нажмите кнопку "Generate". Важно помнить, что ModelScope не справится с длинными и сложными запросами: он может либо неправильно их понять, либо сгенерировать только частичный результат.

В среднем, ожидание занимает около 10-15 минут. Если возникнет ошибка, это может означать, что серверы перегружены. В таком случае, просто нажимайте на кнопку "Generate" несколько раз, пока не запустится процесс генерации. Если сайт так и не начнет работать, попробуйте воспользоваться опцией "Replicate". Там также доступна функция ModelScope, и видеоролики генерируются всего за полминуты. Ограничение на количество генераций существует, но лимиты достаточно большие – более 10 видео в течение одних суток.

Видео, созданные с использованием ModelScope, зачастую искажены артефактами, объекты на них размыты, а анимация выглядит дерганой. К тому же, ModelScope не всегда способна точно интерпретировать запрос пользователя. Но при всем этом она остается единственной современной нейросетью, позволяющей попробовать генерировать видео в браузере на основе текстового запроса.

Если вас отличает умение программировать, то вам потребуется всего лишь установить модель напрямую с помощью предоставленного кода на сайте ModelScope. Для этого вам понадобится всего 16 Гб оперативной памяти и видеокарта с объемом памяти в 16 Гб.

Что возникает в процессе моделирования в ModelScope. Несмотря на то, что уровень качества генерации может быть совершенствован, наши пользователи находят применение нейросети, активно создавая забавные видео-мемы.

Все началось с видеоролика, в котором Уилл Смит наслаждался спагетти. Это выглядело настолько ужасно и забавно, что люди начали активно создавать видео, где знаменитости пробуют различные блюда. Наша команда ModelScope уже знакома с такими известными личностями, как Илон Маск, Эмма Уотсон, Дуэйн Джонсон и многими другими.

Однако, наша компания не останавливается на этом. У нас есть уникальная возможность использовать нейросети Марио и Маска в нашем чат-боте под названием Character AI. Теперь вы можете общаться с этими нейросетями и проводить увлекательные диалоги. Что может быть круче, чем пообщаться с виртуальными версиями таких влиятельных личностей? Они запомнят ваши предыдущие разговоры и будут отвечать соответствующе, а также узнают новые факты и интересные истории.

Так что не упустите возможность попробовать Character AI и пообщаться с Марио и Маском. Станьте частью уникального опыта общения с нейросетевыми версиями знаменитостей уже сейчас!

На популярной платформе Reddit, в специальном разделе r/StableDiffusion, пользователи наслаждаются творчеством, объединяя несколько видео в один захватывающий клип, который рассказывает свою историю. Креативные участники подстраиваются под образ желаемого сюжета, озвучивая ролики или добавляя эмоциональную музыку, таким образом создавая незабываемые визуальные произведения искусства.

Получаются одновременно пугающие изабавные сюжеты.

Дарт Вейдер идет в супермаркет

Железный человек встречается с фанатами

Дуэйн Джонсон ест камни

Джо Роган дерется с медведем

Типичный вторник Доминика Торетто

Что нужно знать о нейросетях, которые генерируют видео

В текущей стадии развития, нейросети еще не в состоянии создавать видео на таком же качественном уровне, как картинки или текст. Порождаемые видеоролики являются короткими, содержат артефакты и обладают нестабильной анимацией.

Однако не все доступные модели нейросетей могут быть опробованы. Компании опасаются предоставлять доступ к своему коду, поскольку боятся возможности генерации пользовательскими фейковыми или опасными материалами.

Те нейросети, которые всё же возможно испытать, пока предлагают разочаровывающие результаты. В социальных сетях сгенерированные видеоролики нашли свое применение исключительно в создании интернет-мемов.

Говорить о возможности порождения последовательных видео в настоящий момент еще рано. Однако, если нейросети будут продолжать развиваться с таким же темпом, уже через год мы можем ожидать изменений в данной ситуации.