Блог
Искуственный интеллект

Мы сгенерировали в нейросети 3250 кадров и объединили их в видео о танце

В 2022 году я присоединился к моим друзьям и бывшим коллегам в создании студии медиаискусств Shum, где мне было предложено занять позицию креативного продюсера.

Наша команда специализируется на создании захватывающих арт-проектов и цифрового искусства. Мы мастера в создании интерактивных презентаций, инсталляций и стендов, видео и анимаций, а также экспериментируем с потрясающим миром виртуальной реальности. Всегда стремимся соединить искусство и технологии, чтобы создать неповторимые визуальные и эмоциональные впечатления для наших клиентов.

Поэтому, мы с огромным увлечением наблюдали за прогрессом в развитии нейронных сетей. Ранее, мы уже использовали их для улучшения видеокачества, однако, всегда стремились придумать что-то поистине впечатляющее, позволяющее использование искусственного интеллекта на более серьезном уровне.

Идея ролика и первые шаги

На сотрудничество с Инновационным театром балета Калуги мы гордимся и открываем для себя новые горизонты. В декабре 2022 года, вместе с талантливой солисткой Лорой Монжалей, мы решили погрузиться в мир нейроискусства и создать уникальный проект. В процессе его разработки, мы объединили традиционную видеосъемку, современный танец и передовые технологии нейросети Stable Diffusion. Не только то, что эта нейросеть бесплатна и работает на открытом коде, но также она может быть установлена на несколько компьютеров одновременно - а в нашем случае, мы использовали аж шесть. Представьте себе наше вдохновение! Концепция ролика «Киригами» моментально возникла в наших головах. Название отсылает нас к разнообразию оригами, где возможно использование режущих предметов.

Перед началом съемок мы решили провести небольшое исследование, чтобы узнать, как человеческий мозг воспринимает видеоматериалы, обработанные с помощью нейронных сетей. Наша команда предоставила участникам примеры уже существующих видеороликов и провела опросы. Результаты показали, что 65% респондентов согласны – такие видео воспринимаются как чрезмерно насыщенные информацией.

Я сам профессионал в генерации изображений с использованием нейронных сетей и убежден, что этот процесс также является искусством.
Пример ролика, сгенерированного нейросетью

Картинка мгновенно меняется, что делает ее непростым заданием для человеческого глаза. В результате, зрители быстро потеряют интерес и перестанут смотреть ролик. Однако, по новым исследованиям, первые 15 секунд являются решающими для того, чтобы увлечь зрителей и удержать их внимание.

Таким образом, мы пришли к заключению, что зрители еще не готовы принять видеоматериалы, которые полностью созданы или обработаны искусственным интеллектом. Однако мы не хотели отказываться от этой идеи и начали размышлять о том, как создать что-то смелое, но в то же время доступное широкой аудитории.

Съемки

Наш режиссер, Андрей Горлачев, предложил сфокусироваться на плавных переходах - от реальных кадров к изображениям, обработанным с помощью нейросети. Мы решили использовать эту визуальную технику для облегчения восприятия картинки зрителем. Наша цель - погрузить зрителя в привычную ему реальность, а затем перенести его в мир искусственного интеллекта.

Оборудование, которые мыиспользовали длясъемки:

Познакомьтесь с новейшими технологическими новинками, которые преобразят вашу съемку! Sony A7S 3 — беззеркальная камера, предлагающая невероятный уровень качества изображения. Tamron 17—28mm f/2.8 — объектив, который позволит вам снимать четкие и яркие кадры с высокой детализацией. А с электронным стабилизатором DJI Ronin RS2 ваши видео будут поражать своей плавностью и профессиональным видом. Не забывайте также о световых приборах GreenBean, которые помогут создавать идеальное освещение для ваших съемок.

Великолепная попытка! Лора полна творческой энергии и разработала потрясающий танец, который мы запечатлели в прекрасном танцевальном зале. Затем мы воспользовались передовой технологией нейросетей для обработки нескольких снимков. Важно отметить, что наш первый эксперимент показал, что нейросеть работает наилучшим образом с видео, снятым в высоком разрешении, без каких-либо цифровых помех, пикселей и с высокой четкостью изображения. Однако полученный результат нас не совсем удовлетворил, поэтому мы решили добавить камерные движения и сменить локацию.

Интересно, что искусственный интеллект распознает задний план как шкаф и заполняет его книгами.

Мы не ограничились первой попыткой, и решили снять второй ролик на лестничной площадке, с помощью ручной камеры. К сожалению, результат получился не самым удачным.

Наша команда уделяла особое внимание изучению и исправлению ошибок, чтобы извлечь правильные уроки. Например, мы осознали необходимость использования штатива или стабилизатора во время съемки. Кроме того, мы поняли, что композиция должна быть минималистичной и не перегружать объектами, а одежда танцовщицы должна быть однотонной.

Явная перегруженность картинки

Третье и четвертое усилия. Похоже, на третье мы сможем добиться успеха. Мы нашли новое простое место и настроили освещение, чтобы создать эффектную игру теней. Наша команда верила, что снимает окончательную версию ролика.

К сожалению, ожидаемый результат снова оказался неудовлетворительным: изображение по-прежнему оставалось слишком загруженным. В результате стало очевидно, что наилучшим вариантом является первый тест, оформленный в черно-белом стиле и сделанный в танцевальном зале.

Мы провели ряд длительных обсуждений и наконец пришли к выводу, что ситуацию с перегруженностью картинки можно исправить. Была необходимость создать контраст между основой и танцовщицей, а также обеспечить идеальное освещение на площадке, чтобы устранить нежелательные тени. После проведения четвертой испытательной съемки, мы, наконец, достигли желаемого результата и сняли финальную версию ролика.

Третья, «финальная» съемка оказалась очередной пробой пера

Четвертый тест порадовал

Работа с нейросетью

После успешной съемки в студии начинается очень важный этап - постпродакшн, в котором искусственный интеллект становится полноценным соавтором видео.

Оборудование, которые мы использовали для работы с нейросетью и монтажа видео:

  • Мощный компьютер с передовой видеокартой GeForce RTX 3080, обладающей 12 Гб памяти.
  • Пять компьютеров, каждый из которых оснащен впечатляющими видеокартами GeForce RTX 3060 с ёмкостью памяти 12 Гб.
  • Используется передовая нейросеть Stable Diffusion для максимальной эффективности.
  • Для профессионального монтажа видео рекомендуется использовать программу Adobe Premiere Pro.
  • Для создания качественной музыки и звукозаписи рекомендуется использовать Ableton Live.

Процесс постпродакшена видео был выполнен поэтапно. Вначале мы экспортировали исходное видео в формате png-секвенции, что позволило нам получить 3250 кадров из 130 секунд материала. Затем, все эти кадры были обработаны с помощью программы Stable Diffusion, где к каждому кадру был применен заранее разработанный "бумажный" стиль. Подробности запроса хотелось бы оставить в секрете. После этого, мы запустили процесс рендеринга, который занял 10 часов на шести компьютерах одновременно. И, наконец, мы смонтировали сгенерированные изображения и исходное видео с использованием плавных переходов.

Раскрою дополнительно, что аудиофон также оказывает влияние на загруженность видеоматериала, точно также, как и видеография. По этой причине, мы решили организовать создание собственной музыки для видео и использовать звуковые эффекты, имитирующие разрезание и скручивание бумаги.

Узнаем, как формулировать запросы к нейросетям Midjourney, Stable Diffusion и другим.
Получившийся ролик

Реакция зрителей

Каждый день нейросети продолжают стремительно прогрессировать, внося свои инновации в сферу искусства. Нашей главной целью было завершить видеоролик как можно скорее и представить нечто, что никто еще не видел. Было ощущение срочного желания не пропустить волну популярности. Но мы были приятно удивлены, как тепло зрители восприняли нашу работу. И еще более приятно получить столько положительных отзывов и обратную связь от танцоров и хореографов. Нам даже не снилось, что мы представим "Киригами" по телевидению и радио.

Данный ролик познакомил нас с множеством талантливых цифровых художников и блогеров, которые представляют работу искусственного интеллекта в новом свете. Я была приятно удивлена общим духом сообщества медиахудожников, который оказался дружелюбным и поддерживающим. Здесь каждый может обратиться за технической помощью, взаимным пиаром или получить качественную критику. Такая атмосфера практически не встречается в других творческих сферах, например, среди фотографов.

На днях мы получили отличное сообщение от аспирантки Высшей школы экономики, которая увлечена научным изучением связи современной хореографии и видеоискусства, в том числе пластических и цифровых экспериментов. Она намерена включить "Киригами" в свой исследовательский материал в качестве одного из источников. Это для нас большая похвала.

Что дальше

Мы уверены, что искусственный интеллект достиг точки, когда нейросети уже не только создают забавные картинки, но становятся настоящими соавторами, помогая людям в поиске новых форм самовыражения. Независимо от того, нужно ли это в рекламном бизнесе, искусстве или на повседневном уровне, наша студия стремится использовать все возможности искусственного интеллекта и его способностей для облегчения творческого процесса.

Однако, заслуживает внимания тот факт, что использование искусственного интеллекта и сгенерированного контента до сих пор является относительно новым и неизведанным полем для большинства. Только самые смелые и преданные приверженцы данной области реально занимаются ею серьезно. Наша студия именно к таким энтузиастам относит себя и всегда рада сотрудничать с единомышленниками.

За и против: Стоит ли наслаждаться активным развитием нейросетей

Наша команда приоритетно стремится помочь предпринимателям, художникам и музыкантам раскрыть потенциал искусственного интеллекта в сфере бизнеса.

Как пример, совместно с одним из ведущих медиахолдингов мы разработали нейрооткрытки к Международному женскому дню. Они символизировали наступление весны и воплощали в себе коллективный образ 50 сотрудниц медиахолдинга. В результате получился яркий 20-секундный видеоролик, показывавшийся на медиаэкранах в 20 городах России, от Москвы до Тюмени, на протяжении недели. Мы с большим интересом ожидаем, что в будущем таких экспериментов будет проводиться все больше.