Как работает ControlNet: сервис для контролируемой генерации изображений

В феврале компания Stable Diffusion представила новое расширение для своей нейросети под названием ControlNet. Это инновационное расширение позволяет генерировать изображения на основе готовых картинок, эскизов или поз.

Благодаря использованию данного плагина результаты становятся значительно лучше по качеству. Теперь у вас есть возможность подробно задавать входные данные для нейросети и влиять на процесс генерации. ControlNet позволяет решить даже давнюю проблему с изображением рук. Мы провели тестирование данного плагина и расскажем вам, как он работает, что можно сгенерировать с его помощью, а также предоставим информацию о доступных вариантах его применения.

Что такое Stable Diffusion

Stable Diffusion теперь является наиболее передовой нейросетью для создания изображений исходного кода с открытым исходным кодом. Она доступна полностью бесплатно, но требует мощного компьютера и навыков программирования для ее запуска. Вместо этого, у нейросети нет ограничений – она способна качественно генерировать изображения на основе текстового запроса, улучшать наброски и изменять изображения-референсы. Не только это, Stable Diffusion также позволяет обучать нейросеть на собственном наборе данных и создавать уникальные изображения, которые все же схожи по стилю.

Почему ControlNet делает шаг вперед в генерации картинок

В чем заключается революционность? Известная нейросеть Stable Diffusion, разработанная командой компании Stability.AI, уже на данный момент способна генерировать потрясающие изображения. Тем не менее, пользователь не имеет полного контроля над генерируемыми результатами. Хотя на нейросеть можно оказывать влияние с помощью текстовых запросов и даже референсных изображений, все равно алгоритм может добавлять свои собственные интерпретации и дополнения.

Комплетно новым прогрессом стал прорыв в технологии ControlNet, созданной коллективом ученых из университета Стэнфорда. Используя инновационный плагин Stable Diffusion, данная технология успешно устраняет сложности пространственной согласованности.

Интересуетесь применением инновационной нейросети Stable Diffusion, но не обладаете навыками программирования? Не беспокойтесь – мы поможем вам разобраться! Воспользуйтесь нашим простым руководством и узнайте, как эффективно использовать нейросеть Stable Diffusion даже без специальных программистских знаний.

О чем речь. Ранее в процессе создания изображения на основе референсной картинки не было возможности указать нейросети, какие части следует изменить и какие оставить без изменений. Однако благодаря использованию ControlNet теперь возможно задавать дополнительные параметры входных условий, такие как поза персонажа и обводка исходной картинки. Например, можно взять фотографию человека, пропустить ее через нейросеть и заменить только его внешность, сохраняя при этом остальные элементы композиции.

Для генерации с использованием ControlNet всегда требуется наличие референсной картинки, которая выполняет роль трафарета. Наш плагин способен генерировать разнообразные наброски на основе оригинального изображения, которые затем могут быть использованы в качестве базы для последующей генерации. Это позволяет нам справиться с несколькими известными проблемами, связанными с созданием нейросетями групп людей, текста, рук, глаз и других мелких деталей. В прошлом, при использовании Stable Diffusion, генерация пальцев основывалась на "шуме" из множества картинок различных пальцев, что часто приводило к странным результатам. Теперь у нас есть четкий трафарет, позволяющий более точно воссоздать контур руки.

Исходник

В Stable Diffusion, генерация без использования ControlNet может предоставить несколько примеров. Она точно повторяет цвета и общую композицию, однако немного искажает фон, лицо и стрелку.

Примеры генерации вControlNet. Точно повторяет фон илицо

Как это работает технически

Stable Diffusion была обучена на парах изображений и текстовых описаний, используя блочную структуру. ControlNet копирует каждый блок этой сети и связывает его с соответствующим исходным блоком. В результате исходный блок остается неизменным, а блок-копия может быть обучен.

Описание работы ControlNet, представленное на github.com

Работа ControlNet основывается на принципе входных и выходных блок-копий, которые связаны с предыдущими блоками-копиями и исходными блоками. При этом выход блока-копии складывается с соответствующим выходом исходного блока, с помощью чего информация обрабатывается в исходной сети. Важно отметить, что исходная сеть не обучается, однако сеть-копия может позволить получить нужную картинку, основываясь на входных данных, таких как скетч, контур, карта глубины, поза и другие параметры. Более того, помимо изображений, в сеть можно также подавать текстовые запросы, что влияет на получаемый результат визуализации.

Что может ControlNet иизчего она состоит

В состав ControlNet входят семь уникальных моделей, которые изначально применялись отдельно друг от друга. Однако, совсем недавно появилась потрясающая возможность использовать несколько моделей одновременно, благодаря функции, названной Multi-ControlNet.

Перед началом работы следует выбрать оптимальную модель, которая наилучшим образом соответствует поставленной задаче, после чего загрузить в нее изображение. Модели обладают способностью обнаруживать границы на изображениях, анализировать информацию о глубине, обрабатывать эскизы или имитировать человеческие позы.

Вот какой есть выбор вControlNet икак работает каждая модель.

Познакомьтесь с моделью Canny. Эта нейросеть, после того, как вы загружаете изображение-референс, способна нарисовать набросок объекта с помощью тонкой линии. Благодаря этому, она обеспечивает точное выделение контуров объекта, сохраняя даже самые мельчайшие детали.

Познакомьтесь с волшебным миром нейросетей, которые помогут вам создать уникальных персонажей. Мы подобрали и протестировали для вас 10 бесплатных сервисов, чтобы вы могли насладиться их возможностями. Откройте для себя новые горизонты в создании персонажей с помощью наших рекомендаций!

Когда ControlNet генерирует новую картинку, она воссоздает этот эскиз, и пользователь может настроить параметры для нового изображения с помощью текстового запроса. Например, Canny позволяет сохранить композицию и стилистику оригинальной картинки, но изменить детали, такие как лицо персонажа или цвета на изображении.

Мы предлагаем широкий ассортимент товаров, чтобы удовлетворить потребности наших клиентов. Мы заботимся о качестве продукции и стремимся предоставить нашим покупателям только самое лучшее. У нас вы найдете все, что вам нужно: от одежды и обуви до аксессуаров и электроники. Мы гарантируем низкие цены и быструю доставку каждого заказа. Покупайте с уверенностью в нашем интернет-магазине и наслаждайтесь превосходным опытом покупок.

Различные сценарии создания модели Canny. В данном случае варьируется порода собаки. Оригинал источника: github.com.

Holistically-Nested Edge Detection, известная как модель HED. При загрузке изображения данная нейросеть тщательно и точно выделяет контуры объектов на нем, схожие по работе с тем, как это делает человек.

Полезна для перекраски или изменения стилистики.

Современная технология дает нам огромное количество возможностей для коммуникации и обмена информацией. С появлением интернета и мобильных устройств люди теперь могут общаться сколько угодно долго и где угодно. Они могут делиться своими мыслями на социальных платформах, общаться в мессенджерах и смотреть живые трансляции в онлайн-формате. Технологический прогресс полностью изменил наш способ общения и сделал его гораздо более удобным и доступным.

В этом примере представлены результаты обучения модели HED, где автор изменяет цвет волос и одежды. За исходной информацией можно обратиться на сайт github.com.

Представляем вам модель Depth Map. При загрузке она мгновенно генерирует эскиз картинки с карточкой глубины, что позволяет ясно определить, какие объекты находятся ближе, а какие дальше.

Модель удобна для случаев, когда нужно заимствовать с изображения композиционную глубину.

Являетесь ли вы владельцем малого бизнеса или крупной компании, хорошая реклама и привлечение новых клиентов являются важными аспектами успеха вашего предприятия. Мы понимаем это и готовы помочь вам в достижении ваших целей. Наша команда опытных копирайтеров предлагает широкий спектр услуг, включая написание продающих текстов, создание контента для веб-сайтов и социальных медиа, а также разработку эффективных маркетинговых стратегий. Мы гарантируем качество работы, соблюдение сроков и индивидуальный подход к каждому клиенту. Обратитесь к нам уже сегодня и дайте нам возможность помочь вам достичь успеха!

На платформе Github доступны примеры генерации модели Depth Map, которая позволяет нейросети распознавать оптимальную позицию рук робота в перспективе.

Модель NormalMap. Карта нормалей определяет положение объекта в трехмерном пространстве.

Подходит для генерации 3D-персонажей или реалистичных картинок.

В роли хорошего копирайтера, я приведу следующий абзац текста в более привлекательную и увлекательную форму:

"Добро пожаловать в нашу компанию, которая предлагает широкий спектр услуг в сфере маркетинга и рекламы. Мы специализируемся на создании креативных и эффективных решений для продвижения вашего бизнеса. Наша команда экспертов имеет богатый опыт работы с различными клиентами из разных отраслей, что позволяет нам предлагать индивидуальные и подходящие идеи для каждого проекта. Наш главный приоритет - ваш успех, и мы готовы полностью посвятить себя достижению этой цели. Присоединяйтесь к нам сегодня и узнайте, как мы можем помочь вам раскрасить ваш бизнес в яркие и привлекательные тона!"

С помощью генерации модели Normal Map были созданы различные стили для игрушки-овцы, придающие ей реалистичность. Источник: github.com

Модель MLSD, Mobile Line Segment Detection. Детектор прямых линий.

Этот инструмент является незаменимым для создания визуальных образов, основанных на изображениях с прямыми линиями, включая дизайн интерьеров, архитектурные объекты и уличные сцены.

В роли хорошего копирайтера выступил специалист, который внес следующие изменения в абзац текста:

Открыт исходный код с примерами генерации MLSD, предоставленными автором, где были внесены изменения в цветовую палитру интерьера. Источник можно найти на github.com.

OpenPose является высокоэффективной моделью, способной мастерски работать с изображениями, содержащими людей. Ее функциональность включает определение точного положения головы, плеч, рук и ног на загруженных картинках, а затем создание удивительно точной схемы позы, представляющей собой своего рода "скелет". Уникальной чертой OpenPose является возможность изменить внешний вид персонажа, добавив текстовое описание, например, заменив сыщика на спасателя, при этом сохраняя выбранную позу. Эта нейросеть открывает безграничные возможности для творчества и визуализации, позволяя создавать уникальные и выразительные изображения.

В модели есть редактор, где можно перетаскивать части тела и делать свои позы.

Я предложу вам следующий рерайт для данного абзаца:

"Представьте себе место, где гармоничное сочетание природы и современности создают райскую атмосферу. Здесь каждый вдох наполняется свежестью чистого воздуха, а каждый выдох окутывает вас теплом и умиротворением. Это место было специально создано, чтобы вы почувствовали полную свободу, здесь нет ничего, что бы ограничивало вашу удовольствие от полной гармонии с природой. Приготовьтесь погрузиться в роскошь, где вас ожидают уникальные впечатления и незабываемые моменты. Добро пожаловать в этот райский уголок!"

Вот примеры генерации OpenPose, где астронавт в точности повторяет позу из исходной картинки. Подробнее можно найти на странице github.com.

Познакомьтесь с моделью Scribble, которая способна преобразовывать ваш скетч в картинку. Вам не нужно обладать высоким художественным талантом, чтобы воспользоваться этой удивительной возможностью - достаточно всего лишь примитивного наброска. А с помощью текста вы можете точно указать, какой результат вы хотите получить из вашего скетча.

Так можно воплощать идеи и эскизы.

Я являюсь профессиональным копирайтером, способным создавать качественный контент для различных целей и аудиторий. Мои навыки включают разработку уникальных и продающих текстов, которые захватывают внимание и удерживают интерес читателей. Благодаря творческому подходу и умению адаптироваться к разным темам, я способен достичь поставленных целей и уровней срочности. Надежно и ответственно отношусь к срокам выполнения заданий, и стремлюсь превзойти ожидания клиентов. Доверьте мне свои текстовые потребности, и я обязуюсь предоставить вам качественный и эффективный контент.

Взгляните на примеры генерации Scribble, которые позволят вам воплотить в жизнь реалистичные изображения черепах, всего лишь поскетчив на бумаге. Аккуратность и детали этих созданных компьютером рисунков впечатляют. Если вы заинтересованы, источник можно найти на странице github.com.

Как ControlNet изменяет картинки с сохранением черт оригинала

Среди различных моделей, наиболее эффективно справляются с данной задачей три основных варианта: Canny, Normal Map и Depth Map. Каждая из них имеет свои уникальные принципы работы, поэтому нельзя однозначно сказать, что одна модель лучше другой. Выбор конкретной модели должен основываться на требованиях референса и цели, чтобы достичь наилучших результатов.

Для проведения испытания алгоритма Canny были выбраны фотографии актеров Райана Гослинга и Марго Робби со съемок фильма "Барби". В процессе моделирования алгоритмом были учтены мельчайшие детали, включая узоры на одежде, выражение лица и даже текстуру дерева, находящуюся за актерами. Однако, из-за такого подробного анализа моментов на фотографиях, могут возникать ошибки. Например, нейросеть при анализе эскиза обнаружила нечто, что не было связано с элементами одежды и фона, а именно - лишний силуэт, и в результате сгенерировала дополнительное лицо.

Узнайте, как создавать эффективные запросы к нейросетям, таким как Midjourney и Stable Diffusion, чтобы получить максимальную пользу и результаты.

Применение Depth Map идеально подходит для работы с планами заднего и переднего плана. Это отличное решение для создания пейзажей, архитектурных объектов и композиций. Если ваша цель - сгенерировать здание, сохраняя его основные элементы, например, шпиль, то данная карта глубины без труда справится с этой задачей.

Был сделан скриншот из игры Hogwarts Legacy, чтобы использовать его для создания карты глубины. Несмотря на то, что замок из игры сразу же потерял некоторую узнаваемость на картинке, нейросеть все равно смогла передать величие постройки и учесть окружающий ландшафт. Этот эффект наблюдался и в других тестах, так как карта глубины не обозначает мелкие детали.

Normal Map является инструментом, который широко используется в 3D-редакторах для имитации геометрии на различных объектах. Например, при помощи текстуры нормалей человеческой кожи можно воссоздать углубления, поры и царапины. Это особенно удобно, когда требуется создать персонажа и сохранить его геометрические особенности, такие как броня, выпуклые части или недостатки.

Для создания карты нормалей был выбран кадр из известного диалога о симфониях и картинах, который можно найти в фильме «Я, робот». В данном случае нейросеть учла все детали кадра, включая наличие проводов, форму тела и разницу в материалах. Благодаря возможности настройки обрезки фона при работе с картами нормалей, этот инструмент становится очень удобным для концепт-артистов.

Как ControlNet сохраняет позу

Для проведения данного эксперимента мы выбрали танец Хоакина Феникса из фильма "Джокер". Эта поза является достаточно сложной, однако алгоритм смог успешно воссоздать ее - хотя без воспроизведения харизмы самого актера. В отличие от модели Canny, OpenPose не старается сохранить детали одежды, черты лица и другие визуальные элементы оригинала. Вместо этого, его основная цель заключается в точном воссоздании позы Хоакина Феникса.

OpenPose имеет определенные ограничения в использовании. Например, при наложении людей друг на друга на референтном изображении, возникает проблема исчезновения частей тела в представленном скелете.

OpenPose обладает уникальным преимуществом - умение создавать позу по своему усмотрению. Для этой функции существуют специальные плагины, дополняющие основной ControlNet. Через их использование можно свободно перемещать кости на черном фоне и, при необходимости, добавлять дополнительные скелеты. Таким образом, возможно создать персонажа в любом, даже нескольких видах одновременно.

Хотите научиться создавать кадры из вымышленных фильмов самостоятельно? Midjourney предлагает свою нейросеть для генерации уникальных снимков. При помощи этой инновационной технологии вы сможете воплотить свои фантазии и создать картины, которые никогда не существовали. Доступно каждому!

Как ControlNet генерирует картинки поскетчу

Возможности ControlNet впечатляют: здесь вы можете загрузить свой набросок, а затем с легкостью получить из него что угодно. Однако, будем откровенными, на данный момент система работает с некоторыми несовершенствами. В нейронной сети иногда пропадают некоторые детали и чрезмерно акцентируется внимание на общем контуре, что ведет к некоторым анатомическим неточностям, присутствующим в наброске художника. В теории, действительно, можно нарисовать что угодно, но каждая кривая линия имеет значительное влияние на окончательный результат.

На осуществление этого этапа эксперимента было затрачено значительное количество времени: создали около пяти иллюстраций, однако только одна из них превзошла качеством все остальные.

В начале процесса нами был создан образ длиннохвостого кота на ноутбуке. Тем не менее, нейросеть, даже при явном указании этого в текстовом запросе, отказывалась генерировать клавиатуру. Это означает, что необходимо дополнить рисунок кнопками на эскизе. Тем не менее, нашей команде удобнее составить коллаж из фотографий кота и клавиатуры и уже в модели Canny сгенерировать соответствующее изображение.

В случаях, отличных от описанных, сервис не принимал во внимание позу или эмоцию. Это превращает Scribble в инструмент, который скорее малополезен: для его использования требуется больше времени на проработку эскизов, но и затем результаты можно генерировать другими способами с большей легкостью. При использовании роботом для создания набросков мы порождали десятки вариантов, но ни один из них не выглядел убедительно.

Неудачная генерация

Оригинальный набросок

Неудачная генерация

Как ControlNet генерирует наоснове гифок

Для выполнения эксперимента был выбран видеоролик с известным актером Шайа Лабафом. Изюминкой нейросетей является их неспособность создать плавную анимацию, ведь каждый последующий кадр генерируется отдельно от предыдущего. Этот принцип работы приводит к постоянному изменению одной и той же детали исходного материала.

В текстовом поле был описан мужчина с его стильной одеждой и элегантными часами на запястье. Однако, несмотря на использование передовой технологии ControlNet, анимация все же оставляет желать лучшего и может быть подходит только для социальных сетей и экспериментальных проектов. На паре кадров мы можем наблюдать, как нейросеть, пытаясь воссоздать часы с круглым дизайном, ошибается в позиции рук и даже не справляется с передачей правильного оттенка кожи.

Шайа Лабаф становится главной героем гифок, созданных при помощи передовой технологии ControlNet и анимационной модели Canny.

Забавные анимационные изображения с участием Шайи Лабафа, созданные при помощи передовой технологии ControlNet модели HED.

На основе стабильной диффузии был создан новый инструмент - Gen-1. Разработчики стремились достичь постоянной анимации, но все равно присутствуют некоторые недостатки. Это прекрасно демонстрирует, что индустрия движется в этом направлении: вполне возможно, что через десять лет появятся нейронные сети, предназначенные для решения этой задачи.

Сегодня ControlNet находит свое применение в экспериментальной анимации. Альберто Миелго, известный своим уникальным стилем в мультфильме "Человек-паук: Через вселенные", регулярно внедряет кадры с абсолютно отличной стилистикой. Это обновляет анимацию, делая ее более динамичной и живой, и благодаря ControlNet процесс стал гораздо более простым и быстрым.

БЕСПЛАТНЫЙ КУРС H3: Как быть взрослым

И независимым. Разбираемся в налогах и правах, ищем жилье и оплачиваем коммуналку Изучить

Где попробовать ControlNet самому

Легко установить ControlNet самостоятельно. Полная версия, включающая все модели, может быть скачана и установлена как дополнение к основной нейросети Stable Diffusion. Теперь у вас будет постоянный доступ к моделям и полному набору функций данного сервиса. Исходный код репозитория доступен на GitHub. ControlNet идеально подходит для тех, у кого уже имеется мощный ПК и базовые навыки в программировании.

Пользователи разработали удобное расширение для установки без необходимости владения программированием, специально для Stable Diffusion. Обращаться

Можно загрузить модели для ControlNet. Вы можете выбрать отдельные модели или загрузить их все сразу.
Если вы используете Stable Diffusion, скорее всего у вас уже есть веб-интерфейс Automatic1111. Если нет, то установите его, выбрав свою операционную систему: Windows с процессорами Nvidia, Windows с процессорами AMD, Linux или MacOS.
Включите WebUI и установите расширение ControlNet. Чтобы сделать это, перейдите на вкладку Extensions и нажмите Install from URL. Затем скопируйте ссылку в поле и нажмите Install.
Добавьте модели с расширением .safetensor в папку stable-diffusion-webui\extensions\sd-webui-controlnet\models.
В Automatic1111 у ControlNet нет собственной вкладки. Вместо этого она будет отображаться как отдельный раздел в нижней части вкладок txt2img или img2img.
Просто перетащите изображение из браузера или с рабочего стола и начните генерацию.

/nijijourney/

Хотите научиться создавать уникальные аниме-иллюстрации, включая портреты собственной персоны? Тогда Niji Journey - идеальное решение для вас! Благодаря удивительной технологии нейросети, вы сможете рисовать все, что только пожелаете, в неповторимом аниме-стиле. Даже ваш собственный аватар не станет исключением! Освоив все возможности Niji Journey, ваши творческие возможности станут бесконечными. Запустите свое воображение на полную мощность и окунитесь в безграничный мир аниме-искусства!

Расширение ControlNet

Воспользуйтесь онлайн-инструментами для удобства. Ваш браузер предоставляет вам доступ к сокращенной версии ControlNet. Это позволяет понять принципы функционирования нейросети, однако генерация высококачественных изображений здесь, вероятно, не представляется возможной.

Scribble Diffusion: Innovation in Image Generation. Discover the remarkable capabilities of Scribble, an intuitive tool that transforms your sketches into stunning visuals. With a user-friendly interface, simply sketch your ideas directly in the browser, specify your textual requirements, and click the "generate" button to experience the magic unfold before your eyes. Let the power of Scribble bring your imagination to life!

Hugging Face предлагает демонстрацию своих возможностей. Эта платформа позволяет протестировать все основные модели ControlNet, а не только Scribble. Вы можете загрузить исходную картинку, указать текстовый запрос и получить генерированный результат.

На выходе получается соответствующий заявленной модели результат, но с артефактами и кривыми лицами у персонажей.

Исходная картинка, позы, генерация

На нашей площадке также представлено демо-видео, которое позволяет генерировать короткие ролики на основе гифок и текстовых запросов.

Однако ожидание очень долгое, асервис порой выдает ошибку.