Блог
Искуственный интеллект

Как пользоваться нейросетью Kandinsky 2.2

Kandinsky 2.2— нейросеть отСбера, которая генерирует картинки потекстовым запросам.

Основной отличительной чертой данного сервиса является его возможность работать с русским языком и создавать фотореалистичные изображения. Теперь можно описывать желаемое изображение, определять его стилистику и уточнять детали. Отличие Kandinsky 2.2 от большинства аналогичных сервисов заключается в его отличном понимании русскоязычных запросов, которые учитываются при генерации картинок.

Уделите внимание нейросети и оцените её способность эффективно решать задачи и противостоять основному конкуренту.

Что собой представляет Kandinsky2.2

Весной 2023 года на свет появился сервис Kandinsky 2.1 от Сбера, который значительно усовершенствовал свою модель и повысил уровень генерируемых изображений. Хотя арты, создаваемые им, были неплохи, иностранные проекты Midjourney и Stable Diffusion в то время уже перешли от простых рисунков к фотореализму. И вот летом появилась версия Kandinsky 2.2, которая отличается своей особенностью - фотореализмом. Подробности о новой версии можно узнать в блоге компании на платформе "Хабр". Принцип работы этой нейросети идентичен другим конкурентам - она создает изображения различных стилей на основе текстового запроса. Но разработчики "Кандинского" гордятся тем, что их сервис поддерживает более 100 языков, включая русский, чего не могут похвастаться англоязычные Midjourney или Dall-e 2. Это значительное преимущество сервиса перед другими, с которыми россиянам требуется знание английского или использование переводчика.
"Нейросеть от Яндекса теперь умеет создавать изображения на русском языке по текстовым запросам. Интеллектуальная система, разработанная командой Сбер, оснащена пятью ключевыми режимами работы, которые позволяют создавать удивительные картинки."

  • Генерация изображений на основе текста. Воспользуйтесь стандартной функцией нашей нейросети, которая позволяет вам написать текстовый запрос, а затем создаст уникальное изображение на его основе.
  • Экспериментирование с миксом изображений. Добавьте две картинки и насладитесь результатом, созданным нейросетью, которая стилизует их смешение.
  • Разнообразие в изображениях. Получите уникальное изображение, добавив в уже готовую картинку или фото нужную стилистику.
  • Дорисовка упущенных деталей. Наш режим дорисовки, также известный как outpainting, позволяет взять фото или картинку и попросить нейросеть заполнить пустые части изображения.
  • Перенос стиля. Эта функция, аналог плагина ControlNet от Stable Diffusion, позволяет вам перенести позу персонажа или очертания исходного изображения на новое сгенерированное изображение.

Где попробовать нейросеть Kandinsky2.2

Kandinsky2.2Есть несколько способов:

Команда "Кандинского" представляет тестовый сайт fusionbrain.ai, где каждый может воспользоваться функцией генерации и дорисовки текстовых материалов. Официальный телеграм-бот предоставляет доступ ко всем четырем режимам генерации. Rudalle, первая версия нейросети Сбера для создания изображений, имеет собственный веб-сайт с таким же названием. Навык "Включи художника" в голосовом помощнике "Салют" от Сбера также позволяет генерировать уникальные картинки. Удобство и простота использования телеграм-бота делают его одним из наиболее предпочтительных способов работы. Боты других нейросетей в "Телеграме" не заслуживают доверия, зачастую запускают их мошенники. В случае с нашим ботом, все предельно официально и безопасно. Загляните на сайт Сбера или воспользуйтесь ботом в "Вконтакте" и насладитесь удивительными возможностями нашей нейросети.

Независимо от ситуации, нейросеть может не справиться в шести случаях. В веб-ресурсах и телеграм-боте возникают периодические ошибки, которые Сбер объясняет значительной нагрузкой на свои сервисы.
Как пользоваться ботами нейросетей ChatGPT иMidjourney в«Телеграме»— истоитлиэто делать152324

Как генерировать картинки вKandinsky2.2

Для достижения результатов в сфере генерации картинок я прибегал к использованию двух инструментов: телеграм⁠-⁠бота и прогрессивной платформы fusionbrain.ai. fusionbrain.ai представляет собой полноценный веб-сайт, предназначенный для создания уникальных и захватывающих изображений. Пользователь вводит свой запрос в текстовое поле, а на месте выделенной области появляется самоизготовленное изображение. А что касается выбора стилей, здесь пользователю предоставляется на выбор множество основных вариантов.

Фиолетовый квадрат идеально подходит для области генерации, а его размеры легко можно настроить. Эта функция может не иметь большого значения при стандартной генерации по тексту, однако она полезна при использовании других режимов.
Как рисуют нейросети: 12интересных сервисов55106133
Зона генерации. Картинка появляется вокруг яркой желтой рамки, однако есть возможность перемещать ее в сторону для создания новых элементов.

Наши дни нас радуют большим разнообразием стилей - более 20! Если вам ближе привычные тематики, такие как киберпанк или аниме, или же вы желаете попробовать что-то новое, например, вдохновленное советскими мультфильмами или хохломой, то для вас доступны все эти варианты в нейросетевых сервисах. Конечно, в англоязычных приложениях возникают сложности с генерацией подобных стилей, поскольку модели не были обучены на таких типах изображений.

Вот полный список стилей:

Используя мастерство и творческий подход, предлагаю провести увлекательное путешествие в мир искусства и визуального восхищения. Разнообразие тем и направлений не оставит никого равнодушным. Вам предстоит ознакомиться с удивительным миром аниме, поразиться детальности фотографии, погрузиться в уникальную атмосферу киберпанка. И чего только стоят работы великих художников - Кандинского, Айвазовского, Малевича и Пикассо. Гончарова и классицизм, ренессанс и картина маслом, рисунок карандашом и цифровая живопись - это лишь малая часть того, что можно найти в уникальном мире искусства. И не забудьте о средневековом стиле и советских мультфильмах, которые до сих пор пленяют своей неповторимостью. А что может быть ошеломляюще красивее, чем 3D-рендер и мультфильмы, которые рождают многочисленные эмоции у зрителей? Не забывайте о студийных и портретных фотографиях, которые позволяют увидеть каждую деталь и пережить момент насыщенного события. А для создания неповторимого настроения и по-настоящему горячей тематики искусственной росписи, на руси популярна Хохлома. А какой же Новый год без сказочных образов и праздничного настроения? Все эти тематики и многие другие всегда готовы покорить вас своей красотой и неповторимостью.

Большая часть стилей работает отлично, но иногда возникают проблемы с "фирменными" стилями: хохлома генерируется с некоторыми ограничениями, а советский мультфильм может не быть достаточно похожим. Если вам необходимо добавить свою стилистику в текстовый запрос, который отсутствует в списке предложенных стилей, просто оставьте галочку на пункте "Без стиля".

Наши уникальные изображения доступны в пяти различных разрешениях, чтобы удовлетворить все ваши потребности. Мы предлагаем форматы 1:1 (1024 × 1024 точек), 2:3 (680 × 1024), 3:2 (1024 × 680), 9:16 (576 × 1024), и 16:9 (1024 × 576). Независимо от того, какие пропорции требуются вам, у нас есть идеальное изображение, чтобы вас вдохновить.
С использованием инновационной нейросети Niji Journey, можно создавать потрясающие аниме-иллюстрации, не только любые объекты, но и портреты великолепно.
Одной из захватывающих функций редактирования предварительно сгенерированного изображения является возможность внести изменения. Готовое изображение может быть отредактировано при помощи удобного инструмента "ластика", который позволяет закрасить выбранную часть, требующую изменений. После чего достаточно лишь нажать кнопку "Создать" снова и насладиться обновленным результатом.

В киберпанковой Москве на улице, я неоднократно наблюдал смену персонажа в красном пальто. Невероятная точность работы нейросети по контуру и отсутствие искажений в остальной части изображения впечатляют. Этот бесценный инструмент действительно необходим многим сервисам.
Также, важно отметить, что рисование по дороге является неотъемлемой функцией далеко не во всех доступных сервисах. Процесс работы прост: сначала вы создаете или загружаете изображение, затем уменьшаете его таким образом, чтобы поле для создания было больше самого изображения. После этого вы добавляете текстовый запрос или выбираете стиль и нейронная сеть "дорисовывает" изображение, создавая потрясающий результат.

Я решил испытать режим, используя Шрека в стиле киберпанк. Сервис дополнительной реальности отлично добавил детали зеленого огра, сохраняя его уникальные особенности и даже одежду. Однако, фон с лесом в оригинальной картине оказался проблемным, так как он слишком сильно выделяется на фоне типичного киберпанк-города. Не смотря на это, искусственный интеллект попытался интерпретировать деревья, превратив их в странную зеленую сферу.
Как составлять запросы кMidjourney, Stable Diffusion идругим нейросетям
Вот такой получится киберпанк⁠-⁠Шрек

С использованием техники переноса стиля, вы можете легко задать дополнительные параметры входных условий, такие как позу персонажа и очертания исходной картинки. Для этого достаточно взять фотографию человека, обработать ее через специальную нейросеть и заменить только его внешний вид, при этом сохраняя остальные элементы композиции. Уникальная возможность переноса стиля доступна лишь в телеграм-боте.

Я решил соединить персонажа Шрека с Райаном Гослингом из знаменитого фильма "Бегущий по лезвию". И, буду честен, получилось весьма удачно: в Kandinsky 2.2 я воплотил стилистику и выражение лица Гослинга, однако узнаваемые черты Шрека остались неизменными. Однако есть один минус: невозможно влиять на результат генерации, например, задать процент заимствования. Вы просто загружаете две картинки и ждете окончательного результата.
Процесс смешивания изображений осуществляется с использованием похожего подхода, однако нейросеть не принимает во внимание позу персонажа и положение объектов. Ее цель состоит лишь в случайном соединении элементов из двух картинок, что приводит к появлению неожиданных и непредсказуемых результатов.

От сочетания Шрека и Райана Гослинга родился бравый герой экшн-фильмов 90-х, который не имеет ничего общего ни с огром, ни с голливудским актером. Искусственная нейросеть черпает стиль и вдохновение из обоих изображений: леса, подаренного Шреком, и освещения, достойного "Бегущего по лезвию".
Гослингошрек

В боте Kandinsky 2.2 вы можете легко создать свои собственные стикеры для приложения "Телеграм". Просто отправьте запрос, и программа автоматически сгенерирует для вас стилизованный рисунок с белой обводкой. Вы можете создать новый стикерпак сразу же или добавить сгенерированную картинку в уже существующий стикерпак.

Kandinsky 2.2 не справляется с сложными запросами: он не смог создать изображение капибары с чашкой кофе или капибары за компьютером. Однако, он смог достаточно хорошо нарисовать капибару, укутанную в одеяло, хотя часть тела осталась незавершенной.
Стикерпак скапибарами

Как Kandinsky2.2 генерирует фотореализм

При работе с программой Kandinsky 2.2, я неоднократно обратил внимание на стилевые результаты, которые напоминают мне популярную нейросеть Midjourney, а именно ее пятое поколение, известное своим фотореализмом - v5. Поэтому я решил провести прямое сравнение этих сервисов. Для составления запросов в "Кандинском" я использовал русский язык, а затем переводил их на английский и применял в Midjourney.

Резюме: Midjourney, безусловно, создает изображения высокого качества и качественно воспроизводит детали. Однако, в Kandinsky 2.2 цвета более яркие и насыщенные, словно контрастность на максимуме. В остальном же, стилистически они рисуют похожие изображения.
Мы рады сообщить о выпуске новой версии Midjourney v5, которая обладает способностью создавать фотореалистичные изображения. Один из основных преимуществ этой версии заключается в том, что нейросеть предоставляется полностью бесплатно, в отличие от предыдущей версии Midjourney. Ранее иностранный сервис предлагал хотя бы пробную версию, однако уже несколько месяцев эта возможность закрыта для новых пользователей. Кроме того, оплата Midjourney из России стала проблематичной.

Вот несколько примеров отдвух нейросетей. Слева— Kandinsky, справа— Midjourney v5.

Что в итоге

Kandinsky 2.2 представляет собой уникальную бесплатную нейросеть, способную создавать потрясающие изображения по текстовым запросам. Отличительной чертой Kandinsky является высокая степень понимания русскоязычных запросов, чего большинству популярных нейросетей не хватает. Возможности генерации в Kandinsky разнообразны и просты в использовании, позволяя смешивать изображения, передавать стиль и добавлять детали. Кроме того, доступен Telegram-бот, который не только создает изображения, но и позволяет создать стикерпак. В новой версии основной фокус сделан на достижении фотореалистичности, хотя качество нейросети по-прежнему немного уступает Midjourney.