Блог
Искуственный интеллект

Как отличить фото людей, которые сгенерировала нейросеть?

Это история о знакомстве Робота Анатолия с феноменом нейросети. Он наткнулся на сайт в интернете, где специальная технология позволяет нейросети создавать за считанные секунды фотографии, настолько реалистичные, что с трудом можно отличить их от изображений настоящих людей. Проблема встала перед Роботом Анатолием - как определить, кто изображен на фото: человек или искусственный интеллект? Благодаря этому он задался вопросом о том, где находится грань между реальностью и виртуальностью, где проходит граница между человеком и нейросетью.
Евгений Кузьмин, ведущий эксперт в области нейросетей, провел успешное тестирование новейших алгоритмов.

Это действительно актуальная проблема, с которой сталкиваются многие. Согласно проведенному исследованию в 2022 году учеными Лондонского университета Роял Холлоуэй было обнаружено, что люди все чаще оказываются не в состоянии отличить настоящее фото от подделки. Захватывающее исследование, проведенное университетами Беркли и Ланкастера, еще больше потрясло нас своими результатами: даже после получения советов по выявлению подделок, 41% участников эксперимента все равно не смогли успешно выполнить поставленное задание.

Ксчастью, пока сгенерированные фото еще можно опознать.

БЕСПЛАТНЫЙ КУРС H3: Как управлять личными финансами

как перестать беспокоиться о деньгах, развивать здоровые финансовые привычки и направляться к достижению своих целей и мечтаний. Получить полезные советы и практические инструменты для улучшения финансового благополучия.

Что такое StyleGAN и какие сервисы генерируют изображения

Одной из потрясающих разработок компании NVIDIA стала нейросеть StyleGAN, которую они представили в 2018 году. Бесспорно, одним из главных достижений этой инновационной технологии стала невероятно реалистичная генерация уникальных человеческих лиц.

Год спустя с момента представления NVIDIA решила поделиться исходным кодом своей нейросети, что привело к возникновению многочисленных сервисов-генераторов, основанных на StyleGan. Среди новых возможностей стоит отметить появление:

Нейросервис с названием "This Person Does Not Exist" является наиболее известным ресурсом, способным генерировать фотографии лиц. Также стоит отметить бесплатную базу данных Generated.Photos, в которой содержится более чем 2,5 миллиона сгенерированных изображений. Другие интересные варианты включают Bored Humans, Random Face Generator и Fotor, в котором можно создать лицо на основе текстового описания.

Уникальность сервисов заключается в их разнообразии функций. Например, при посещении сайта This Person Does Not Exist, пользователь получает случайно сгенерированное изображение, не имея возможности настраивать параметры фотографии. Также, на Bored Humans не предусмотрены настройки. Однако, в Random Face Generator есть возможность задать пол и возраст персонажа на фото. Это лишь некоторые из множества приложений, позволяющих стилизовать фотографии с помощью нейросетей.

Как отличить фото, сгенерированные StyleGAN

Теперь подробнее расскажу о характерных ошибках StyleGAN, которые выдают нейросетевое фото.

Формат изображения. StyleGAN обучен на изображениях с единым стилем - больших портретах, где лишние элементы обрезаны, а видна только голова. В основном такие фотографии делаются для рабочих профилей, пропусков или документов. Однако в социальных сетях такие снимки встречаются редко. Поэтому изображение, сфокусированное только на шее, может быть признаком использования нейросети. Это особенно верно, если например, профиль пользователя содержит всего одну фотографию: генераторы не могут создавать несколько разнообразных снимков одного и того же человека.

Одной из характерных особенностей фотографий, созданных с помощью нейронных сетей, является абстрактный или излишне размытый фон. Такой подход искусственного интеллекта позволяет избежать появления "ошибок второго плана". В случае, если какие-либо детали все же присутствуют на фотографии, они сразу же выдают использование нейросетью. Например, люди на заднем плане могут быть нереалистично нарисованы, дома - кривыми, лес - искаженным.
По мнению нейросети, второй человек на фото— к беде

Лицевые черты в нейросетевом образе отличаются своей особенной гармонией, которую редко увидишь в реальной жизни. Глаза находятся на равном расстоянии от центра лица, создавая идеальную симметрию. Или же, наоборот, возникает необычная асимметрия, где одно ухо превосходит второе в размере, глаза имеют разный цвет и размер.

Проблема особенно явно проявляется в старых итерациях StyleGAN и StyleGAN-2, в то время как генераторов, использующих третью версию алгоритма, пока существует совсем немного.
Присмотритесь к глазам

Неисправности и художественные эффекты. В StyleGAN выделяются некоторые области, где нейронная сеть обычно совершает ошибки. К примеру, это аксессуары: искусственный интеллект предпочитает создавать изображения людей с очками и серьгами, но иногда на них появляются артефакты, напоминающие характерные разноцветные разводы.

Обратите также внимание на волосы и область мочек ушей, где также могут возникать искажения. Например, при использовании нейросети часто возникают изображения сережек, однако иногда она может создать только артефакты вместо них.

Отличный способ потренироваться отличать нейросетевые изображения— сайт Which Face IsReal.
На этом фото типичные проблемы ИИ с ушами

Как отличить фото, сгенерированные другими нейросетями

В следующем разделе мы рассмотрим, что нужно обратить внимание на изображениях, созданных трех других нейросетями: Midjourney, Stable Diffusion и Dall-Е 2. Каждая из них демонстрирует уникальные результаты: некоторые фотографии получаются более реалистичными, в то время как у других фотографий присутствует выраженный художественный стиль. Однако, независимо от специфики каждой нейросети, все они успешно справляются не только с восстановлением изображений, но и с имитацией реальных снимков.

"Как восстановить старое фото с помощью нейросетей: 8 сервисов"

В дополнение к этому, они предлагают больше возможностей по сравнению со StyleGAN. Вы теперь можете настраивать параметры человека на фотографии, включая детали, одежду, выражение лица и окружение, а также установить желаемый ракурс. И это не только ограничено имитацией художественных портретов.

В социальной сети «Твиттер» недавно вспыхнула бурная дискуссия вокруг удивительных изображений, созданных посредством генерации, которые мгновенно переносят нас на эпические вечеринки. Однако, несмотря на их потрясающую реалистичность, пользователи быстро заметили некоторые недостатки в работе нейронной сети.
В кругах арт-энтузиастов могут быть пошуточки о том, что художники мастерят все с изящностью, кроме изображения рук. И в мире нейросетей ситуация не принципиально иная.

Возможно, причина заключается в том, что руки и пальцы являются менее предсказуемыми элементами по сравнению с другими частями тела, которые используются для формирования набора данных для обучения нейронной сети. Они всегда выглядят по-разному и находятся в разных положениях. Если на сгенерированном изображении появляется кисть, то, вероятно, алгоритм выполнит свою работу. Пальцы могут быть кривыми или их может быть слишком много. Поэтому при генерации часто используется команда "Не рисовать руки" или ищутся другие способы их скрытия.

Здесь вы можете узнать, как составлять запросы к Midjourney, Stable Diffusion и другим нейросетям.
Приглядитесь к рукопожатию
На этом снимке даже словно нет необходимости смотреть внимательно - избыточные пальцы мгновенно привлекают внимание.

Глаза - еще один элемент, с которым нейросети часто сталкиваются. Несколько лет назад ситуация была гораздо хуже: в первых сервисах для рисования алгоритмы создавали глаза, как будто отдельные друг от друга, что в результате приводило к их различному цвету и размеру.

На сегодняшний день существуют два основных метода определения нейрофото исходя из глаз: либо они смотрят в разные стороны, либо взгляд человека в целом отсутствует на кадре.
Нейросети продолжают испытывать трудности с прорисовкой двух идентичных зрачков.

Зубы. К ним претензия такая же, как и к пальцам: на нейросетевых фото их обычно слишком много.

Мне непонятно, почему всегда возникают сложности с созданием улыбающихся персонажей со стандартными 32 зубами. Вначале это может показаться незначительным, но при более внимательном рассмотрении появляется так называемая "акулья улыбка".
Наша зубная полость - такая часть нашего внешнего вида, которую мы обычно не замечаем сразу. Однако, как только мы начинаем обращать на нее внимание, трудно перестать задумываться о ее состоянии.

Несмотря на четкую формулировку, нейросети до сих пор не способны четко наносить текст на рисунки. Кроме того, они не способны точно воспроизвести логотип настоящего бренда - вместо этого получается всегда фантазия искусственного интеллекта на эту тему.

Обратите внимание на одежду и надписи на фоне. Если на фотографии человек носит одежду и обувь без видимых брендовых обозначений, это уже является поводом для размышлений.

Также, это относится и к технике. Midjourney обладает знаниями о популярных гаджетах и их внешнем виде. Однако каждая модель отличается некоторым изменением от реальности. Порой это заметно сразу, а порой приходится обратить внимание на детали.

Как определить текст, написанный нейросетью ChatGPT?
Запрос на создание логотипа для Armani не увенчался успехом, однако логотип Nike был выполнен впечатляюще.
Есть очень похожие вариации, например сiPhone14 иPlayStation5
Имеющаяся сцена обладает элементами, как позиция людей, выбор одежды и фон. Для обеспечения оптимальной работы искусственного интеллекта рекомендуется придерживаться простого правила: чем меньше деталей присутствует на изображении, тем больше шансов на успешное взаимодействие с ними алгоритма ИИ.

Современные нейросети продемонстрировали высокую эффективность в создании портретов, на которых удается передать лишь изображение лица. Для достижения этого результата существует множество настроек, которые можно задать текстом: выразить определенную эмоцию, выбрать ракурс и подобрать цветовую гамму. В результате, сгенерированные изображения уже с трудом отличимы от реальных фотографий. Конечно, некоторые недочеты все же присутствуют, но их нужно искать с глазами, так как главный акцент делается исключительно на лице, а детали одежды, туловища, рук, ног и задних планов не требуют такой проработки.
На это нужно пристально посмотреть. Обратите внимание на изящную серьгу, искусственно белоснежные зубы и проницательный взгляд, великолепно контрастирующий с обычным фоном.
На первый взгляд, все было замечательно, пока на сцену не вышла нежелательная фигура. На одной и той же картинке замечена запутанная строка - художественное воплощение автографа фотографа.
Здесь вам потребуется немного внимательности. Обратите внимание на серьгу, зубы и взгляд, которые являются основными деталями на данном скромном фоне.
Все шло отлично, пока в кадр не оказалась неуместная примесь. В этой же картинке можно встретить нечеткую надпись, которая симулирует подпись фотографа.

А что, если мы попробуем сделать фотографии с полным ростом и фоном? В таком случае, нейросети испытывают трудности в обработке такого большого количества различных объектов, что приводит к резкому снижению качества.

Особое внимание уделите деталям одежды и предметам вокруг вас - артефакты могут быть скрыты, но они точно присутствуют.
Если обратить внимание на ноги и обувь, можно заметить, что на этом фото реальность смешалась с фантазией, создавая впечатление нереальности.
Компьютер и отсутствующий взгляд сразу выдают нейросеть
На данном снимке фотография приобретает особую нереальность, особенно при внимательном рассмотрении деталей ног и обуви.
Компьютер и отсутствующий взгляд сразу выдают нейросеть

Что в итоге

Итак, чтобы отличить сгенерированные фото отнастоящих:

Взгляните на формат кадра. Более всего нейронные сети справляются с близкими портретными кадрами, где в основном фокусируется лицо. Основные зоны ошибок на таких фотографиях - глаза, зубы, мочки ушей, волосы.

Обратите внимание на пальцы - их количество может превышать пять и/или они могут быть искажены неестественно.

Тщательно рассмотрите детали, особенно если на фотографии присутствует задний план. Нейронные сети чаще всего рисуют изделия несуществующих брендов, неразборчивые надписи, ошибки в одежде и аксессуарах.

Доверяйте своим инстинктам. Когда мы видим что-то, что очень похоже на настоящего человека, но на самом деле им не является, мы чувствуем эффект "зловещей долины". Иногда вы просто подсознательно понимаете, что на фотографии изображена нейросеть, а не реальный человек.

Вы экспериментировали с созданием изображений при помощи нейронных сетей? Поделитесь с нами своими достижениями и расскажите, какие поисковые запросы вы использовали. Ожидаем с нетерпением вашего ответа!