Original size 1240x1750

Fantasy world // Обучение генеративной нейросети

Описание идеи

Я никогда не была фанатом фэнтези, но фантазировать любила всегда! Собрав небольшой датасет из самых стереотипных фэнтези картинок, я решила поэкспериментировать и создала с помощью Stable Diffusion свои версии того, как выглядел бы наш мир, если бы он был фантазийный.

Dataset //случайные картинки из pinterest//

Так как подобную работу я выполняла впервые, в качестве эксперимента я решила не собирать огромную базу данных и начать с малого. Результат может и не получился бы первоклассного качества, но зато я поняла систему.

Поэтому я сразу после установки всего необходимого выгрузила свои картинки-референсы в среду, в которой работаю.

Original size 2728x1096

Проверив, что изображения открываются, я импортировала модель и создала изображениям заголовки.

Original size 2756x1156

После всего я обратилась к папке с изображениями и сгенерировала префиксы. Так у каждого моего изображения появился промт.

Original size 2733x366

Для следующего шага я зарегестрировалась на сайте Hugging Face и получила токен. Затем внесла его в Colab и таким образом начала обучение нейросети.

Original size 2636x580

Процесс обучения занял около 40 минут. Благодаря этому получилось сформировать итоговую обученную модель, которую я использую для генерации новых изображений по промту на основе стиля выгруженных мной картинок.

Original size 2699x1139

Также я задала параметры выхода на директорий, сохранила в репозиторий и использовала эту модель.

Original size 2728x1159

Последний этап — я наконец то начала вводить свои промты.

Original size 2654x1136

/ Результирующая серия изображений

Для начала теста я взяла Нью Йорк, как самый киношный город, который в первую очередь надо перевести в разряд фантазий. Решила попробовать ввести один и тот же запрос два раза, чтобы посмотреть какой разброс вариантов возможен в таком случае. В итоге вид локации почти не меняется, а вот цвет, ракурс и наполнение — совершенно разные. И в первый раз получился более подходящий образ Таймс сквер в стиле фэнтези, нежели во второй.

prompt = «photo collage in my style, times square, new york»

Было бы странно, если бы я не попробовала переосмыслить город, в котором я живу. В качестве теста я выбрала самую известную локацию в Москве — Красную площадь. Почему-то ИИ решил сделать коллаж в виде наложения разных картинок друг возле друга, но результат все равно получился интересный. От фэнтези ИИ взял потоки энергии, которые он сделал из стен кремля.

Original size 1024x1024

prompt = «photo collage in my style, Moscow, Red Square»

Продолжая свой путь по столицам, я решила еще несколько раз поэкспериментировать в рамках одной локации, в данном случае Лондона, но с разными промтами — с людьми и без. Людей ИИ проработал плохо, а вот автобус на дороге получился восхитительный! Стиль фэнтези очень хорошо внедрился в текстуры неба и перемешался с британским флагом.

prompt = «photo collage in my style, people, London» // prompt = «photo collage in my style, London, Red bus»

Завершила эксперименты я самым стереотипным сюжетом в фэнтези: горы, окружающие задумчивых и мечтательных героев, ведь они буквально смотрят в далекое будущее, а посреди всего этого огромная голова! Так у меня и получилось, когда я указала в промте горы.

Original size 1024x1024

prompt = «photo collage in my style, boy, woman, mountains»

// Разбор результата

В качестве разбора результатов, можно сопоставить заявленную концепцию, исходные изображения и полученный итог.

Первое полученное изображение, на мой взгляд, ярче всех показывает фэнтези в реальном городе: ИИ взял с источников яркие цвета, текстуры и стиль представленного героя. Но также ИИ таким стилистическим решением увел реальный мир все дальше в фантазийный.

Original size 1750x1024

prompt = «photo collage in my style, times square, new york»

Второе изображение по запросу той же самой локации оказалось более реальным — цветовая гамма сохранилась в своем естественном виде, однако от исходников позаимствовалась некая драматичность и апокалиптичность. ИИ также взял текстуры с референсов и перенес их на Таймс Сквер. Текстуры дождя и форма света также продублировались через мой промпт на изображении.

Original size 1750x1024

prompt = «photo collage in my style, times square, new york»

В случае с Москвой, ИИ, по не очень понятным мне причинам, решил собрать одно изображение из большого количества других, созданных им. Но если вглядеться в маленькие изображения в нем, то сохранить концепцию фэнтези в реальном мире определенно удалось: с исходных изображений были взяты приемы визуализации потока воздуха /энергии/, которые образуют некие клубы этих самых потоков. Части сооружений как будто расслаиваются и улетают, что еще раз подчеркивает присутствие фэнтези в совершенно не фантазийном.

Original size 1750x1024

prompt = «photo collage in my style, Moscow, Red Square»

Люди, на мой взгляд, хуже всего получились у ИИ. Это могло произойти по причине того, что я в его обучении использовала очень небольшое количество изображений с лицами людей. Однако, я заметила, что те лица, которые оказались более менее прорисованными, очень похожи на тех, кто был изображен на исходниках, что подтверждает результативность моего обучения ИИ. Текстуры города имеют такие же отсылки к деконструктивизации, что и предыдущие изображения, тем самым так же отсылают нас к фэнтазийной концепции.

Original size 1750x1024

prompt = «photo collage in my style, people, London»

Вторая вариация промта про Лондон, где уже нет никаких людей, является, на мой взгляд, самым идеальным проявлением заявленной концепции. ИИ не просто копировал и вставил отличительные черты фэнтези, а переработал смыслы и доработал их по-отношению к реальности. Мы можем увидеть с одной стороны идеально сложенные автобус и автомобиль, но с другой стороны небо и воздух полностью переработаны в соответсвии с законами мира фэнтези, но при этом несут смысли реальности, такие, как например британский флаг.

Original size 1750x1024

prompt = «photo collage in my style, London, Red bus»

Заключительное изображение больше всего отражает строение смыслов в мире фэнтези. На первый взгляд сложно найти какие-либо отсылки к концепции помимо огромной головы в центре изображение. Но на самом деле это изображение полно не визуальных кодов, а смысловых, где транслируется значимость пути, необходимость пауз в жизни и стремление к будущему. По приведенным в левой стороне исходных изображениям можно увидеть, что ИИ по-своему интерпретировал и лицо девушки с референса, и смысловую нагрузку у воина в горах. Отсылаясь к первоисточникам, ИИ предложил достойным вариант мира фэнтези в реальной жизни.

Original size 1750x1024

prompt = «photo collage in my style, boy, woman, mountains»

/// Блокнот и датасет

Stable Diffusion — обучение генеративной нейросети под свой стиль.

Hugging Face — получения токена для обучения нейросети.

Fantasy world // Обучение генеративной нейросети

Mariia Tsarevskaia

artificial intelligence