Original size 2280x3200

Обучение модели Stable Diffusion в стиле фигурок PopMart

PROTECT STATUS: not protected

Идея проекта

Идея для обучения генеративной нейросети заключается в том, что бы обучить ее рисовать персонажей в стилистике фигурок Pop Mart. Pop Mart — это китайская компания, специализирующаяся на коллекционных дизайнерских игрушках. Для обучения я собрала датасет из квадратных картинок, в одинаковом разрешении, с фигурками из разных коллекций. В частности из коллекции Skullpanda.

фигурки PopMart. коллекция Skullpanda

Датасет

big
Original size 1907x1370

Был собран датасет из 52 квадратных картинок. Все они отформатированы под размер 512×512. При выборе изображений ключевой задачей было найти наиболее разные по цветам, формам и позам картинки, но при этом ± в одной стилистике. Все это послужило тому, что бы модель смогла считать стиль персонажей для генерации будущих картинок.

Процесс обучения

0

Итоговые изображения

Original size 2048x2048

prompt: «person in skullpanda style, open eyes, doll, yellow hair, toy, tinker bell costume»

Original size 2048x2048

prompt: «person in skullpanda style, closed eyes, doll.»

Первые попытки сгенерировать персонажей были в полне удачные. Стилистика начинает прослеживаться, особенно в лице. Анатомия хромает. Было решено попробовать разные варианты lora_scale.

Original size 2048x2048

prompt: «person in skullpanda style, closed eyes, doll, angel whith white hurt.»

Original size 2048x2048

prompt: «person in skullpanda style, closed eyes, doll, angel whith white hurt.»

Original size 2048x2048

prompt: «person in skullpanda style, closed eyes, doll, angel whith white hurt.»

Подача и форма становится более похожа на оригинальные изображения, но анатомия так же хромает и все стала более «облачной». Было принято решение прописать негативный промпт.

Original size 2048x2048

prompt: «person in skullpanda style, closed eyes, doll, angel whith white hurt, tinker bell.»

Original size 2048x2048

prompt: «person in skullpanda style, closed eyes, doll, angel, dark hair.»

Original size 2048x2048

prompt: «person in skullpanda style, closed eyes, doll, blonde hair, merlin monroe.»

Original size 2048x2048

prompt: «person in skullpanda style, closed eyes, doll, angel whith white hurt.»

Обучение модели Stable Diffusion в стиле фигурок PopMart