Original size 2480x3508

Анимация AI: новые возможности, вызовы и ограничения

60
big
Original size 0x0

Gen-2

Рубрикатор:

1. Концепция исследования 2. Видео из текста 3. Motion capture: мультипликационная анимация 4. Motion capture: реалистичная анимация 5. Motion capture: игровая анимация 6. Заключение

Концепция

Исследование анимации, сделанной искусственным интеллектом, это уникальная возможность изучения того, как алгоритмы машинного обучения и нейронные сети могут быть полезны для создания анимации. В исследовании будет проведена параллель преимуществ и недостатков такого подхода к созданию мультипликационных произведений.

Цель данного исследования — изучить, какие возможности ограничивают процесс создания анимации с помощью алгоритмов машинного обучения и какие возможности этот метод дает. В особенности, исследование должно сосредоточиться на том, как алгоритмы машинного обучения могут улучшить качество анимации, уменьшить время на ее создание и уменьшить затраты на процесс производства.

Для проведения исследования будут использоваться алгоритмы глубокого обучения, такие как генеративно-состязательные нейронные сети (GAN) и сверточные нейронные сети (CNN). Эти алгоритмы будут применяться к анимации различного типа, включая 2D- и 3D-анимацию, как реалистичную так и мультипликационную, с целью создания новой анимации или улучшения уже существующей.

Для оценки эффективности этих алгоритмов будут использоваться качественные и количественные показатели, такие как время на создание анимации, число требующихся ресурсов, вроде затраченных ресурсов компьютера и количества людей в группе необходимой для реализации анимации, сравнение качества существующей анимации с различными уровнями использования методов машинного обучения.

big
Original size 1433x606

Gen-2

В процессе исследования будет уделено внимание также вопросам относительно этики и прозрачности использования искусственного интеллекта в создании анимации, а также того, какие возможности и ограничения создают умные алгоритмы при работе с анимацией.

В итоге, на основе результатов исследования будут выявлено насколько алгоритмов машинного обучения могут быть полезны для создания анимации.

Видео из текста

При создании видео из текста нейронные сети преобразуют текстовый скрипт написанный человеком в видео-содержимое, воссоздавая все необходимые данные, такие как основные концепты, сцены, панорамы и действия, а также звуковые эффекты и музыку. При этом не имея никаких других данных.

Loading...

Это пример достаточно распространенной техники анимации, выполненной с помощью нейронных сетей. Данная техника основана на перетекании изображения в изображение, и является началом эпохи анимации, создаваемой с помощью нейронных сетей.

Loading...

Данный клип также был задан письменными запросами и представляет собой перетекающие из одной в другую картинки, но уже в стиле аниме.

Loading...

Инициатор под ником Hopps в YouTube с помощью Stable Diffusion преобразовал отрывок и фильма «Парк юрского периода» в стиле игры «Zelda».

Это видео демонстрирует эффективный способ конвертирования изображений в видео с использованием Stable Diffusion. Каждый кадр преобразуется в шум через специальные команды в AI, а после преобразуется в видео стилизованным под «Zelda». В результате получается более плавное видео сгенерированное по шумной картинке, основанной на оригинальном изображении. Это был первый тестовый запуск и данный метод будет совершенствоваться в будущем для более лучшей визуализации.

Loading...

Данный клип существует в съемочной версии. Часть этого клипа пропустили через нейронную сеть и получили представленный результат.

Original size 1920x736

В сети Интернет наблюдается значительное количество видео, получивших название «Harry Potter By Balenciaga», которые были полностью созданы с использованием нейросетей.

При создании этих видео был использованы: ChatGPT, Midjourney, II Eleven Labs и D-ID Creative Reality Studio.

Для начала в ChatGPT был задан запрос для составления списка самых популярных персонажей Гарри Поттера. Затем, ChatGPT выступал в роли модельера Belanciaga и, исходя из личных предпочтений, наряжал персонажей в уникальную продукцию в стиле Гарри Поттера, соответствующую показам 1990 года. В результате, ChatGPT сгенерировал описание внешнего вида для каждого персонажа.

Original size 1920x1075

Созданный искусственным интеллектом «Гарри Поттер» от Balenciaga

Затем, это описание было отправлено в Midjourney, где основываясь на текстовом описании искусственный интеллект создавал изображение персонажей. После достижения требуемого результата, брался отрывок со звуковой записью голоса нужного актера для будущего видео и отправлялся в II Eleven Labs, где искусственный интеллект изучал голосовую запись и создавал фразу, которая позже была озвучена голосом этого актера.

Original size 3300x816

Затем с помощью сайта D-ID Creative Reality Studio, выгружают созданных в Midjourney персонажей и сгенерированные в II Eleven Labs фразы для создания липсинга или анимации говорения. Также на этом сайте были представлены скрипты, которые помогли создавать «айдл» анимацию или анимацию в покое.

Loading...

Видео Balenciaga крайне плавные и практически не имеют дрожащего эффекта, который наблюдался во многих предыдущих видео, но эффект съезжание лица достаточно режет глаз, а также анимация лица крайне роботизирована.

Loading...

Таких видео множество, с бесчисленным разнообразием образов, как из фильмов, так и реальных людей.

Loading...

Abandoned Worlds 2.0 был сгенерирован при помощи обновленной модели искусственного интеллекта GEN-2. Для создания данного видео был написан подробный текст, описывающий происходящее в каждой сцене.

Несколько примеров анимации в Gen-2

Original size 768x448

анимация Gen-2

В процессе создания видео на основе текстовых описаний, GAN использует алгоритмы, которыми обучена машина, чтобы определить, какой видео-контент лучше всего подходит к текстовому описанию. Затем используется генерация изображений, чтобы создать соответствующее видео. Это достигается путем обработки кадров видео для создания плавных переходов и соответствия между описанной в тексте сценой и генерируемым видео.

Original size 768x448

анимация Gen-2

Разрабртка NVIDIA

Original size 864x540

Nvidia Toronto AI Lab

NVIDIA использует метод глубокого обучения под названием VideoLDM для создания видео с помощью искусственного интеллекта. Они обучают нейронную сеть на большом количестве видео, чтобы она могла анализировать и запоминать связь между пикселями в кадре. VideoLDM научилась использовать технику локального декодирования внутри кадра (LDM), которая позволяет нейронной сети учитывать контекст внутри каждого кадра, а также глобальную информацию на уровне всего видео для генерации более качественных и естественных видео.

Полную коллекцию видео можно увидеть по ссылке: Nvidia Toronto AI Lab

Motion capture: мультипликационная анимация

Loading...

Carpenter Brut TURBO KILLER выполнен в 3D, а персонажи являются настоящими актерами, снятыми на зеленом фоне. После съемок они прошли процесс композитинга.

Hopps, который сделал «Парк юрского периода» в Stable Diffusion, также пропустил Carpenter Brut TURBO KILLER через нейросеть и получил представленный результат. По сути, нейросетью был создан постэффект в стиле дипфейк.

Оригинальное видео можно найти по ссылке: † Carpenter Brut † TURBO KILLER † Directed by Seth Ickerman † Official Video †

Loading...

Команда Corridor Digital создала действительно революционное видео, используя прогрессивный метод дополненной реальности, где искусственный интеллект анализирует и трансформирует видеоматериал. Чтобы добиться такого результата картинки, подвергнутые диффузионному искажению или очень простые эскизы выгружают в AI, который на основе этих картинок может создавать новые изображения, но в данном случае команда Corridor загрузила видео.

Original size 2480x707

этапы работы с нейронной сетью

Однако, в создании видеоматериала с использованием AI есть проблема мерцания элементов. Усиление шума в кортиках позволяет уменьшить это мерцание. Когда мы добавляем много шума в видео, кадры практически перестают меняться между собой, поэтому и исходное видео, обработанное искусственным интеллектом, становится менее мерцающим. Однако идеального результата, в итоге получить не удалось.

Для обеспечения единого стиля и схожести внешнего вида между кадрами, команда обучила свою собственную модель рисовать все объекты и персонажей видео в одном стиле. После, в модель были выгружены множество фотографий актера, чтобы модель считывала черты лица и не меняла их между кадрами.

Заключительной стадией обработки видеоматериала стала инсталляция плагина Deflicker в Davinci Resolve, что сделало готовое видео практически без мерцания. Конечный результат стал практически идеальным.

Original size 0x0

анимация Gen-2

Анимация Gen-2, выполненная в такой же технике.

Loading...

Как и в предыдущих нескольких видео stable diffusion в данном видео выполняет только постобработку, посредством которого достигался эффект живописной картины.

Original size 2584x720

Coca Cola Stable Diffusion AI Ad making off, первая картинка демонстрирует эффект, создаваемый AI

Для симуляции воды и создания анимации персонажей была использована компьютерная графика, после чего съемочный материал и метт-пейнтинг были смонтированы вместе с трехмерной графикой.

Original size 2584x720

Coca Cola Stable Diffusion AI Ad making off

Разработка Paranormal studio

Original size 1920x1080

Paranormal studio

Paranormal studio разработала свой собственный стабилизатор AI видео, после применения которого дрожания вообще нет. Видео сгенерированы с реальных видео, итоговые результаты похожи на живые картины. Сами видео и процесс их создания можно посмотреть по ссылке: Paranormal studio Deep Animation research

Motion capture: реалистичная анимация

Loading...

Дмитрий Алексеев, автор трейлера, написал, что потратил 145 дней на реализацию видеоролика, в котором была применена нейросеть Midjourney, а также осуществлена запись его мимики в сочетании с актерским мастерством, которая впоследствии была обработана посредством Midjourney.

Loading...

Система предоставленная Wonder Studio имеет возможность автоматически определять действия актера в кадрах, снятых одной камерой. Затем полученные данные могут быть переданы компьютерному персонажу, который был выбран вами и актер в видео будет автоматически заменен на выбранную модель. Освещение будет подобрано в соответствии с освещением фона.

Original size 768x319
Loading...

Разработка прототипа ведется в компании Meta, признанной экстремистской организацией в России.

Чтобы создать аватара, используется специализированное устройство, оснащенное 132 камерами, которые захватывают лицо и создают из этих данных аватара. После того, как аватар будет создан, можно управлять им с помощью прототипа виртуальной гарнитуры, которую надевают на голову, как продемонстрировано на видео. Данная гарнитура оснащена тремя камерами, ориентированными на левый глаз, правый глаз и рот.

Original size 1920x1080

Установка захвата, которая используется для создания аватаров

Чтобы все необходимые данные с лица переносились на виртуальную модель, используется машинное обучение, которое в автономном режиме делает зачистку захваченных с помощью этих камер данных. При захвате движения нередко появляются артефакты, с дрожанием лица, странным отлетом глаз в стороны и другими багами, машинное обучение в реальном времени зачищает подобные артефакты.

Motion capture: игровая анимация

Loading...

В этом видео демонстрируется, как Unreal Engine 5.2 использует новейшие технологии, такие как нейросети обученные на симуляции мускулатуры в Houdini FX, что позволяет достичь более реалистичной кинематографичной анимации. В процессе разработки Unreal Engine 5.2 были приняты самые передовые решения на основе обучения машинного и глубокого обучения, что позволило создавать анимацию мускулатуры, которую ранее можно было получить только с помощью Houdini FX. Теперь нейросеть встроенная в Unreal Engine 5.2 умеет воспроизводить идеальную кинематографичную анимацию мускулатуры в режиме реального времени, сочетая передовые технологии и передовой дизайн в одном мощном инструменте.

Кроме того, Unreal Engine 5.2 также поддерживает конвертирование видео посредством технологии Motion Vector на основе искусственного интеллекта, что позволяет аниматорам конвертировать обычное видео с мимикой реальных людей в игровую анимацию в режиме реального времени. Этот процесс может быть автоматизирован с использованием нейросетевых алгоритмов, что позволяет создавать еще более высококачественные видео с минимальными усилиями со стороны аниматора.

Таким образом, использование нейросетей в Unreal Engine 5.2 может увеличить скорость обработки видео и оптимизировать настройки рендеринга, а также поддерживать конвертацию данных и интеллектуальную обработку.

Примером демонстрации новых возможностей Unreal Engine стал анимационный сериал «Ева. Связь сквозь время» от студии It’s Alive.

Original size 1920x1080

«Ева. Связь сквозь время» 2023 студия It’s Alive

Суть процесса анимации заключается в следующем: на актера надевается специальный костюм, оборудованный датчиками, которые фиксируют движения в определенных точках его тела. Эти движения затем передаются в компьютер в виде скелетной анимации, которая редко выглядит достоверно и имеет множество дрожащих элементов и излишних движений.

Original size 936x524

Дубль захвата движений и мимики из сцены первой серии

До недавнего времени аниматорам приходилось вручную очищать записанные движения, чтобы улучшить точность переноса движений на экран, однако теперь усовершенствованный метод обработки видео с помощью нейросетей встроенных в unreal engine позволяет делать это быстрее и более эффективно.

Original size 1600x693

«Ева. Связь сквозь время» 2023 студия It’s Alive

На съемочной площадке, при производстве анимационного сериала «Ева. Связь сквозь время», благодаря использованию технологий Unreal Engine, все участники производства могли одновременно видеть героев фильма в проработанных декорациях и фотореалистичном свете. Эта функция доступна в режиме реального времени. Полученный результат позволяет достичь максимальной близости к реальному кинопроизводству, облегчая работу актеров с мизансценой, камерой и освещением. Возможность видеть готовый эффект до того, как сцена запечалится на видео, ускоряет и упрощает производственный процесс, принося в итоге лучший результат съемок.

Loading...

Общее время реализации всей анимации для 3-х серий составило 2 месяца, а в проекте участвовало 25 человек. Сравнивая этот проект с «Джибаро» из сериала «Любовь. Смерть. Роботы», на реализацию которого ушел год и семь месяцев, и в создании которого принимало участие 171 человека, можно говорить о колоссальном результате.

Original size 1920x968

Процесс производства

Однако, если говорить о качестве анимации, то здесь результат не столь убедительный и ощутимо уступает многим подобным проектам, выполненным за гораздо больший срок командой из большого количества участников и выполненный вручную. Анимация вызывает ощущение зловещей долины, персонажи делают излишне много дополнительных движений, таких как беспорядочные повороты головы. Местами анимация плавает без остановок, а движения рук выглядят крайне неубедительно с точки зрения игры. В этом вопросе есть зависимость от качества игры актеров, но это можно доработать вручную, так как машинное обучение пока не может с этим справиться.

Заключение

Original size 1942x600

Dribbble

Использование искусственного интеллекта в анимации на данный момент открывает огромные возможности для экспериментов и изобретательства. Множество энтузиастов уже занимаются такими экспериментами и достигают потрясающих и невообразимых результатов, что позволяет прогнозировать дальнейшее развитие этой технологией в будущем.

Многие работы сейчас выглядят сыро, но даже в рамках самого исследования наблюдается колоссальная эволюция, учитывая, что между представленными работами разница не более 6 месяцев. Стоит прогнозировать что искусственный интеллект в недалеком будущем станет незаменимым инструментом, который будет помогать анимационным студиям при создании видеороликов.

Некоторые представители сообщества художников относятся к использованию искусственного интеллекта с опаской и страхом, что AI может полностью заменить работников в сфере искусства. Однако, даже при использовании искусственного интеллекта на производстве, особенно в крупных проектах, всё ещё требуется большое количество художников и знаний определенного ПО. Сокращение штата сотрудников не компенсируется использованием искусственного интеллекта.

AI надо не бояться, им нужно научиться грамотно пользоваться. Однако, когда речь заходит об этике, искусственный интеллект совершает воровство интеллектуальной собственности. Это правильно? Вряд ли. Нужно ли принимать меры по этому поводу? Возможно. В конечном итоге, решение будет зависеть от людей и от того, какие шаги они предпримут для развития искусственного интеллекта или избавления от него, как от потенциального нарушителя.

Bibliography
Show
1.

Любовь, дедлайн и роботы: как именно нейросети помогают создавать анимацию // Кинопоиск [Электронный ресурс]. Режим доступа: https://www.kinopoisk.ru/media/article/4007773/ (дата обращения 30.04.2023).

2.

CGI VFX Breakdowns HD «Making of TURBO KILLER» by Seth Ickerman | CGMeetup // Dailymotion [Электронный ресурс]. Режим доступа: https://www.dailymotion.com/video/x6ii5jg (дата обращения 30.04.2023).

3.

«Дом мечты» Трейлер фильма, сделанный одним человеком с Midjourney // Picuki [Электронный ресурс]. Режим доступа: https://www.picuki.com/media/2997418280418925476 (дата обращения 30.04.2023).

4.

Прототип фотореалистичных аватаров Meta (признана экстремистской организацией в России) // Uploadvr [Электронный ресурс]. Режим доступа: https://www.uploadvr.com/meta-codec-avatars-iphone-scan/ (дата обращения 01.05.2023).

5.

Did We Just Change Animation Forever? // YouTube [Электронный ресурс]. Режим доступа: https://www.youtube.com/watch?v=_9LX9HSQkWo (дата обращения 01.05.2023).

6.

An AI tool that automatically animates, lights and composes CG characters into a live-action scene // Wonder Dynamics [Электронный ресурс]. Режим доступа: https://wonderdynamics.com/ (дата обращения 02.05.2023).

7.

How AI Is Breathing Life Into Animation // Analytics India Magazine / Ritika Sagar [Электронный ресурс]. Режим доступа: https://analyticsindiamag.com/how-ai-is-breathing-life-into-animation/ (дата обращения 29.04.2023).

8.

MIDAS TOUCH INTERACTIVE LAUNCHES «MIDAS CREATURE» — 2D AUTOMATED ANIMATION ENGINE AND WORKFLOW TO QUICKLY AND EASILY CREATE COMPLETE ANIMATIONS // Lulop [Электронный ресурс]. Режим доступа: https://lulop.com/en_EN/post/show/130082/midas-touch-interactive-launch.html (дата обращения 29.04.2023).

9.

The Future of Animation with Artificial Intelligence // Analytics insight [Электронный ресурс]. Режим доступа: https://www.analyticsinsight.net/the-future-of-animation-with-artificial-intelligence/ (дата обращения 01.05.2023).

10.

Can Artificial Intelligence (AI) Replace Animators Job in the Future? // Kasra design [Электронный ресурс]. Режим доступа: https://www.kasradesign.com/can-artificial-intelligence-ai-replace-animators-job-in-the-future/#:~:text=While%20AI%20can%20assist%20animators,bring%20to%20the%20animation%20process. (дата обращения 29.04.2023).

11.

AI in the World of Animation: From Storytelling to Visual Effects // TS2 space / Marcin Frąckiewicz [Электронный ресурс]. Режим доступа: https://ts2.space/en/ai-in-the-world-of-animation-from-storytelling-to-visual-effects/ (дата обращения 01.05.2023).

12.

Why AI In Animation Changes The Game // Business of animation [Электронный ресурс]. Режим доступа: https://businessofanimation.com/why-ai-in-animation-can-change-the-game/#:~:text=AI%20in%20animation%20allows%20animators,the%20audiences'%20engagement%20with%20animation. (дата обращения 01.05.2023).

13.

Towards Lightweight Neural Animation: Exploration of Neural Network Pruning in Mixture of Experts-based Animation Models // Cornell privately endowed research university and a partner of the State University of New York / Antoine Maiorca, Nathan Hubens, Sohaib Laraba and Thierry Dutoit [Электронный ресурс]. Режим доступа: https://arxiv.org/pdf/2201.04042.pdf (дата обращения 28.04.2023).

Image sources
Show
1.

Любовь, дедлайн и роботы: как именно нейросети помогают создавать анимацию // Кинопоиск [Электронный ресурс]. Режим доступа: https://www.kinopoisk.ru/media/article/4007773/ (дата обращения 30.04.2023).

2.

Прототип фотореалистичных аватаров Meta (признана экстремистской организацией в России) // Uploadvr [Электронный ресурс]. Режим доступа: EXISTING_LINK_0_1761361484710_0q0×80oxn (дата обращения 01.05.2023).

3.

Deep Animation research // Paranormal studio [Электронный ресурс]. Режим доступа: https://www.artstation.com/artwork/LeowXK (дата обращения 02.05.2023).

4.

An AI tool that automatically animates, lights and composes CG characters into a live-action scene // Wonder Dynamics [Электронный ресурс]. Режим доступа: https://wonderdynamics.com/ (дата обращения 02.05.2023).

5.

Balenciaga AI Videos. Part of a series on AI Video. // Know Your Meme [Электронный ресурс]. Режим доступа: https://i.kym-cdn.com/entries/icons/original/000/044/377/cover4.jpg (дата обращения 02.05.2023).

6.

A multi-modal AI system that can generate novel videos with text, images, or video clips. // Gen-2 [Электронный ресурс]. Режим доступа: https://research.runwayml.com/gen2 (дата обращения 03.05.2023).

Анимация AI: новые возможности, вызовы и ограничения
60