Изучение Представлений: Генеративная модель обучается извлекать значимые признаки и представления из данных, переводя их в латентное пространство. Эти представления должны захватывать важные атрибуты или характеристики данных; разные кодировки могут приводить к более или менее запутанным комбинациям факторов, которые объясняют вариации в данных.
Уменьшение Размерности: Латентные пространства, как правило (хотя и не всегда), имеют меньшую размерность по сравнению с исходным пространством данных. Это уменьшение размерности помогает упростить процесс моделирования и делает его более доступным, особенно при работе со сложными и высокоразмерными данными. Это упрощает семантическое исследование латентного пространства и изучение свойств векторной арифметики факторов вариации.
Непрерывность и Гладкость: Латентное пространство часто характеризуется непрерывностью и гладкостью, что означает, что малые изменения в координатах латентного пространства приводят к плавным изменениям в сгенерированных данных. Это свойство позволяет плавно интерполировать между точками данных, что приводит к постепенным трансформациям в сгенерированных данных и открывает возможности для творческого исследования возможностей генеративной модели.
Интерполяция и Манипуляция: Латентные пространства позволяют выполнять осмысленные манипуляции с данными, не выходя за пределы их многообразия. Любую операцию редактирования данных можно рассматривать как подходящую траекторию в латентном пространстве, что позволяет выполнять такие задачи, как изменение определенных атрибутов или даже более сложные операции, например, поворот головы на изображении.
Адаптация К Домену и Перенос Стиля: Латентные пространства также могут способствовать адаптации к различным доменам и переносу контента или стиля, где модель учится разделять разные факторы вариации (такие как стиль и содержание) и переносить их между образцами.
Условное Генерирование: Условное генерирование в генеративных моделях влияет на процесс создания данных, предоставляя дополнительную информацию. Эта информация, называемая «условием» или «контекстом», направляет вывод модели так, чтобы он соответствовал желаемым характеристикам. Это позволяет контролировать генерацию контента, делая модель более адаптируемой и универсальной, а также усиливая её способность создавать контекстуально релевантные и связные результаты.
Существует множество классов генеративных моделей, которые исследовались на протяжении многих лет, включая Генеративные Состязательные Сети (GANs), Вариационные Автокодировщики (VAEs), Авторегрессионные Модели, Нормализующие Потоки, а также недавно появившиеся Диффузионные Модели с Денойзингом.
Генеративные Состязательные Сети (GANs) долгое время были наиболее влиятельными и широко используемыми генеративными моделями. GAN состоит из двух нейронных сетей: генератора и дискриминатора. Генератор создает образцы данных, а дискриминатор различает реальные и сгенерированные образцы. Благодаря состязательному обучению генератор улучшает свою способность создавать всё более реалистичные образцы. Эти сети показали впечатляющие результаты в создании высококачественных данных, особенно изображений и произведений искусства, добившись множества прорывов и популяризируя генеративные методы.
Ведущая роль Генеративных Состязательных Сетей недавно была оспорена Диффузионными Моделями с Денойзингом (DDM), которые стремительно становятся новой передовой технологией в глубоком генеративном моделировании.
Концептуальная Основа DDM: Фундаментально, латентное пространство в DDM состоит из полностью зашумленных изображений, которые постепенно преобразуются через итеративный процесс денойзинга, в итоге создавая образцы, напоминающие те, что были в обучающей выборке.
Чтобы визуализировать этот процесс, представьте себе шум в исходном изображении как облако пыли, которое постепенно сгущается, формируя твёрдую форму, соответствующую образцу из заданного распределения. Разные облака шума приведут к созданию различных образцов. Модель стремится распознать основные принципы, управляющие этим феноменом постепенного схождения.