Concise Research

PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis

Тех. репорт в продолжение темы латентной трансформерной диффузии, показывавший топовое (на момент выхода) качество генерации. Свои успехи авторы объясняют тремя факторами. Рассмотрим их по порядку.

Декомпозиция обучения. Во время обучения, модель должна научиться находить взаимосвязи между пикселями, связь текст-картинка и из всех возможных генераций порождать только эстетичные. Идея в том чтобы разбить обучение на стадии, в ходе которых модель учится каждой из подзадач отдельно.

Модель сначала учат на class-conditional генерацию ImageNet256, после чего дообучают на датасетах с хорошими (длинными, подробными) описаниями и эстетичными картинками соответственно, не меняя исходного разрешения. В конце есть еще две стадии файтнюнинга, в рамках которых продолжается обучение на эстетическом датасете, но разрешение повышают сначала до 512х512, а потом до 1024х1024. Занятно, что эстетический датасет на треть состоит из генераций MidJourney.

Обновленный DiT. В статье по Diffusion Transformer уже предлагалась архитектура на основе ViT с добавлением кондишенинга на время и класс генерируемого изображения. Авторы предлагают кондишениться на текст с помощью cross-attention, а также еще раз модифицируют многострадальный AdaLN слой, поскольку обуславливание на класс больше не актуально. Помимо этого, предлагается репараметризация послойных MLP для кодирования t на один общий MLP с небольшой модуляцией, что уменьшает эффективное число параметров, не раняя качество.

Улучшенный датасет. В очередной раз подчеркивается важность подробных описаний к картинкам и польза синтетических данных из SAM и LLaVA. Идея концептуально похожа на CapsFusion, хоть детали и не раскрываются.

Итоговая модель на основе DiT-XL/2 с T5-XXL текстовым энкодером и VAE из LDM обучается на 64 v100 в течение 26 дней. Модель генерит очень похоже на MidJourney, выдавая качественные картинки за 20 шагов DMP. У модели остаются проблемы с руками и текстами. Код есть.

👍3

627 viewsSergey Kastryulin, 10:21