Generative Ai@deeplearning

Generative Ai

🚀 Sana: новая модель для генерации 4K-изображений от NVIDIA 🚀

Sana — революционная генеративная модель от NVIDIA, обеспечивающая эффективную генерацию изображений высокого разрешения (до 4K) благодаря инновационной архитектуре.

### 🔑 Ключевые компоненты:
- 🟢 Deep Compression Autoencoder (DC-AE)
Сжимает изображение в 32 раза, минимизируя число латентных токенов. Это ускоряет обучение и делает возможной генерацию изображений сверхвысокого разрешения.

- 🟢 Linear Diffusion Transformer (Linear DiT)
Использует линейное внимание вместо традиционного, ускоряя генерацию 4K-изображений в 1.7 раза. Вместо стандартного MLP-FFN применяет Mix-FFN (свёртка 3x3 и Gated Linear Unit), что позволяет отказаться от позиционного кодирования без потери качества.

- 🟢 Decoder-only Small LLM as Text Encoder
Основан на LLM Gemma, что улучшает интерпретацию текстовых запросов. Точные и понятные описания пользователя преобразуются в реалистичные визуальные результаты.

### 🎨 Почему Sana?
1. Оптимизация генерации: Быстрее, меньше вычислительных затрат, без снижения качества.
2. 4K-графика: Полный контроль над деталями изображения.
3. Интеллектуальный текстовый энкодер: Максимально точный перенос задумки пользователя в изображение.

🔗 [Демо и описание модели Sana](https://nvlabs.github.io/Sana/)

www.tgoop.com/deeplearning_ru/969

988 viewsNov 22 at 07:26

tgoop.com/deeplearning_ru/969

Create: 2024-11-22
Last Update: 2025-02-11 13:57:24

BY Generative Ai

Share with your friend now:
tgoop.com/deeplearning_ru/969

Telegram News

🚀 Sana: новая модель для генерации 4K-изображений от NVIDIA 🚀