tgoop.com/deeplearning_ru/969
Last Update:
🚀 Sana: новая модель для генерации 4K-изображений от NVIDIA 🚀
Sana — революционная генеративная модель от NVIDIA, обеспечивающая эффективную генерацию изображений высокого разрешения (до 4K) благодаря инновационной архитектуре.
### 🔑 Ключевые компоненты:
- 🟢 Deep Compression Autoencoder (DC-AE)
Сжимает изображение в 32 раза, минимизируя число латентных токенов. Это ускоряет обучение и делает возможной генерацию изображений сверхвысокого разрешения.
- 🟢 Linear Diffusion Transformer (Linear DiT)
Использует линейное внимание вместо традиционного, ускоряя генерацию 4K-изображений в 1.7 раза. Вместо стандартного MLP-FFN применяет Mix-FFN (свёртка 3x3 и Gated Linear Unit), что позволяет отказаться от позиционного кодирования без потери качества.
- 🟢 Decoder-only Small LLM as Text Encoder
Основан на LLM Gemma, что улучшает интерпретацию текстовых запросов. Точные и понятные описания пользователя преобразуются в реалистичные визуальные результаты.
### 🎨 Почему Sana?
1. Оптимизация генерации: Быстрее, меньше вычислительных затрат, без снижения качества.
2. 4K-графика: Полный контроль над деталями изображения.
3. Интеллектуальный текстовый энкодер: Максимально точный перенос задумки пользователя в изображение.
🔗 [Демо и описание модели Sana](https://nvlabs.github.io/Sana/)
BY Generative Ai
![](https://photo2.tgoop.com/u/cdn4.cdn-telegram.org/file/nkrYALgCEDc8_1sxv5DnAIgbCE96GB-agZZ2hCzHd4Tw-Y1VSMl1vFilv3QkGIyQnpInywUG_8vOl-3HTiQmy8-TWdkAtfsETsYWkdqu5hIg32gng3Q6-ZeroF5zmDJSToGDG-C4RRaB8HmglAdMarY6KyMH9rUnxZi7qShdDnaXgRL3qEGrWZTHswB_IlK_vMHqxLbW3XSQ7AsYBIB-KzNtukjtoCrvXGF4s-udkIYb5mCSLX0rkLOf9COdzVyiFIG8JT630mw265W-uQ7rMiDSAppbKjHCfdVJVyhHuiE7MX25uf33uq7Sy7qVHiLWVVGB1f3lOhQA2PwJEa4nJg.jpg)
Share with your friend now:
tgoop.com/deeplearning_ru/969