Warning: file_put_contents(aCache/aDaily/post/Psy_Eyes/-2466-2467-2436" target="_blank" rel="noopener" onclick="return confirm('Open this link?\n\n'+this.href);">Skyreels</a> и <a href="https://huggingface.co/stepfun-ai" target="_blank" rel="noopener" onclick="return confirm('Open this link?\n\n'+this.href);">Stepfun</a>, то они более детальную стабильную картинку выдают, но их и завезти ввиду размеров тоже не просто. В том же <a href="https://t.me/Psy_Eyes/2302-): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
Psy Eyes@Psy_Eyes P.2467
PSY_EYES Telegram 2467
Alibaba: выпустили опенсорсный видеогенератор Wan 2.1 в размерах от 1.3B до 14B.

Следование промту хорошее, в том числе и на динамичных сценах. Качество сильно скачет: где-то оно годное, чем ближе промт к датасету и выше разрешение, но зачастую всё плывёт и очень шумное, либо покрывается артефактами. Особенно, если разрешение ниже значений, на которые модель заточена.

Если сравнивать с недавними Skyreels и Stepfun, то они более детальную стабильную картинку выдают, но их и завезти ввиду размеров тоже не просто. В том же Хуньяне сгенерить искомое получалось значительно быстрее с более качественным изображением.

Есть поддержка мульти-GPU и улучшение промта с помощью Qwen (локально или и по API хаггинга). Как и Хуньянь модель может генерить и просто картинки. Но Wan ещё и умеет в английский/китайский текст на видео. Плюс у Wan нет цензуры и коммерческая лицензия, а значит притяжение сообщества будет.

Wan может генерить видео как по тексту, так и картинкам в разрешении от 480p до 720p. Позже говорят подъедет 1080p.

Text-2-video (T2V) моделей две: размером 1.3B и 14B. Вариант 1.3B потребляет 8 ГБ VRAM и 5 секундное видео в 480p на 4090 будет генерить 4 минуты. Правда выходные результаты для 2025 года будут смотреться так себе. Модель размером 14B уместится в 24 ГБ, если сделать разрешение в районе 400х400, но там и будет сильная потеря в качестве, либо 720p с длительностью около секунды, что займет ~10 мин на генерацию и шумы всё равно будут.

Image-2-video (I2V) модели тоже две, каждая на свой вариант разрешения: 480p или 720p. При этом обе только размером 14B. Для генерации видео в 720p на основе картинки нужно 70 — 80 ГБ VRAM и на A100 это займёт ~4,5 минуты. Либо опять же понижать выходное разрешение/длительность и получать артефакты.

Будем наблюдать за i2v оптимизациями комьюнити для работы по максимуму на одном GPU. Официальный воркфлоу от Comfy уже подъехал, как и сборка от Kijai.

Гайд по запуску в SwarmUI.

Демо
Хаггинг
Гитхаб
Comfy воркфлоу
Kijai



tgoop.com/Psy_Eyes/2467
Create:
Last Update:

Alibaba: выпустили опенсорсный видеогенератор Wan 2.1 в размерах от 1.3B до 14B.

Следование промту хорошее, в том числе и на динамичных сценах. Качество сильно скачет: где-то оно годное, чем ближе промт к датасету и выше разрешение, но зачастую всё плывёт и очень шумное, либо покрывается артефактами. Особенно, если разрешение ниже значений, на которые модель заточена.

Если сравнивать с недавними Skyreels и Stepfun, то они более детальную стабильную картинку выдают, но их и завезти ввиду размеров тоже не просто. В том же Хуньяне сгенерить искомое получалось значительно быстрее с более качественным изображением.

Есть поддержка мульти-GPU и улучшение промта с помощью Qwen (локально или и по API хаггинга). Как и Хуньянь модель может генерить и просто картинки. Но Wan ещё и умеет в английский/китайский текст на видео. Плюс у Wan нет цензуры и коммерческая лицензия, а значит притяжение сообщества будет.

Wan может генерить видео как по тексту, так и картинкам в разрешении от 480p до 720p. Позже говорят подъедет 1080p.

Text-2-video (T2V) моделей две: размером 1.3B и 14B. Вариант 1.3B потребляет 8 ГБ VRAM и 5 секундное видео в 480p на 4090 будет генерить 4 минуты. Правда выходные результаты для 2025 года будут смотреться так себе. Модель размером 14B уместится в 24 ГБ, если сделать разрешение в районе 400х400, но там и будет сильная потеря в качестве, либо 720p с длительностью около секунды, что займет ~10 мин на генерацию и шумы всё равно будут.

Image-2-video (I2V) модели тоже две, каждая на свой вариант разрешения: 480p или 720p. При этом обе только размером 14B. Для генерации видео в 720p на основе картинки нужно 70 — 80 ГБ VRAM и на A100 это займёт ~4,5 минуты. Либо опять же понижать выходное разрешение/длительность и получать артефакты.

Будем наблюдать за i2v оптимизациями комьюнити для работы по максимуму на одном GPU. Официальный воркфлоу от Comfy уже подъехал, как и сборка от Kijai.

Гайд по запуску в SwarmUI.

Демо
Хаггинг
Гитхаб
Comfy воркфлоу
Kijai

BY Psy Eyes


Share with your friend now:
tgoop.com/Psy_Eyes/2467

View MORE
Open in Telegram


Telegram News

Date: |

Read now As of Thursday, the SUCK Channel had 34,146 subscribers, with only one message dated August 28, 2020. It was an announcement stating that police had removed all posts on the channel because its content “contravenes the laws of Hong Kong.” The best encrypted messaging apps Telegram offers a powerful toolset that allows businesses to create and manage channels, groups, and bots to broadcast messages, engage in conversations, and offer reliable customer support via bots. Users are more open to new information on workdays rather than weekends.
from us


Telegram Psy Eyes
FROM American