Alibaba: выпустили опенсорсный видеогенератор Wan 2.1 в размерах от 1.3B до 14B.
Следование промту хорошее, в том числе и на динамичных сценах. Качество сильно скачет: где-то оно годное, чем ближе промт к датасету и выше разрешение, но зачастую всё плывёт и очень шумное, либо покрывается артефактами. Особенно, если разрешение ниже значений, на которые модель заточена.
Если сравнивать с недавними Skyreels и Stepfun, то они более детальную стабильную картинку выдают, но их и завезти ввиду размеров тоже не просто. В том же Хуньяне сгенерить искомое получалось значительно быстрее с более качественным изображением.
Есть поддержка мульти-GPU и улучшение промта с помощью Qwen (локально или и по API хаггинга). Как и Хуньянь модель может генерить и просто картинки. Но Wan ещё и умеет в английский/китайский текст на видео. Плюс у Wan нет цензуры и коммерческая лицензия, а значит притяжение сообщества будет.
Wan может генерить видео как по тексту, так и картинкам в разрешении от 480p до 720p. Позже говорят подъедет 1080p.
Text-2-video (T2V) моделей две: размером 1.3B и 14B. Вариант 1.3B потребляет 8 ГБ VRAM и 5 секундное видео в 480p на 4090 будет генерить 4 минуты. Правда выходные результаты для 2025 года будут смотреться так себе. Модель размером 14B уместится в 24 ГБ, если сделать разрешение в районе 400х400, но там и будет сильная потеря в качестве, либо 720p с длительностью около секунды, что займет ~10 мин на генерацию и шумы всё равно будут.
Image-2-video (I2V) модели тоже две, каждая на свой вариант разрешения: 480p или 720p. При этом обе только размером 14B. Для генерации видео в 720p на основе картинки нужно 70 — 80 ГБ VRAM и на A100 это займёт ~4,5 минуты. Либо опять же понижать выходное разрешение/длительность и получать артефакты.
Будем наблюдать за i2v оптимизациями комьюнити для работы по максимуму на одном GPU. Официальный воркфлоу от Comfy уже подъехал, как и сборка от Kijai.
Гайд по запуску в SwarmUI.
Демо
Хаггинг
Гитхаб
Comfy воркфлоу
Kijai
Следование промту хорошее, в том числе и на динамичных сценах. Качество сильно скачет: где-то оно годное, чем ближе промт к датасету и выше разрешение, но зачастую всё плывёт и очень шумное, либо покрывается артефактами. Особенно, если разрешение ниже значений, на которые модель заточена.
Если сравнивать с недавними Skyreels и Stepfun, то они более детальную стабильную картинку выдают, но их и завезти ввиду размеров тоже не просто. В том же Хуньяне сгенерить искомое получалось значительно быстрее с более качественным изображением.
Есть поддержка мульти-GPU и улучшение промта с помощью Qwen (локально или и по API хаггинга). Как и Хуньянь модель может генерить и просто картинки. Но Wan ещё и умеет в английский/китайский текст на видео. Плюс у Wan нет цензуры и коммерческая лицензия, а значит притяжение сообщества будет.
Wan может генерить видео как по тексту, так и картинкам в разрешении от 480p до 720p. Позже говорят подъедет 1080p.
Text-2-video (T2V) моделей две: размером 1.3B и 14B. Вариант 1.3B потребляет 8 ГБ VRAM и 5 секундное видео в 480p на 4090 будет генерить 4 минуты. Правда выходные результаты для 2025 года будут смотреться так себе. Модель размером 14B уместится в 24 ГБ, если сделать разрешение в районе 400х400, но там и будет сильная потеря в качестве, либо 720p с длительностью около секунды, что займет ~10 мин на генерацию и шумы всё равно будут.
Image-2-video (I2V) модели тоже две, каждая на свой вариант разрешения: 480p или 720p. При этом обе только размером 14B. Для генерации видео в 720p на основе картинки нужно 70 — 80 ГБ VRAM и на A100 это займёт ~4,5 минуты. Либо опять же понижать выходное разрешение/длительность и получать артефакты.
Будем наблюдать за i2v оптимизациями комьюнити для работы по максимуму на одном GPU. Официальный воркфлоу от Comfy уже подъехал, как и сборка от Kijai.
Гайд по запуску в SwarmUI.
Демо
Хаггинг
Гитхаб
Comfy воркфлоу
Kijai
tgoop.com/Psy_Eyes/2466
Create:
Last Update:
Last Update:
Alibaba: выпустили опенсорсный видеогенератор Wan 2.1 в размерах от 1.3B до 14B.
Следование промту хорошее, в том числе и на динамичных сценах. Качество сильно скачет: где-то оно годное, чем ближе промт к датасету и выше разрешение, но зачастую всё плывёт и очень шумное, либо покрывается артефактами. Особенно, если разрешение ниже значений, на которые модель заточена.
Если сравнивать с недавними Skyreels и Stepfun, то они более детальную стабильную картинку выдают, но их и завезти ввиду размеров тоже не просто. В том же Хуньяне сгенерить искомое получалось значительно быстрее с более качественным изображением.
Есть поддержка мульти-GPU и улучшение промта с помощью Qwen (локально или и по API хаггинга). Как и Хуньянь модель может генерить и просто картинки. Но Wan ещё и умеет в английский/китайский текст на видео. Плюс у Wan нет цензуры и коммерческая лицензия, а значит притяжение сообщества будет.
Wan может генерить видео как по тексту, так и картинкам в разрешении от 480p до 720p. Позже говорят подъедет 1080p.
Text-2-video (T2V) моделей две: размером 1.3B и 14B. Вариант 1.3B потребляет 8 ГБ VRAM и 5 секундное видео в 480p на 4090 будет генерить 4 минуты. Правда выходные результаты для 2025 года будут смотреться так себе. Модель размером 14B уместится в 24 ГБ, если сделать разрешение в районе 400х400, но там и будет сильная потеря в качестве, либо 720p с длительностью около секунды, что займет ~10 мин на генерацию и шумы всё равно будут.
Image-2-video (I2V) модели тоже две, каждая на свой вариант разрешения: 480p или 720p. При этом обе только размером 14B. Для генерации видео в 720p на основе картинки нужно 70 — 80 ГБ VRAM и на A100 это займёт ~4,5 минуты. Либо опять же понижать выходное разрешение/длительность и получать артефакты.
Будем наблюдать за i2v оптимизациями комьюнити для работы по максимуму на одном GPU. Официальный воркфлоу от Comfy уже подъехал, как и сборка от Kijai.
Гайд по запуску в SwarmUI.
Демо
Хаггинг
Гитхаб
Comfy воркфлоу
Kijai
Следование промту хорошее, в том числе и на динамичных сценах. Качество сильно скачет: где-то оно годное, чем ближе промт к датасету и выше разрешение, но зачастую всё плывёт и очень шумное, либо покрывается артефактами. Особенно, если разрешение ниже значений, на которые модель заточена.
Если сравнивать с недавними Skyreels и Stepfun, то они более детальную стабильную картинку выдают, но их и завезти ввиду размеров тоже не просто. В том же Хуньяне сгенерить искомое получалось значительно быстрее с более качественным изображением.
Есть поддержка мульти-GPU и улучшение промта с помощью Qwen (локально или и по API хаггинга). Как и Хуньянь модель может генерить и просто картинки. Но Wan ещё и умеет в английский/китайский текст на видео. Плюс у Wan нет цензуры и коммерческая лицензия, а значит притяжение сообщества будет.
Wan может генерить видео как по тексту, так и картинкам в разрешении от 480p до 720p. Позже говорят подъедет 1080p.
Text-2-video (T2V) моделей две: размером 1.3B и 14B. Вариант 1.3B потребляет 8 ГБ VRAM и 5 секундное видео в 480p на 4090 будет генерить 4 минуты. Правда выходные результаты для 2025 года будут смотреться так себе. Модель размером 14B уместится в 24 ГБ, если сделать разрешение в районе 400х400, но там и будет сильная потеря в качестве, либо 720p с длительностью около секунды, что займет ~10 мин на генерацию и шумы всё равно будут.
Image-2-video (I2V) модели тоже две, каждая на свой вариант разрешения: 480p или 720p. При этом обе только размером 14B. Для генерации видео в 720p на основе картинки нужно 70 — 80 ГБ VRAM и на A100 это займёт ~4,5 минуты. Либо опять же понижать выходное разрешение/длительность и получать артефакты.
Будем наблюдать за i2v оптимизациями комьюнити для работы по максимуму на одном GPU. Официальный воркфлоу от Comfy уже подъехал, как и сборка от Kijai.
Гайд по запуску в SwarmUI.
Демо
Хаггинг
Гитхаб
Comfy воркфлоу
Kijai
BY Psy Eyes
Share with your friend now:
tgoop.com/Psy_Eyes/2466