Нерон

Forwarded from vc.ru

This media is not supported in your browser

Разработчики Arc представили ИИ-браузер Dia, который может выполнять действия за пользователя: например, отправить письмо или добавить товар в корзину.

Его планируют выпустить в 2025 году

vc.ru/ai/1686645

648 views15:18

Нерон

Forwarded from Нейродвиж

0:54

This media is not supported in your browser

VIEW IN TELEGRAM

Adobe показали прикольную фичу MultiFoley — генерацию ЗВУКОВ под ваше видео.

Идея бомбезная: можно не просто генерировать соответствующие звуки, но и что-то сюрреалистичное, но воспринимаемое правдоподобно. Например, рычащего как лев кота 🤬

Кроме того, модель теперь умеет принимать в качестве промта другое аудио (как референс), а также удлинять аудио (очень удобно, если где-то запороли звук).

Кода нет (это же Адобе), ждем в продуктах компании.

Please open Telegram to view this post

VIEW IN TELEGRAM

637 views10:16

Нерон

Forwarded from эйай ньюз

1:23

This media is not supported in your browser

VIEW IN TELEGRAM

Hunyuan Video - новый опенсорс 13B видео генератор от Tencent

Качество офигенное, даже для 13B модели, хоть и генерировать может максимум пять секунд. Но, самое главное - доступны веса.

Генерится 129 кадров, что как раз чуть больше 5 сек в 24 fps.

По архитектуре: используют Temporal VAE с 16 каналами и 4x даунсеплингом по времени, то есть это 32 latent frame'а. То есть автоэнкодер не самый навороченный – в других моделях и видео и 128 каналов и более агрессивный даунсемплинг по времени.

Сама модель очень похожа на Flux, где сначала идут two-stream блоки как в SD3, где картиночные и текстовые токены обрабатываются параллельно, а затем идёт серия обычных DiT блоков.

В качестве текстового энкодера используют Clip и Multimodal LLM (llava-llama-3-8b) вместо традиционного T5. Говорят, что с MLLM у них достигается боле качественный prompt alignment.

Чтобы запустить модель нужно минимум 45 гигабайт видеопамяти для 544x960 видео и 60 гигов для 720p. Умельцы явно подкрутят и оптимизируют модельку, так что запуск на консьюмерских видюхах на низком разрешении не исключён.

Статья занятная, стоит прочитать в деталях.

Я пока сам их моделью ничего не генерил, но предполагаю, что одно видео будет генерится минут 10.

Демка (нужен китайский номер)
Веса
Пейпер

@ai_newz

601 views11:34

Нерон

Forwarded from vc.ru

Разработчики генератора видео Dream Machine выпустили новые модели для создания фото: Photon и облегчённую Photon Flash.

Компания утверждает, что их показатели лучше Midjourney. Доступны через API по цене от $0,002 за изображение

vc.ru/ai/1688282

644 views11:35

Нерон

Forwarded from addmeto (Grigory Bakunov)

0:04

This media is not supported in your browser

VIEW IN TELEGRAM

0:04

This media is not supported in your browser

VIEW IN TELEGRAM

0:04

This media is not supported in your browser

VIEW IN TELEGRAM

Гугл анонсирует свою text2video модель Veo и обновление text2image Imagen 3. Видео любопытные, но местами даже в демках видны характерные нейропсиходелические глюки https://cloud.google.com/blog/products/ai-machine-learning/introducing-veo-and-imagen-3-on-vertex-ai

276 views13:59

Нерон

Forwarded from Сиолошная