Telegram Web
CogVideoX ver1.5 Image2Video. Детали.

Для начала: ну нет пока поддержки версии 1.5 в Комфи.
Просто почитайте об этом вот тут:
https://github.com/kijai/ComfyUI-CogVideoXWrapper/issues/214

Есть отдельный бранч, но там, как я понимаю, тоже все не ровно.
https://github.com/kijai/ComfyUI-CogVideoXWrapper/tree/1.5_test

Я честно все ставил отсюда и запускал из командной строки.
https://github.com/THUDM/CogVideo/tree/main/sat

По памяти - ест 34-37 в процессе генерации, и 60-70 в конце, когда подключается vae.

Думаю, что скоро появится поддержка с Комфи с тайлингом памяти и все будет ходить на 24 гигах VRAM.

Но пока это очень медленно: 15 минут на 22 кадра на A100.

Пока это лучшее из всех image2video в опен-сорсе, которое я видел.

Я тестировал картинки в 1360x768 - это родное разрешение для его text2image, но пишут, что работает и 768x768, 936x640. Большее просто не пролезет по памяти.

Держите рандомных примеров. В основном я использовал промпты из флюкса, где генерил картинки. Машу попросил описать chatGPT. Добавка в промпт "High quality video" прям работает.

Когда давал нейродеда в 848х480 качество сразу падало. На вертикальных не проверял.

Пойду остужать гпу.

@cgevent
Раз в год в декабре проходит событие, которое объединяет техноэнтузиастов, разработчиков и визионеров под одной крышей.

🔥 Conversations — ежегодная конференция по разговорному и генеративному AI пройдет 6 декабря в Москве и онлайн.

В этом году участников ждут несколько тематических секций: «Generation AI. Новое поколение кейсов», «RAG или не RAG? Трезвый взгляд разработчиков», «Self-hosting. Обучение и оптимизация генеративных моделей».

⛳️ Несколько спойлеров из программы:

🔵 RAG-механики в платформе для создания ботов. Внедрение pre-retrieval и post-retrieval техник для повышения качества — Salutebot
🔵 Как с помощью чат-бота автоматизировать SQL-запросы и получать актуальную аналитику за минуты, а не дни? — Ecom.Tech (ex. Samokat.Tech)
🔵 Как собирать прототипы AI-приложений с помощью LLM за считанные часы? — Т-Банк.

📌 35+ спикеров, дискуссии с экспертами отрасли, выставка AI-решений и, конечно, мощный нетворкинг.

Программа и билеты по ссылке.
Специальный промокод на скидку 10% для подписчиков: CNVS24VtM
Please open Telegram to view this post
VIEW IN TELEGRAM
Какая-то чудовищно титаническая работа по тестированию видеокарт и Stable Diffusion.

36(!) карт протестировано.

Там, к сожалению нет ни Flux, ни SD3.x

Но там прям упоротое японское тестирование вплоть до SDXL + LoRA + ControlNet.

Если кратко, то:

The VRAM capacity must be large.
RTX 4000 series is good
Radeon is NO!


Топ3:

RTX 3060 12GB : An introductory graphics card for AI illustrations
RTX 4070 12GB : Recommended graphics card for Forge version SDXL
RTX 4090 24GB: The fastest AI graphics card worth the price


У меня, кстати, есть совершенно волшебная RTX3060 с 12GB VRAM, втиснутая в малюсенький корпус Intel Nuke, просто инженерное чудо с огромным металлическим змеевиком. До сих пор рабочая карта.

Но сейчас на первый план выходит просто объем VRAM, а частотки и ядра не так важны. Если мы говорим про генерацию, а не про игрушки. Ибо, когда памяти не хватает, начинаются всякие оптимизации и скорость драматически падает.

Я помню, что пара планок RAM давала такой прирост производительности, какой и не снился апгрейду CPU, при в разы меньших вложениях.

Нынче, к сожалению, нельзя добить VRAM. А это ускорило бы генерацию на всех картах, начиная с 20xx.

А Нвидия, хорошо знает свое дело и рынок - не спешит наращивать объем VRAM в консумерских картах.

А нас поджидают видео-генераторы, которые будут просить еще больше памяти...

Лучшее вложение - объем VRAM, забейте на все остальное.

@cgevent
Промптинг гайд для SD3.5

Хорошие примеры в конце.

В принципе можно скормить это в chatGPT и попросить его прикинуться промпт-инженером.

Но спать тоже надо.
https://stability.ai/learning-hub/stable-diffusion-3-5-prompt-guide

@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
Трушное генеративное 3Д.

Ну ок, это как бы прототип будущих пайплайнов. Но это уже впервые похоже на генерацию трехмерных сцен, а не сферических объектов в вакууме веб-интерфейсов. Это трушный Блендор с трушной 3Д-генерацией.

Не путайте с плагинами, где вьюпорт Блендора подается как вход для контролНета, а рядом генерится пиксельная картинка из Stable Diffusion.

Нет, тут справа тоже окно Блендора и в нем генерятся не картинки, а трехмерные объекты.

DeemosTech тизерили-тизерили свой 3Д-КонтролНет и приподвытизерили, наконец-то. И как!

Слева делаете BoundingBox-ы, расставляете в композицию и каждый из них можете превратить в 3Д-объект, который впишется в этот бокс. Промптом (подозреваю, что с картинкой).

Ну то есть тут ничего нового, кроме 3Д-контролНета, но это наконец-то собрано в пайплайн, а не в генерацию отдельных объектов непонятно где, экспорт с бубнами, импорт, скейлинг и мувинг. Теперь это во взрослом 3Д.

Ну и разрабы Rodin Gen 1.5 такие - а чего еще хотите увидеть на объектах?
- и все такие у них в твитторе: UV-Unwrap.
- а некоторые: авториг

Ну в общем представьте далекое будущее, когда из генерации вылезает тектурированная, анврапленная, зариганная, засетапленная модель с хорошей топологией.

К этому времени видеогенераторы будут в 4К генерить консистентную картинку лучше Рендермана. С пяти камер одновременно. С AOV и проектом для Нюка.

Молодцы Родэновцы, очень здорово выглядит, даже просто как прототип.

Скоро обещают выпустить в народ.

За моделлеров, для начала?

@cgevent
OpenAI готовит к запуску ИИ агента под кодовым названием "Оператор", который может использовать компьютер для выполнения действий от имени человека, например, написания кода или бронирования путешествий.

И Гугл тоже. Своего агента.

Тут они в роли догоняющих - Computer Use у Антропика примерно об этом.

Ждать недолго, говорят, что в январе.

Прогресс, конечно, восхищает и пугает.

Начиналось все как:

Продолжи фразу.

Потом: ответь на вопросы.

Потом: напиши код для задачи, я его использую.

Потом: напиши и запусти код.

Потом: используй мой компьютер и порешай задачу сам.

Что дальше?

Возьми мою жизнь в управление и сделай ее лучше(для кого)?

...

Возьми мою душу, недорого ..

https://techcentral.co.za/openai-nears-launch-of-operator-ai-agent/255131/

@cgevent
Forwarded from Neural Shit
Media is too big
VIEW IN TELEGRAM
Продолжая тему реалистичной мимики робо-лиц.


Инженеры из Колумбийского университета запилили интересную робоголову, естесственно, на нейронках, куда ж сейчас без них. Нужны эти нейронки для того, чтобы предсказывать выражение лица человека, с которым ведется диалог. А предсказывать выражение лица собеседника нужно потому, что замедленная мимика робота выглядит неискренней и кринжовой, а то ж нам эффекта зловещей долины не хватает.

Но больше всего понравился метод обучения этой железной башки эмоциям: её тупо поставили перед камерой и позволили совершать случайные движения своми 26-ю приводами, наблюдая за собой. Через несколько часов робот научился соотносить получившиеся выражения лиц с двигательными командами — так же, как люди тренируют мимику, глядя в зеркало. Затем показали железке различные видосы с разными выражениями лиц людей, чтобы обучить предсказывать эмоции по едва заметным движениям частей лица.

Момент, где он кривляется, глядя на себя в зеркало офигенный.

Тут подробнее:
Forwarded from Denis Sexy IT 🤖
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Я не очень люблю постить "ойсмарите чо ИИ сделал". Такого добра в интернетике сейчас ну очень много.

И будет еще больше, интернетик будет пухнуть от ИИ контента, а мы будем пухнуть от потребления оного.

Но есть работы, которые хорошо бьются в нашими дискуссиями в коментах и старыми постами.

Например о том, что видео и кино будет (на лету) адаптироваться к территориям, аудиториям, предпочтениям.

Держите Чорную Кавказскую Пленницу.

И, пожалуйста, не надо про липсинк. Промотайте на год вперед мысленно и не воспринимайте ИИ-тулзы, как готовый инструмент. Мы тут как бы в будущее смотрим. Вспомните, что было год назад.

Автор пленницы

@cgevent
Forwarded from Сиолошная
ChatGPT стал доступен на Windows для всех (качать тут), но это не единственная новость.

На Mac теперь приложение умеет получать доступ к текстовому контенту других приложений (в основном, ориентированных на код). Код, который вы выделяете (или просто открытые файлы) помещаются в контекст модели, и по ним можно задавать вопросы/просить что-то переписать.

Правда, фича не будет полезна тем, кто уже пользуется копайлотами или Cursor (а такие вообще остались, кто и использует ChatGPT, и программирует без копайлота/Cursor? акак?)
This media is not supported in your browser
VIEW IN TELEGRAM
"я подгорел капитально. ЗА ДВА РАЗА VIDU понял полностью что я от него хотел".

Вынесу из коментов такое вот мнение.

Нам же интересно мнение тех, кто делает что-то руками, а не только твитторные видосы.

Привожу мнение Влада без купюр. И немного дискуссий - очень круто наблюдать, как разные инструменты для разных задач находят своих разных пользователей.

Я только что тестил весь день минимакс, клинг, ранвей и люму. И решил закинуть 10 баксов на Виду 1.5, подумал, хрен с ним.

ЭТО ЕДИНСТВЕННЫЙ СЕРВИС который смог выполнить задачу, которую я ему поставил. Я в шоке, за что я отдал деньги всем остальным. Типа, это мусорка видеогенераторов не улучшилась от начала лета вообще блядь, а вот эти ребята смогли ПОНЯТЬ промт, а потом его реализовать на реально качественном уровне (4 секунды , 1080р)

Крайне жаль, что у них нельзя продлить видео, но я теперь за ними плотно слежу

(люма с горем пополам переходы между кадрами вытягивает, остальные умеют генерить только шаблонные лица, стандартные кадры и никак вообще не могут потянуть рабочие задачи, хотя, мне кажется , детского уровня)

Моя задача сегодня была: img2vid

Промт: The camera starts with a medium close-up on a 35mm lens, centered on a cyber-samurai sitting at a desk in a studio. As the camera slowly zooms out, the outer digital world around the studio unfolds, revealing dynamic streams of code and low, flickering holographic symbols and icons floating in space. The atmosphere is a mix of mystic and digitally holographic, with a low, ambient glow casting flickering shadows across the scene. The style emphasizes a digitally limitless world, blending mysticism with futuristic holographics to illustrate endless possibilities.

получился консистентный отлёт камеры с консистентной студией и персонажем (персонаж вообще супер целым остался) с появлением голограмм , циферок и иконок в воздухе пока камера отъезжает

Короче, а теперь я пошёл прикалываться, а не решать конкретную задачу к этим видеогенераторам — работает как золото.

Хочешь видео с хренового джипега телеграмма жены? Держи, охренное видео

Хочешь с циферок на чёрном фоне сделаю моушн дизайн жирный по параллаксу? Держи

Хочешь дыму въебу? (потому что за персонажем которого я кидаю немножко дыма есть) — держи, дыма у меня мноооого

А с ранвей работается плохо. Люма больше радует даже, а на Vidu, походу, я за 10 баксов получу результата больше чем за всех остальных (блять, а там где-то 160 было потрачено)

Но vidu будет уже конкретнее к ночи понятно. Пока что он и ротоскопит, и накидывает графики, и камерой умеет ездить. Но, правда, толк из него есть только в 1080р


@cgevent
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
Nvidia Research расписали довольно интересную статью про проект Edify 3D.

Если коротко, то это генератор 3D-моделей на диффузии и трансформерах, но отличает его от подобных, Meshy и Tripo, в том, что Nvidia собрала довольно много подходов в одном инструменте, и, если они доведут его до релиза и будут поддерживать, это будет реально полезная продакшен-тулза. Но кажется, Nvidia не софтверная компания.

Как и конкуренты, Edify генерирует необходимые карты PBR, умеет создавать представления объектов с разных ракурсов, в дальнейшем используя их же для текстур, а отсутствующие части между ракурсами аппроксимирует. Тут важно сравнивать, как алгоритм работает с задними частями модели, потому что в imgTo3D это обычно является слабым местом. В textTo3D с этим должно быть проще.

Дальше про сетку. В презентации ретопология, по всей видимости, работает по схожим алгоритмам с Houdini и Zbrush, и справляется в целом неплохо для танцующих анимированных болванчиков, в продакшен такое не потащишь, к тому же для статик-мешей гораздо лучше использовать триангулированную сетку, особенно если это не хард-сёрфейс. Надеюсь, они сделают кнопку переключения this, quads.

Самое крутое — это создание сцен из набора ассетов, что-то подобное пробовал сделать Andrey Maximov с Promethean AI, но без генерации ассетов. Надеюсь, у Nvidia получится.

Проект
@cgit_vines
2024/11/15 14:52:32
Back to Top
HTML Embed Code: