tgoop.com/Psy_Eyes/2343
Last Update:
Marigold-DC: улучшенный метод получения карт глубины из контента на котором не тренировали, а также когда параметры с большим разбросом.
PSHuman: получение из одного фото человека его 3D меша. Работает на удивление неплохо.
Leffa: виртуальная примерочная с контролем позы. Есть Comfy.
EdgeCape: нахождение опорных точек в позе объекта той же категории.
Генератор картинок в трёхмерном стиле. Объекты на пикчах в основном сразу под углом, так что можно сразу кормить их 3D генераторам.
Tencent: релизнули FreeSplatter, генератор 3D по картинке с выбором модели под капотом (Хуньянь или Zero123++). Ещё запилили BrushEdit, для редактирования изображения текстом в автоматическом или ручном режиме. А также ColorFlow для колоризации манги, комиксов, скетчей итд.
FlowEdit: тоже редактор изображения текстом. Для обработки можно выбирать между SD3 или Flux. Промта слушается хорошо даже без настроек, с флюксом артефактов меньше, результат довольно ловкий.
FireFlow: и это редактор изображения текстом. Автоматом подгоняет изображение под х1024, три метода обработки на выбор, можно качество регулировать шагами и другими крутилками.
NVComposer: генерация новых видов из картинки для контроля камеры в видео или получения 3D объекта. Тоже Tencent, кстати.
Исследование на тему параллелизация генерации визуала. Из похожего, например, AsyncDiff и другие проекты на генерацию в распределенке.
InvSR: апскейлер картинок. Зачастую заметно отсебятничает артефактами в деталях.
ObjCtrl-2.5D: выделение элементов картинки и их анимация по заданной траектории. Двухмерные направляющие конвертируются в 3D используя глубину, а передаются на контроль камеры.
OneDiffusion: новый генератор картинок с персонализацией и другими фичами, но пока нужно 40 ГБ VRAM.
GIMM-VFI: интерполяция видео с генерацией промежуточных кадров. (спс @JohnDoe171)
Material Anything: генератор PBR материалов для 3D объектов обзавёлся скриптами для рендера.
MoGe: получение 3D геометрии объекта или сцены (карта точек /меш) из фото.
GSOPS: плагин для работы со сплатами в Houdini обзавёлся коммерческой лицензией.
Stable-diffusion.cpp: инференс SD и Flux на C/C++.
Samurai: сегментатор Samurai прицепили к Nuke.
TRELLIS: генератор 3D из картинок. Может вытаскивать меш в GLB и в виде сплата.
Genesis: платформа симуляции физики для AI-приложений и робототехники. Участников больше, чем звёзд на небе.
MV-Adapter: генерация разных точек обзора из одной картинки. На удивление юзается SDXL.
Multi-HMR: вытаскивание из картинки позы и 3D меша одного человека или нескольких людей. Работает шустро и весьма неплохо.
Odyssey: показали Explorer, генератор трёхмерных сцен на сплатах для создания детальных видео. Пока пощупать нельзя.
Маркировка видео кодовой фразой. Устойчиво к лёгким изменениям видоса. Демо.
🎸 ЗВУК 🎸
Suno: мобильные апы для Android и iOS вышли и дают десяток халявных кредитов на V4.
Udio: начислили всем халявных кредитов в честь праздников. Они не сгорят и после.
ElevenLabs: релизнули модель Flash для реалтайм разговоров с задержкой 75 мс (у OpenAI где-то 200 мс). Доступно на их платформе для разработчиков.
MMAudio: генерация аудио для беззвучного видео. 6 ГБ VRAM хватит.
Nexa: модель Omni-2.6B может шустро отвечать текстом на голосовые сообщения, и заточена под мобильные устройства. На русском не лопочет.
OuteTTS: генератор речи (TTS) работающий локально в браузере через WebGPU.
BY Psy Eyes
Share with your friend now:
tgoop.com/Psy_Eyes/2343