Telegram Web
Forwarded from Life2film
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🌟 VidTok: Универсальный токенизатор видео от Microsoft.

VidTok – универсальный и открытый видео токенизатор, демонстрирующий высокую производительность как в непрерывной, так и в дискретной токенизации.

Токенизация видео, преобразующая исходные данные в компактные латентные токены - важнейший шаг для задач генерации и понимания видео. VidTok предлагает ряд улучшений, которые позволяют ему превзойти существующие методы: модельную архитектуру, методы квантования и стратегии обучения.

В архитектуре VidTok пространственное и временное сэмплирование обрабатываются раздельно, используя 2D свертки для пространственных модулей и оператор AlphaBlender для временных, при этом сохраняя 3D свертки для слияния информации.

Для дискретной токенизации используется конечное скалярное квантование (FSQ), которое оптимизирует неявный кодовый словарь, улучшая стабильность обучения. Эффективность обучения достигается двухэтапной стратегией: предварительное обучение на видео с низким разрешением, а затем дообучение декодера на видео с высоким разрешением.

VidTok обучался на датасете видеоданных с разным разрешением (400 000 видео 480p и 10 000 видео 1080p). Производительность измерялась с использованием метрик PSNR, SSIM, LPIPS и FVD, результаты показали превосходство VidTok по сравнению с другими токенизаторами как в дискретной, так и в непрерывной токенизации.

При сравнении с MAGVIT-v2, OmniTokenizer, CV-VAE, Open-Sora и Cosmos-Tokenizer, VidTok достиг лучших показателей, с меньшим размером модели.

▶️ В открытый доступ опубликованы 12 чекпоинтов, расшифровка нейминга:

🟢vidtok - базовое название;
🟢kl или fsq - тип регуляризации и квантования латентного пространства;
🟢causal или noncausal - тип обработки временной информации (покадрово или все кадры сразу);
🟢488 или 41616 - компрессионное соотношение (VCR), которое определяет степень сжатия видео по времени, высоте и ширине. Например, 4x8x8 и 4x16x16;
🟢4chn, 8chn или 16chn - количество каналов в латентном пространстве для непрерывных токенизаторов. Чем больше каналов - тем качественней видео;
🟢262144, 32768 или 4096 - размер codebook для дискретных токенизаторов с использованием FSQ. Чем больше - тем точнее представлятся информация.


▶️Локальная установка и пример запуска как для непрерывной, так и для дискретной токенизации и как для каузальных, так и для некаузальных моделей:

# Clone repo
git clone https://github.com/microsoft/VidTok
cd VidTok

# Create conda env
conda env create -f environment.yaml
conda activate vidtok

# Inference
import torch
from scripts.inference_evaluate import load_model_from_config

cfg_path = "configs/vidtok_kl_causal_488_4chn.yaml"
ckpt_path = "checkpoints/vidtok_kl_causal_488_4chn.ckpt"
is_causal = True

device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
# load pre-trained model
model = load_model_from_config(cfg_path, ckpt_path)
model.to(device).eval()
# random input
num_frames = 17 if is_causal else 16
x_input = (torch.rand(1, 3, num_frames, 256, 256) * 2 - 1).to(device) # [B, C, T, H, W], range -1~1
# model forward
_, x_recon, _ = model(x_input)
assert x_input.shape == x_recon.shape


📌Лицензирование: MIT License.


🟡Набор моделей
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Microsoft #VidTok
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Denis Sexy IT 🤖
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Not Boring Tech
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 На GitHub вирусится ScreenPipe — ваш личный ИИ-ассистент, который беспрерывно записывает экран ПК вместе с микрофоном и сохраняет контекст всей (!) вашей цифровой активности.

Нейронка напишет саммари рабочего дня, подведёт итоги созвона, составит логи разработки, ответит на сообщения на основе прошлых переписок и даже продолжит кодить с того места, где вы остановились.

Важно: тулза хранит все данные локально на устройстве и работает без интернета! Джарвис уже лежит тут.

@notboring_tech
Forwarded from Machinelearning
🌟 Google Cloud собрала 321 реальный пример использования GenAI от ведущих мировых компаний.

Большая подборка примеров внедрения генеративного ИИ от ведущих компаний, правительств, исследовательских институтов и стартапов по всему миру. Они демонстрируют, как организации используют ИИ-агентов для повышения производительности, автоматизации процессов и улучшения клиентского опыта, что в итоге приводит к ощутимой отдаче от инвестиций.

▶️ Розничная торговля

🟢Best Buy использует Gemini для создания виртуального ассистента, способного решать проблемы с продуктами и управлять доставками;
🟢BrainLogic использует Claude для персонального ИИ-ассистента Zapia, ориентированного на латиноамериканский рынок;
🟢Carrefour Taiwan разработал AI Sommelier, который помогает клиентам выбирать вино.

▶️ Автоконцерны

🟠Continental интегрировал разговорный ИИ в Smart Cockpit HPC, решение для управления речевыми командами в автомобиле;
🟠General Motors улучшила OnStar с помощью разговорного помощника, который лучше распознают намерения собеседника;
🟠Volkswagen создал виртуального ассистента в приложении myVW, который помогает водителям изучать руководства и задавать вопросы.

▶️ Здравоохранение

🟢Freenome разрабатывает диагностические тесты на основе ИИ для раннего выявления рака;
🟢Orby применяет ИИ и нейротехнологии для реабилитации пациентов.

▶️Финансы

🟠NG Bank разработал чат-бота для поддержки сотрудников, чтобы повысить качество ответов на запросы клиентов.
🟠Scotiabank использует Gemini для персонализации клиентского опыта.

▶️Производство

🟢Motorola использует Gemini и Imagen для улучшения UX/UI смартфонов;
🟢Samsung применяет Gemini Pro и Imagen 2 в Galaxy S24 для обработки текста и редактирования изображений;
🟢ScottsMiracle-Gro создал ИИ-агента для консультаций по садоводству.

▶️ Госсектор

🟠Justicia Lab разрабатывает AI-помощника для упрощения юридических процессов для иммигрантов;
🟠Министерство труда Катара запустило платформу Ouqoul для поиска работы выпускниками-экспатами.

▶️ Медиа

🟢Formula E может создает 2-минутные подкасты на любом языке из двухчасовых комментариев.
🟢Globant разработала Advance Video Search для поиска контента по кадрам.


🔜 Читать полную подборку примеров


@ai_machinelearning_big_data

#ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Life2film
Что это за канал и для кого?
Делюсь опытом работы над стартапом SuperDuperAi.co - генератором Ai видеоисторий.
Целюсь сделать из него агента-режиссера для визуализации любой идеи.
Рефлексирую на этом пути, рассказываю новости Ai.
Подробнее

Кто я?
Рустам Салаватов - https://www.linkedin.com/in/rustam-salavatov/
В инстаграм лайфстайл https://instagram.com/life2film
Автор телеграм канала Generative Ai

Я — предприниматель и инженер по искусственному интеллекту, CTO.
10 лет назад LIFE2FILM.com — сервиса для автоматического видео-монтажа и анализа с миллионом пользователей, но сейчас сфокусирован на создание SuperDuperAi.co.
Также работаю CTO в финтех-стартапе Zenpulsar.com

Жили раньше в Башкортостане (РФ), сейчас с семьей живем в Турции (3ий год , получили визу цифрового кочевника), но планирую переезд в США (новости об этом тоже публикую). Моя жена Алина - ведет активно блог про жизнь в Турции @miralinka_life

Также интересуюсь экологией, кино и созданием технологий меняющих мир. Активизм.

Избранные публикации: 
* Как открывали компанию в Делавер, США https://www.tgoop.com/life2film/250
* Как создать своего персонажа https://www.tgoop.com/life2film/390
* Сравнение image2video генераторов https://www.tgoop.com/life2film/389
* Будущее ИИ кино от Бена Аффлека https://www.tgoop.com/life2film/370
* Канал про ИИ фильмы https://www.tgoop.com/life2film/344
* Грант 150.000$ от Майкрасофт для стартапов https://www.tgoop.com/life2film/312
* Про РОСТ и ПРОДАЖИ в стартапе https://www.tgoop.com/life2film/436

Общие темы:
* Что я думаю про фильм Субстанция https://www.tgoop.com/life2film/360
* GPT ассистент для изучения английского https://www.tgoop.com/life2film/346
* Тестирование Junior программистов https://www.tgoop.com/life2film/343
* Как меняется счастье https://www.tgoop.com/life2film/293
* Кто ты NPC или Герой? https://www.tgoop.com/life2film/280 и https://www.tgoop.com/life2film/276

SuperDuperAi посты:

Пример видео для нашего адвайзера https://www.tgoop.com/life2film/367
Пример рождественнсого видео https://www.tgoop.com/life2film/386

Тренировка модели на своих фото https://www.tgoop.com/life2film/411
Статистика по пользователям - 1500 https://www.tgoop.com/life2film/287


А еще специально для подписчиков канала:
Скидка 19$ https://www.tgoop.com/life2film/380


Всегда открыт к общению и сотрудничеству.
Ищу сейчас различные Use-case где полезно использовать мой опыт по работе с генеративным ИИ.
This media is not supported in your browser
VIEW IN TELEGRAM
LatentSync: Audio Conditioned Latent Diffusion Models for Lip Sync

Липсинк от ByteDance.
Двигает губы (и челюсть) под звук речи.
Работает по видео.

первое видео на французском - оригинал, второе на английском - липсинк

Код
Демо
ComfyUI
Попробовать на fal.ai (если есть кредиты)

#lipsync #speech2video #video2video
Forwarded from Machinelearning
🖥 nv-ingest - NVIDIA Ingest

NVIDIA-Ingest - это масштабируемый, ориентированный на высокую производительность микросервис для парсинга неструктурированных документов и метаданных очень большого размера.

Инструмент поддерживает PDF, Word и PowerPoint и использует специализированные микросервисы NVIDIA NIM для поиска, контекстуализации и извлечения текста, таблиц, диаграмм и изображений для использования в генеративных приложениях.

NVIDIA Ingest позволяет распараллелить процесс разбиения документов на страницы, где содержимое классифицируется (как таблицы, диаграммы, изображения, текст), извлекается в дискретный контент и далее контекстуализируется с помощью оптического распознавания символов (OCR) в четко определенную схему JSON.

После этого NVIDIA Ingest может опционально вычислением эмбедингов для извлеченного контента, а также опционально храненииь данные в векторной базе данных Milvus.

📌GitHub
📌Документация

@ai_machinelearning_big_data

#NVIDIA #parsing #embedding
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Cosmos-1.0-Diffusion: A Suite of Diffusion-based World Foundation Models

NVIDIA выпустила семейство видеогенераторов с пониманием физического мира. Они предпочитают о них говорить как о генераторах мира по тексту и изображению.

Хронометра; 121 кадр

Позиционируется для разработчиков, в помощь в симуляции мира.

Лицензия на бесплатное коммерческое использование.

Нужно 80GB VRAM

Дают попробовать!
Примеры видео спрятаны в демо

Гитхаб
Веса
Демо

#text2video #image2video #simulation #text2world #image2world
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 TransPixar: генерация видео с прозрачным фоном от Adobe

TransPixar — новый open-source проект, разработанный Adobe, предназначенный для генерации видео с прозрачным фоном. Он построен на основе генератора CogVideoX и позволяет создавать RGBA-видео из текстовых описаний, что особенно полезно для визуальных эффектов и композитинга.


🔗 [GitHub репозиторий](https://github.com/wileewang/TransPixar)
This media is not supported in your browser
VIEW IN TELEGRAM
ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation

Оценка позы по изображению и по видео

Код
Веса
Демо по картинке
Демо по видео/картинке
Колаб

#poseestimation #image2pose #video2pose
This media is not supported in your browser
VIEW IN TELEGRAM
Hallo3: Highly Dynamic and Realistic Portrait Image Animation with Diffusion Transformer Networks

Новое поколение липсинка от Baidu

Работает и с головными уборами.
Анимирует не только лицо но и фон.

Все потому что внутри претрейн Cogvideox-5b-i2v

Код
Веса

#lipsync #talkinghead #humananimation #portraitanimation
🎓 Бесплатный сертифицированный курс по агентам от Hugging Face!


- Понимание агентов: Изучение основ работы AI-агентов, включая восприятие окружающей среды, логические рассуждения и выполнение действий.

- Работа с фреймворками: Освоение популярных инструментов, таких как LangChain, LlamaIndex и smolagents, для создания сложного поведения агентов.

- Реальные приложения: Примеры использования агентов для автоматизации SQL-запросов, генерации кода и суммаризации сложных документов.

- Сертификация: Получение сертификата после завершения курса, реализации практического кейса и прохождения итоговой оценки.

Курс предназначен для разработчиков, дата-сайентистов и всех, кто интересуется будущим AI. Начало курса запланировано на февраль.

🔗 [Записаться на курс](https://bit.ly/hf-learn-agents)
Forwarded from Machinelearning
🖥 Google опубликовали один из лучших официальных гайдов по ИИ-агентам. И его действительно стоит прочитать.

В нем содержится все, что вам нужно знать:
> Описание агентов, компонентов и когнитивных архитектур.
> Разобраны инструменты по работе с агентами: расширения, написании функций и хранилища данных.
> Описываются методы обучения для повышения производительности агентов.
> Описываются методы создания агентов с использованием LangChain и LangGraph

Читать гайд

@ai_machinelearning_big_data


#aiagents #ai #llm #ml #machinelearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Градиент обреченный (Sergei Averkiev)
🔺 DeepSeek-R1 и DeepSeek-R1-Zero

Как было сказано ранее, модели от китайских исследователей выложены в открытый доступ и показывают результаты на уровне o1.

🔸 Например, в отчете пишут, что модель пробивает рейтинг в 2000 на Codeforces (хорошие соревнования по программированию с довольно сложными задачками), это лучше 96% участников.

🔸 Локальный запуск: запустить эти модели будет непросто из-за их размера, поэтому авторы сделали ряд моделей поменьше, используя дистилляцию. От 1.5B до 70B.

🔸 Попробовать: полная R1 доступна на официальном сайте в режиме DeepThink.

🔸 Приложение: мобильное приложение работает бесплатно, ссылки есть тут.

🔸 Мини-обзор: https://hfday.ru/u/2501.12948.html
Forwarded from Data Secrets
Media is too big
VIEW IN TELEGRAM
Пока OpenAI начинают раскатывать Operator на Pro юзеров (похоже релиз действительно будет сегодня вечером!), китайская ByteDance подгадала момент и выкатила своего такого же агента в опенсорс

Он называется UI-TARS и вышел под лицензией Apache 2.0 (репозиторий). Основан агент на VLM (есть варианты на 2B, 7B и 72B, вот тут веса), на вход принимает картинки аля кадры экрана, а на выход генерирует человекоподобные действия, то есть движения мыши или нажатия на клавиатуру.

Самое интересное: в агенте есть ризонинг! Его обучали как на простых "интуитивных" сценариях, так и на CoT, так что для сложных задач он может поключать размышление и какое-то подобие планирования. Датасеты там, конечно, огромные, и собранные самими ByteDance.

На бенчмарках выглядит ничего. Учитывая, что Operator, вероятно, будет доступен только за 200 долларов, довольно приятный релиз.

Статья здесь
Forwarded from Борис опять
Админ трогал траву как не в себя, но наконец добрался рассказать вам про самую поразительную работу за 2024.

Я считаю, что про неё недостаточно говорят, а про решателей шокльной математики (o1/o3) и агентов слишком много. Ваша любимая 400b VLM плохо рисует bounding boxes, а эта 770m шутка делает их отлично хоть на CPU. При этом VLM обучалась на немыслимом количестве данных, а у этой штуки было меньше примеров, чем у CLIP. Да что далеко ходить: у меня друг делает стартап по CV, мы с ним обсуждали эту модель, он её попробовал и перестал обучать свои YOLO детекторы: потому что эта штука просто работает. Причем несмотря на необходимость обнаруживать строительные машины на фотографиях с плохих камер в родной атмосфере слякоти и грязи.

#обзор_статьи
# Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
Скачивайте и играйтесь на HF.

Что если я скажу, что есть модель, которая умеет хорошо делать Zero-Shot детекцию, сегментацию, captioning и OCR? Что при этом её можно промптить, например требуя найти на картинке всех собак или сделать сегментацию объекта внутри ббокса? Вы наверное подумаете, что это новая огромная VLM. Но нет, эта модель размером всего 770M, то есть как большой ViT. Можно запускать хоть на CPU. Более того, её можно дообучать, в том числе легко сделать из неё supervised детектор прикрутив ей свою любимую голову, скажем от DETR.

В Computer Vision у всех комплексы по поводу foundational models. Мы завидуем ребятам из NLP. Стало модно выпускать большие модели и говорить: "теперь у нас тоже фаундейшнл!" Однако что такого foundational, скажем, в Segment Anything? Это просто сегментатор обученный на большом количестве качественной синтетики. В моем понимании foundational это когда ты в свободной форме даешь модели любую задачу и она её решает, как GPT-4o, а не когда тебе нужно определенным образом зампромптить модель, чтобы получить решение задачи сегментации.

Florence-2 это первая модель в CV которую я действительно готов назвать foundational. С одной стороны из-за её широкой полезности, так как она позволяет решать все популярные задачи в CV. Но так же из-за того, каким образом она сделала. Минимум костылей, как вы сейчас увидите.

Перейдем к сути, благо статья простая и благодаря этому очень красивая. Авторы рассуждают последовательно.

Чего мы хотим от универсальной CV модели?
1. Image-level understanding: понимание высокоуровневой семантики. Например, на картинке кошка или собака? Можно так же сказать, что это способность связать изображение и текстовое описание. Эту задачу отлично решает CLIP.
2. Region/pixel-level recognition: обнаружение объектов на изображениях и понимание их расположения. С этим отлично справляются supervised классификаторы, детекторы и сегментаторы.
3. Fine-grained visual-semantic alignment: связь между областями изображения, в том числе совсем маленькими, и текстом. Обнаружение частей изображений которые относятся к фразам, объектам, атрибутам и отношениям. Это способность обнаружить и отличить "нос собаки", "нос собаки слева", "нос рыжей собаки", "коричневый нос собаки" и так далее.

Когда желания определены дело за малым: выбрать данные, функцию ошибки и архитектуру. Через эти компоненты мы по факту формируем оптимизационную задачу.

Авторы решили, что для получения трех компонент понимания изображений нужно много разных аннотаций, которые можно распределить по двум осям:
1. Spatial hierarchy: аннотации должны включать разные масштабы изображений, чтобы модели требовалось понимание и на уровне изображения, и на уровне пикселей.
2. Semantic granularity: в текстах (описаниях, промптах, лейблах) должны встречаться разные уровни абстракции, требующие от модели как понимания общих концептов, так и небольших деталей и нюансов.
2025/01/29 01:06:57
Back to Top
HTML Embed Code: