Forwarded from Life2film
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
VidTok – универсальный и открытый видео токенизатор, демонстрирующий высокую производительность как в непрерывной, так и в дискретной токенизации.
Токенизация видео, преобразующая исходные данные в компактные латентные токены - важнейший шаг для задач генерации и понимания видео. VidTok предлагает ряд улучшений, которые позволяют ему превзойти существующие методы: модельную архитектуру, методы квантования и стратегии обучения.
В архитектуре VidTok пространственное и временное сэмплирование обрабатываются раздельно, используя 2D свертки для пространственных модулей и оператор AlphaBlender для временных, при этом сохраняя 3D свертки для слияния информации.
Для дискретной токенизации используется конечное скалярное квантование (FSQ), которое оптимизирует неявный кодовый словарь, улучшая стабильность обучения. Эффективность обучения достигается двухэтапной стратегией: предварительное обучение на видео с низким разрешением, а затем дообучение декодера на видео с высоким разрешением.
VidTok обучался на датасете видеоданных с разным разрешением (400 000 видео 480p и 10 000 видео 1080p). Производительность измерялась с использованием метрик PSNR, SSIM, LPIPS и FVD, результаты показали превосходство VidTok по сравнению с другими токенизаторами как в дискретной, так и в непрерывной токенизации.
При сравнении с MAGVIT-v2, OmniTokenizer, CV-VAE, Open-Sora и Cosmos-Tokenizer, VidTok достиг лучших показателей, с меньшим размером модели.
vidtok
- базовое название;kl
или fsq
- тип регуляризации и квантования латентного пространства;causal
или noncausal
- тип обработки временной информации (покадрово или все кадры сразу);488
или 41616
- компрессионное соотношение (VCR), которое определяет степень сжатия видео по времени, высоте и ширине. Например, 4x8x8 и 4x16x16;4chn
, 8chn
или 16chn
- количество каналов в латентном пространстве для непрерывных токенизаторов. Чем больше каналов - тем качественней видео;262144
, 32768
или 4096
- размер codebook для дискретных токенизаторов с использованием FSQ. Чем больше - тем точнее представлятся информация.# Clone repo
git clone https://github.com/microsoft/VidTok
cd VidTok
# Create conda env
conda env create -f environment.yaml
conda activate vidtok
# Inference
import torch
from scripts.inference_evaluate import load_model_from_config
cfg_path = "configs/vidtok_kl_causal_488_4chn.yaml"
ckpt_path = "checkpoints/vidtok_kl_causal_488_4chn.ckpt"
is_causal = True
device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
# load pre-trained model
model = load_model_from_config(cfg_path, ckpt_path)
model.to(device).eval()
# random input
num_frames = 17 if is_causal else 16
x_input = (torch.rand(1, 3, num_frames, 256, 256) * 2 - 1).to(device) # [B, C, T, H, W], range -1~1
# model forward
_, x_recon, _ = model(x_input)
assert x_input.shape == x_recon.shape
@ai_machinelearning_big_data
#AI #ML #Microsoft #VidTok
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Denis Sexy IT 🤖
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Not Boring Tech
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 На GitHub вирусится ScreenPipe — ваш личный ИИ-ассистент, который беспрерывно записывает экран ПК вместе с микрофоном и сохраняет контекст всей (!) вашей цифровой активности.
Нейронка напишет саммари рабочего дня, подведёт итоги созвона, составит логи разработки, ответит на сообщения на основе прошлых переписок и даже продолжит кодить с того места, где вы остановились.
Важно: тулза хранит все данные локально на устройстве и работает без интернета! Джарвис уже лежит тут.
@notboring_tech
Нейронка напишет саммари рабочего дня, подведёт итоги созвона, составит логи разработки, ответит на сообщения на основе прошлых переписок и даже продолжит кодить с того места, где вы остановились.
Важно: тулза хранит все данные локально на устройстве и работает без интернета! Джарвис уже лежит тут.
@notboring_tech
Forwarded from Machinelearning
Большая подборка примеров внедрения генеративного ИИ от ведущих компаний, правительств, исследовательских институтов и стартапов по всему миру. Они демонстрируют, как организации используют ИИ-агентов для повышения производительности, автоматизации процессов и улучшения клиентского опыта, что в итоге приводит к ощутимой отдаче от инвестиций.
@ai_machinelearning_big_data
#ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Life2film
Что это за канал и для кого?
Делюсь опытом работы над стартапом SuperDuperAi.co - генератором Ai видеоисторий.
Целюсь сделать из него агента-режиссера для визуализации любой идеи.
Рефлексирую на этом пути, рассказываю новости Ai.
Подробнее
Кто я?
Рустам Салаватов - https://www.linkedin.com/in/rustam-salavatov/
В инстаграм лайфстайл https://instagram.com/life2film
Автор телеграм канала Generative Ai
Я — предприниматель и инженер по искусственному интеллекту, CTO.
10 лет назад LIFE2FILM.com — сервиса для автоматического видео-монтажа и анализа с миллионом пользователей, но сейчас сфокусирован на создание SuperDuperAi.co.
Также работаю CTO в финтех-стартапе Zenpulsar.com
Жили раньше в Башкортостане (РФ), сейчас с семьей живем в Турции (3ий год , получили визу цифрового кочевника), но планирую переезд в США (новости об этом тоже публикую). Моя жена Алина - ведет активно блог про жизнь в Турции @miralinka_life
Также интересуюсь экологией, кино и созданием технологий меняющих мир. Активизм.
Избранные публикации:
* Как открывали компанию в Делавер, США https://www.tgoop.com/life2film/250
* Как создать своего персонажа https://www.tgoop.com/life2film/390
* Сравнение image2video генераторов https://www.tgoop.com/life2film/389
* Будущее ИИ кино от Бена Аффлека https://www.tgoop.com/life2film/370
* Канал про ИИ фильмы https://www.tgoop.com/life2film/344
* Грант 150.000$ от Майкрасофт для стартапов https://www.tgoop.com/life2film/312
* Про РОСТ и ПРОДАЖИ в стартапе https://www.tgoop.com/life2film/436
Общие темы:
* Что я думаю про фильм Субстанция https://www.tgoop.com/life2film/360
* GPT ассистент для изучения английского https://www.tgoop.com/life2film/346
* Тестирование Junior программистов https://www.tgoop.com/life2film/343
* Как меняется счастье https://www.tgoop.com/life2film/293
* Кто ты NPC или Герой? https://www.tgoop.com/life2film/280 и https://www.tgoop.com/life2film/276
SuperDuperAi посты:
Пример видео для нашего адвайзера https://www.tgoop.com/life2film/367
Пример рождественнсого видео https://www.tgoop.com/life2film/386
Тренировка модели на своих фото https://www.tgoop.com/life2film/411
Статистика по пользователям - 1500 https://www.tgoop.com/life2film/287
А еще специально для подписчиков канала:
Скидка 19$ https://www.tgoop.com/life2film/380
Всегда открыт к общению и сотрудничеству.
Ищу сейчас различные Use-case где полезно использовать мой опыт по работе с генеративным ИИ.
Делюсь опытом работы над стартапом SuperDuperAi.co - генератором Ai видеоисторий.
Целюсь сделать из него агента-режиссера для визуализации любой идеи.
Рефлексирую на этом пути, рассказываю новости Ai.
Подробнее
Кто я?
Рустам Салаватов - https://www.linkedin.com/in/rustam-salavatov/
В инстаграм лайфстайл https://instagram.com/life2film
Автор телеграм канала Generative Ai
Я — предприниматель и инженер по искусственному интеллекту, CTO.
10 лет назад LIFE2FILM.com — сервиса для автоматического видео-монтажа и анализа с миллионом пользователей, но сейчас сфокусирован на создание SuperDuperAi.co.
Также работаю CTO в финтех-стартапе Zenpulsar.com
Жили раньше в Башкортостане (РФ), сейчас с семьей живем в Турции (3ий год , получили визу цифрового кочевника), но планирую переезд в США (новости об этом тоже публикую). Моя жена Алина - ведет активно блог про жизнь в Турции @miralinka_life
Также интересуюсь экологией, кино и созданием технологий меняющих мир. Активизм.
Избранные публикации:
* Как открывали компанию в Делавер, США https://www.tgoop.com/life2film/250
* Как создать своего персонажа https://www.tgoop.com/life2film/390
* Сравнение image2video генераторов https://www.tgoop.com/life2film/389
* Будущее ИИ кино от Бена Аффлека https://www.tgoop.com/life2film/370
* Канал про ИИ фильмы https://www.tgoop.com/life2film/344
* Грант 150.000$ от Майкрасофт для стартапов https://www.tgoop.com/life2film/312
* Про РОСТ и ПРОДАЖИ в стартапе https://www.tgoop.com/life2film/436
Общие темы:
* Что я думаю про фильм Субстанция https://www.tgoop.com/life2film/360
* GPT ассистент для изучения английского https://www.tgoop.com/life2film/346
* Тестирование Junior программистов https://www.tgoop.com/life2film/343
* Как меняется счастье https://www.tgoop.com/life2film/293
* Кто ты NPC или Герой? https://www.tgoop.com/life2film/280 и https://www.tgoop.com/life2film/276
SuperDuperAi посты:
Пример видео для нашего адвайзера https://www.tgoop.com/life2film/367
Пример рождественнсого видео https://www.tgoop.com/life2film/386
Тренировка модели на своих фото https://www.tgoop.com/life2film/411
Статистика по пользователям - 1500 https://www.tgoop.com/life2film/287
А еще специально для подписчиков канала:
Скидка 19$ https://www.tgoop.com/life2film/380
Всегда открыт к общению и сотрудничеству.
Ищу сейчас различные Use-case где полезно использовать мой опыт по работе с генеративным ИИ.
Telegram
Life2film
Открытие компании в США Делавер осилили! Делали через Clerky и смогли недавно открыть счет в банке Brex, теперь подключаем платежи через Stipe. Почтовый адрес через anytimemailbox.com
Компанию назвали SuperDuperAi Corp! Самый интересный момент, что мы выбрали…
Компанию назвали SuperDuperAi Corp! Самый интересный момент, что мы выбрали…
Forwarded from Нейронавт | Нейросети в творчестве
This media is not supported in your browser
VIEW IN TELEGRAM
LatentSync: Audio Conditioned Latent Diffusion Models for Lip Sync
Липсинк от ByteDance.
Двигает губы (и челюсть) под звук речи.
Работает по видео.
первое видео на французском - оригинал, второе на английском - липсинк
Код
Демо
ComfyUI
Попробовать на fal.ai (если есть кредиты)
#lipsync #speech2video #video2video
Липсинк от ByteDance.
Двигает губы (и челюсть) под звук речи.
Работает по видео.
первое видео на французском - оригинал, второе на английском - липсинк
Код
Демо
ComfyUI
Попробовать на fal.ai (если есть кредиты)
#lipsync #speech2video #video2video
Forwarded from Machinelearning
NVIDIA-Ingest - это масштабируемый, ориентированный на высокую производительность микросервис для парсинга неструктурированных документов и метаданных очень большого размера.
Инструмент поддерживает PDF, Word и PowerPoint и использует специализированные микросервисы NVIDIA NIM для поиска, контекстуализации и извлечения текста, таблиц, диаграмм и изображений для использования в генеративных приложениях.
NVIDIA Ingest позволяет распараллелить процесс разбиения документов на страницы, где содержимое классифицируется (как таблицы, диаграммы, изображения, текст), извлекается в дискретный контент и далее контекстуализируется с помощью оптического распознавания символов (OCR) в четко определенную схему JSON.
После этого NVIDIA Ingest может опционально вычислением эмбедингов для извлеченного контента, а также опционально храненииь данные в векторной базе данных Milvus.
@ai_machinelearning_big_data
#NVIDIA #parsing #embedding
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Нейронавт | Нейросети в творчестве
This media is not supported in your browser
VIEW IN TELEGRAM
Cosmos-1.0-Diffusion: A Suite of Diffusion-based World Foundation Models
NVIDIA выпустила семейство видеогенераторов с пониманием физического мира. Они предпочитают о них говорить как о генераторах мира по тексту и изображению.
Хронометра; 121 кадр
Позиционируется для разработчиков, в помощь в симуляции мира.
Лицензия на бесплатное коммерческое использование.
Нужно 80GB VRAM
Дают попробовать!
Примеры видео спрятаны в демо
Гитхаб
Веса
Демо
#text2video #image2video #simulation #text2world #image2world
NVIDIA выпустила семейство видеогенераторов с пониманием физического мира. Они предпочитают о них говорить как о генераторах мира по тексту и изображению.
Хронометра; 121 кадр
Позиционируется для разработчиков, в помощь в симуляции мира.
Лицензия на бесплатное коммерческое использование.
Нужно 80GB VRAM
Дают попробовать!
Примеры видео спрятаны в демо
Гитхаб
Веса
Демо
#text2video #image2video #simulation #text2world #image2world
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 TransPixar: генерация видео с прозрачным фоном от Adobe
TransPixar — новый open-source проект, разработанный Adobe, предназначенный для генерации видео с прозрачным фоном. Он построен на основе генератора CogVideoX и позволяет создавать RGBA-видео из текстовых описаний, что особенно полезно для визуальных эффектов и композитинга.
🔗 [GitHub репозиторий](https://github.com/wileewang/TransPixar)
TransPixar — новый open-source проект, разработанный Adobe, предназначенный для генерации видео с прозрачным фоном. Он построен на основе генератора CogVideoX и позволяет создавать RGBA-видео из текстовых описаний, что особенно полезно для визуальных эффектов и композитинга.
🔗 [GitHub репозиторий](https://github.com/wileewang/TransPixar)
Forwarded from Нейронавт | Нейросети в творчестве
This media is not supported in your browser
VIEW IN TELEGRAM
ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Оценка позы по изображению и по видео
Код
Веса
Демо по картинке
Демо по видео/картинке
Колаб
#poseestimation #image2pose #video2pose
Оценка позы по изображению и по видео
Код
Веса
Демо по картинке
Демо по видео/картинке
Колаб
#poseestimation #image2pose #video2pose
Forwarded from Нейронавт | Нейросети в творчестве
This media is not supported in your browser
VIEW IN TELEGRAM
Hallo3: Highly Dynamic and Realistic Portrait Image Animation with Diffusion Transformer Networks
Новое поколение липсинка от Baidu
Работает и с головными уборами.
Анимирует не только лицо но и фон.
Все потому что внутри претрейн Cogvideox-5b-i2v
Код
Веса
#lipsync #talkinghead #humananimation #portraitanimation
Новое поколение липсинка от Baidu
Работает и с головными уборами.
Анимирует не только лицо но и фон.
Все потому что внутри претрейн Cogvideox-5b-i2v
Код
Веса
#lipsync #talkinghead #humananimation #portraitanimation
🎓 Бесплатный сертифицированный курс по агентам от Hugging Face!
- Понимание агентов: Изучение основ работы AI-агентов, включая восприятие окружающей среды, логические рассуждения и выполнение действий.
- Работа с фреймворками: Освоение популярных инструментов, таких как LangChain, LlamaIndex и smolagents, для создания сложного поведения агентов.
- Реальные приложения: Примеры использования агентов для автоматизации SQL-запросов, генерации кода и суммаризации сложных документов.
- Сертификация: Получение сертификата после завершения курса, реализации практического кейса и прохождения итоговой оценки.
Курс предназначен для разработчиков, дата-сайентистов и всех, кто интересуется будущим AI. Начало курса запланировано на февраль.
🔗 [Записаться на курс](https://bit.ly/hf-learn-agents)
- Понимание агентов: Изучение основ работы AI-агентов, включая восприятие окружающей среды, логические рассуждения и выполнение действий.
- Работа с фреймворками: Освоение популярных инструментов, таких как LangChain, LlamaIndex и smolagents, для создания сложного поведения агентов.
- Реальные приложения: Примеры использования агентов для автоматизации SQL-запросов, генерации кода и суммаризации сложных документов.
- Сертификация: Получение сертификата после завершения курса, реализации практического кейса и прохождения итоговой оценки.
Курс предназначен для разработчиков, дата-сайентистов и всех, кто интересуется будущим AI. Начало курса запланировано на февраль.
🔗 [Записаться на курс](https://bit.ly/hf-learn-agents)
Forwarded from Machinelearning
В нем содержится все, что вам нужно знать:
> Описание агентов, компонентов и когнитивных архитектур.
> Разобраны инструменты по работе с агентами: расширения, написании функций и хранилища данных.
> Описываются методы обучения для повышения производительности агентов.
> Описываются методы создания агентов с использованием LangChain и LangGraph
▪ Читать гайд
@ai_machinelearning_big_data
#aiagents #ai #llm #ml #machinelearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Градиент обреченный (Sergei Averkiev)
🔺 DeepSeek-R1 и DeepSeek-R1-Zero
Как было сказано ранее, модели от китайских исследователей выложены в открытый доступ и показывают результаты на уровне o1.
🔸 Например, в отчете пишут, что модель пробивает рейтинг в 2000 на Codeforces (хорошие соревнования по программированию с довольно сложными задачками), это лучше 96% участников.
🔸 Локальный запуск: запустить эти модели будет непросто из-за их размера, поэтому авторы сделали ряд моделей поменьше, используя дистилляцию. От 1.5B до 70B.
🔸 Попробовать: полная R1 доступна на официальном сайте в режиме DeepThink.
🔸 Приложение: мобильное приложение работает бесплатно, ссылки есть тут.
🔸 Мини-обзор: https://hfday.ru/u/2501.12948.html
Как было сказано ранее, модели от китайских исследователей выложены в открытый доступ и показывают результаты на уровне o1.
🔸 Например, в отчете пишут, что модель пробивает рейтинг в 2000 на Codeforces (хорошие соревнования по программированию с довольно сложными задачками), это лучше 96% участников.
🔸 Локальный запуск: запустить эти модели будет непросто из-за их размера, поэтому авторы сделали ряд моделей поменьше, используя дистилляцию. От 1.5B до 70B.
🔸 Попробовать: полная R1 доступна на официальном сайте в режиме DeepThink.
🔸 Приложение: мобильное приложение работает бесплатно, ссылки есть тут.
🔸 Мини-обзор: https://hfday.ru/u/2501.12948.html
Forwarded from Data Secrets
Media is too big
VIEW IN TELEGRAM
Пока OpenAI начинают раскатывать Operator на Pro юзеров (похоже релиз действительно будет сегодня вечером!), китайская ByteDance подгадала момент и выкатила своего такого же агента в опенсорс
Он называется UI-TARS и вышел под лицензией Apache 2.0 (репозиторий). Основан агент на VLM (есть варианты на 2B, 7B и 72B, вот тут веса), на вход принимает картинки аля кадры экрана, а на выход генерирует человекоподобные действия, то есть движения мыши или нажатия на клавиатуру.
Самое интересное: в агенте есть ризонинг! Его обучали как на простых "интуитивных" сценариях, так и на CoT, так что для сложных задач он может поключать размышление и какое-то подобие планирования. Датасеты там, конечно, огромные, и собранные самими ByteDance.
На бенчмарках выглядит ничего. Учитывая, что Operator, вероятно, будет доступен только за 200 долларов, довольно приятный релиз.
Статья здесь
Он называется UI-TARS и вышел под лицензией Apache 2.0 (репозиторий). Основан агент на VLM (есть варианты на 2B, 7B и 72B, вот тут веса), на вход принимает картинки аля кадры экрана, а на выход генерирует человекоподобные действия, то есть движения мыши или нажатия на клавиатуру.
Самое интересное: в агенте есть ризонинг! Его обучали как на простых "интуитивных" сценариях, так и на CoT, так что для сложных задач он может поключать размышление и какое-то подобие планирования. Датасеты там, конечно, огромные, и собранные самими ByteDance.
На бенчмарках выглядит ничего. Учитывая, что Operator, вероятно, будет доступен только за 200 долларов, довольно приятный релиз.
Статья здесь
Forwarded from Борис опять
Админ трогал траву как не в себя, но наконец добрался рассказать вам про самую поразительную работу за 2024.
Я считаю, что про неё недостаточно говорят, а про решателей шокльной математики (o1/o3) и агентов слишком много. Ваша любимая 400b VLM плохо рисует bounding boxes, а эта 770m шутка делает их отлично хоть на CPU. При этом VLM обучалась на немыслимом количестве данных, а у этой штуки было меньше примеров, чем у CLIP. Да что далеко ходить: у меня друг делает стартап по CV, мы с ним обсуждали эту модель, он её попробовал и перестал обучать свои YOLO детекторы: потому что эта штука просто работает. Причем несмотря на необходимость обнаруживать строительные машины на фотографиях с плохих камер в родной атмосфере слякоти и грязи.
#обзор_статьи
# Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
Скачивайте и играйтесь на HF.
Что если я скажу, что есть модель, которая умеет хорошо делать Zero-Shot детекцию, сегментацию, captioning и OCR? Что при этом её можно промптить, например требуя найти на картинке всех собак или сделать сегментацию объекта внутри ббокса? Вы наверное подумаете, что это новая огромная VLM. Но нет, эта модель размером всего 770M, то есть как большой ViT. Можно запускать хоть на CPU. Более того, её можно дообучать, в том числе легко сделать из неё supervised детектор прикрутив ей свою любимую голову, скажем от DETR.
В Computer Vision у всех комплексы по поводу foundational models. Мы завидуем ребятам из NLP. Стало модно выпускать большие модели и говорить: "теперь у нас тоже фаундейшнл!" Однако что такого foundational, скажем, в Segment Anything? Это просто сегментатор обученный на большом количестве качественной синтетики. В моем понимании foundational это когда ты в свободной форме даешь модели любую задачу и она её решает, как GPT-4o, а не когда тебе нужно определенным образом зампромптить модель, чтобы получить решение задачи сегментации.
Florence-2 это первая модель в CV которую я действительно готов назвать foundational. С одной стороны из-за её широкой полезности, так как она позволяет решать все популярные задачи в CV. Но так же из-за того, каким образом она сделала. Минимум костылей, как вы сейчас увидите.
Перейдем к сути, благо статья простая и благодаря этому очень красивая. Авторы рассуждают последовательно.
Чего мы хотим от универсальной CV модели?
1. Image-level understanding: понимание высокоуровневой семантики. Например, на картинке кошка или собака? Можно так же сказать, что это способность связать изображение и текстовое описание. Эту задачу отлично решает CLIP.
2. Region/pixel-level recognition: обнаружение объектов на изображениях и понимание их расположения. С этим отлично справляются supervised классификаторы, детекторы и сегментаторы.
3. Fine-grained visual-semantic alignment: связь между областями изображения, в том числе совсем маленькими, и текстом. Обнаружение частей изображений которые относятся к фразам, объектам, атрибутам и отношениям. Это способность обнаружить и отличить "нос собаки", "нос собаки слева", "нос рыжей собаки", "коричневый нос собаки" и так далее.
Когда желания определены дело за малым: выбрать данные, функцию ошибки и архитектуру. Через эти компоненты мы по факту формируем оптимизационную задачу.
Авторы решили, что для получения трех компонент понимания изображений нужно много разных аннотаций, которые можно распределить по двум осям:
1. Spatial hierarchy: аннотации должны включать разные масштабы изображений, чтобы модели требовалось понимание и на уровне изображения, и на уровне пикселей.
2. Semantic granularity: в текстах (описаниях, промптах, лейблах) должны встречаться разные уровни абстракции, требующие от модели как понимания общих концептов, так и небольших деталей и нюансов.
Я считаю, что про неё недостаточно говорят, а про решателей шокльной математики (o1/o3) и агентов слишком много. Ваша любимая 400b VLM плохо рисует bounding boxes, а эта 770m шутка делает их отлично хоть на CPU. При этом VLM обучалась на немыслимом количестве данных, а у этой штуки было меньше примеров, чем у CLIP. Да что далеко ходить: у меня друг делает стартап по CV, мы с ним обсуждали эту модель, он её попробовал и перестал обучать свои YOLO детекторы: потому что эта штука просто работает. Причем несмотря на необходимость обнаруживать строительные машины на фотографиях с плохих камер в родной атмосфере слякоти и грязи.
#обзор_статьи
# Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
Скачивайте и играйтесь на HF.
Что если я скажу, что есть модель, которая умеет хорошо делать Zero-Shot детекцию, сегментацию, captioning и OCR? Что при этом её можно промптить, например требуя найти на картинке всех собак или сделать сегментацию объекта внутри ббокса? Вы наверное подумаете, что это новая огромная VLM. Но нет, эта модель размером всего 770M, то есть как большой ViT. Можно запускать хоть на CPU. Более того, её можно дообучать, в том числе легко сделать из неё supervised детектор прикрутив ей свою любимую голову, скажем от DETR.
В Computer Vision у всех комплексы по поводу foundational models. Мы завидуем ребятам из NLP. Стало модно выпускать большие модели и говорить: "теперь у нас тоже фаундейшнл!" Однако что такого foundational, скажем, в Segment Anything? Это просто сегментатор обученный на большом количестве качественной синтетики. В моем понимании foundational это когда ты в свободной форме даешь модели любую задачу и она её решает, как GPT-4o, а не когда тебе нужно определенным образом зампромптить модель, чтобы получить решение задачи сегментации.
Florence-2 это первая модель в CV которую я действительно готов назвать foundational. С одной стороны из-за её широкой полезности, так как она позволяет решать все популярные задачи в CV. Но так же из-за того, каким образом она сделала. Минимум костылей, как вы сейчас увидите.
Перейдем к сути, благо статья простая и благодаря этому очень красивая. Авторы рассуждают последовательно.
Чего мы хотим от универсальной CV модели?
1. Image-level understanding: понимание высокоуровневой семантики. Например, на картинке кошка или собака? Можно так же сказать, что это способность связать изображение и текстовое описание. Эту задачу отлично решает CLIP.
2. Region/pixel-level recognition: обнаружение объектов на изображениях и понимание их расположения. С этим отлично справляются supervised классификаторы, детекторы и сегментаторы.
3. Fine-grained visual-semantic alignment: связь между областями изображения, в том числе совсем маленькими, и текстом. Обнаружение частей изображений которые относятся к фразам, объектам, атрибутам и отношениям. Это способность обнаружить и отличить "нос собаки", "нос собаки слева", "нос рыжей собаки", "коричневый нос собаки" и так далее.
Когда желания определены дело за малым: выбрать данные, функцию ошибки и архитектуру. Через эти компоненты мы по факту формируем оптимизационную задачу.
Авторы решили, что для получения трех компонент понимания изображений нужно много разных аннотаций, которые можно распределить по двум осям:
1. Spatial hierarchy: аннотации должны включать разные масштабы изображений, чтобы модели требовалось понимание и на уровне изображения, и на уровне пикселей.
2. Semantic granularity: в текстах (описаниях, промптах, лейблах) должны встречаться разные уровни абстракции, требующие от модели как понимания общих концептов, так и небольших деталей и нюансов.
arXiv.org
Florence-2: Advancing a Unified Representation for a Variety of...
We introduce Florence-2, a novel vision foundation model with a unified, prompt-based representation for a variety of computer vision and vision-language tasks. While existing large vision models...