Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
116 - Telegram Web
Telegram Web
An Inverse Scaling Law for CLIP Training

CLIP и Open-CLIP — foundation модели, послужившие причиной прорывов во многих областях, в том числе text-to-image генерации. Однако, для их обучения требуются не малые вычислительные ресурсы. Сравнительно небольшой OpenCLIP-B/16 обучали ~10k GPU часов на А100 для получения скромных 67.1% zero-shot на ImageNet1k.

Авторы статьи задались вопросами вычислительной оптимальности текущих пайплайнов обучения и предложили:
— Набор трюков для ускорения обучения моделей текстовой релевантности;
— Результаты scaling laws экспериментов, показывающие как соблюдать балланс между длинами последовательностей и ёмкостью моделей.

Про трюки:
— Для картинок используются комбинации ранее известных механизмов маскирование токенов (кропов): Random, Grid, Block + ресайзинг бикубик интерполяцией с антиалиасингом;
— Для текстов используется truncation (берем первые N токенов, остальное выкидываем), random masking, block masking (выкидываем случайные блоки токенов) и syntax masking (с наименьшей вероятностью убираем существительные).

Про scaling laws:
Перебирали оси: размер модели (S/16, B/16, L/16), длины последовательностей токенов и компьют. Главным неочевидным наблюдением является то чем бОльшие картиночные/текстовые энкодеры используются, тем менее они чувствительны к уменьшению длины используемой последовательности токенов. По этой причине авторы называют полученный закон Inverse.

Все замеры делаются на прокси задачах, в основном zero-shot классификация и retrieval. Правильно подобрав соотношение длины последовательности, размера модели и трюков с подготовкой данных, удается сократить итоговое количество затраченных на обучение GPU часов во много раз. Так, удается обучить L/16 до 69.3% на ImageNet1k за 4 дня на одной машине с 8хА100.

Помимо результатов авторы делятся своим фреймворком для эффективного обучения.
🔥1
DreamSim: Learning New Dimensions of
Human Visual Similarity using Synthetic Data


Есть такая задача - оценивать похожесть картинок. Основные, публично доступные сейчас методы - IQA метрики (LPIPS, DISTS, PieAPP) и модели текстовой релевантности (CLIP, DINO, MAE). Принцип работы первых основывается на анализе низкоуровневых признаков. Они задумывались для поиска артефактов, бОльшая часть которых сильно локализованы. Вторые анализируют картинки целиком и могут хорошо понимать близость концептов, но могут иметь проблемы с менее высокоуровневыми характеристиками: цвет, композиция, изменение мелких деталей.

Авторы поставили целью получить модель, способную работать на неком среднем уровне и хорошо согласовываться с человеческим пониманием похожести изображений.

Основной вклад - датсет NIGHTS, состоящих из триплетов: исходная картинка и две её вариации, полученные с помощью Stable Diffusion (SD). Авторы придумали интересный метод сбора разметки. Ассессоров просили выбрать наиболее похожую вариацию из двух предложенных. Начали со 100к триплетов, которые разметили по 1 разу. После этого, процедуру повторили, но оставили только те примеры, в которых ответы первого и второго раунда совпали. Так продолжали 10 раундов, в результате чего осталось ~20k триплетов с единодушными ответами, они и составили финальный датасет. Довольно интересный способ получить разметку с малой (нулевой) дисперсией в столь сложной и, казалось бы, субъективной задаче.

Новая модель представляет собой ансамбль нескольких тушек из CLIP/MAE/OpenCLIP, затюненных с помощью LoRA hinge лосс. Итоговая модель имеет точность порядка 0.96. Её эффективность также показали на задаче image retrieval и feature inversion, где “на глаз” заметны более качественные результаты.

Важно отметить, что в датасете нет лиц людей, а сама модель может иметь баес на SD. Код и данные выложены.
🔥2
Scaling Data-Constrained Language Models

Большие языковые модели (LLM) обучают на огромных корпусах текстовых данных. При этом, размеры датасетов позволяют проходить по текстам без повторений. Это значит, что обучение, формально, длится менее одной эпохи.

Все предыдущие scaling laws работы были выполнены именно в таком режиме. В то же время, оценки по Chinchilla-оптимальности показывают, что данные скоро кончатся, то есть для обучения самых больших моделей прийдется несколько раз проходиться по датасету. Возникает вопрос: как будут масштабироваться модели в режиме, когда количество данных станет ограничено?

Авторы проводят следующие эксперименты:
1. Фиксируют датасет, варьируют количество эпох и параметров в модели (используют GPT-2-подобную архитектуру);
2. Фиксируют вычислительный бюджет, варьируют размер датасета в терминах количества уникальных токенов (до 900В) и эпох обучения.
3. Оптимизируют scaling law - функцию масштабирования качества работы модели в зависимости от выбранных параметров. Функцию экстраполируют для получения предсказаний того как будет вести себя модель на бОльших масштабах данных/компьюта.

В статье очень много интересных наблюдений, вот некоторые из них:
— В текущем сетапе (“1 epoch training”) модели существенно недоиспользуют данные. Зафиксировав множество данных, лучший лосс (по нему оценивают качество) получается при использовании в 20-60 раз бОльших моделей и числа эпох, чем делается сейчас.
— При обучении с несколькими проходами по данным, на увеличение числа эпох следует тратить бОльшую часть имеющегося вычислительного бюджета чем на увеличение размера модели.
— Насыщение данные происходит достаточно медленно. Например, для некоторых зафиксированных модели/датасета и 4 эпох обучения, валидационный лосс всего на 0.5% больше, чем при обучении на тем же количество уникальных токенов.
— В среднем, обучение до 16 эпох даёт неплохие улучшения качества, после чего начинаются diminishing returns.

Код, модельки, датасеты выложены.
👍2
When are ensembles really effective?

Ансамблирование - популярная техника улучшения качества решения задач, особенно в соревновательном ML. Deep ensembles продолжают использовать для комбинирования моделей и оценки uncertainty, а бустинги остаются наиболее популярным методом решения большого класса задач.

Не смотря на это, нет до конца выработанной теории на тему того когда все-таки использование ансамблей даёт прирост и всегда ли выгоднее использовать ансамбль вместо одной, тяжелой модельки.

Авторы атакуют проблему с двух сторон: теоретической и практической.
Теоретически доказывается, что:
1. Компетентный ансамбль никогда не ухудшит работы системы. Компетентный ансамбль значит, что каждая входящая в него модель работает лучше рандома.
2. Ансамбль тем эффективнее, чем менее оптимальные (в терминах доли от максимального качества) и рассогласованные модели входят в него.

Практические результаты подтверждают теорию, а также практикой показываются несколько довольно теоретических законов 😂. Например:

Будем называть модель интерполяционной, когда у нее нулевая ошибка на обучающей выборке и не интерполяционной в противном случае. Тогда, ансамбли интерполяционных моделей улучшают качество строго хуже, чем не интерполяционных. Иными словами, это означает, что переобучение плохо сказывается на эффективности ансамблирования.

Если вам кажется, что в сказанном ничего нового, то в этом есть доля правды. Действительно, подобные рассуждения гуляют по статьям и блогам уже давно. Статья же про наведение порядка и формальные доказательства того что давно считается conventional wisdom.

Все эксперименты на довольно простых бенчмарках вроде MNIST, CIFAR, IMDB. Модели тоже небольшие. К слову, вопрос про ансамбль vs большая моделька остался не адресованным. Кода нет.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forget-Me-Not: Learning to Forget in Text-to-Image Diffusion Models

Концепт - абстрактное понятие, характеризующее объект или мысль, которая также может служить основанием для человеческого восприятия. В области компьютерного зрения под концептами могут пониматься материальные сущности: физически существующие объекты и отношения между ними, их позы и поведение, а так же стилизация изображений в целом. В ходе обучения модели запоминают концепты, в том числе и те, которые нам не хотелось бы видеть потом в генерациях.

Работа посвящена задаче удаления концептов из уже обученных генеративных моделей. Предлагается:
1. Просчитать текстовые эмбединги нежелательных концептов;
2. Просчитать карты внимания между входными признаками и текстовыми эмбедами из п.1;
3. Минимизировать значения карт внимания и обновить веса модели.

Бывает, что нежелательный концепт плохо формализуется словами или необходимые токены отсутствуют/плохо выучены текстовой моделью. В этом случае предлагается использовать текстовую инверсию. К сожалению, это все детали по методу, представленные в статье.

Для оценки качества предлагается бенчмарк ConceptBench и метрика Memorization Score (M-Score). Бенчмарк включает три категории (object, identity, style) разной уровни абстрактности и сложности. Деталей также не много. Из описания следует, что это бенчмарк включает в себя большое количество категорий, часть из которых имеет иерархическую структуру. Например, в категории instances, у класса Dog если подклассы Corgi и Husky.

Эффективность подхода замеряют с помощью текстовой инверсии: замеряют косинус угла между эмбедингами концепта, полученного по изображению до и после применения процедуры удаления концепта. Код обещают тут.
Emerging Properties in Self-Supervised Vision Transformers

Статья о модели DINO, ставшей уже классическим примером self-supervised learning (SSL) претрена общего назначения в области комп. зрения.

На момент публикации уже существовали LLM, основанные на трансформере и показывающие классные результаты за счет SSL, например BERT c его next sentence prediction и GPT с language modelling. А ViT все предобучали на классификацию. У авторов возник логичный вопрос: а можно ли придумать SSL схему для ViT такую что:
— Модель станет SOTA для zero-shot/few-shot решения широкого круга задач;
— У модели начнут появляться особые свойства, отличные от тех что наблюдаются у CNN при SSL.

Метод состоит из двух основных компонент.

1. Knowledge distillation.
— Две сети (student - s, и teacher - t) с идентичными архитектурами инициализируются одинаково
— Через обе пропускают одно и то же изображение аугментированное по-разному. Основная аугментация - кропы по стратегии из SwAV, которые бывают локальные (маленькие) и глобальные (большие). s видит оба типа, t - только локальные. Это заставляет s учить взаимосвязь между локальными и глобальными признаками.
— Лосс - кросс энтропия между предсказаниями классов s и t
— Градиент пускают только через s, t обновляется как EMA по весам s.

2. Трюки для предотвращения mode collapse (ситуации, когда модель научается генерить вектор, тривиально удовлетворяющий условию лосса):
— Contrastive loss (e.g., Instance Discrimination)
— Clustering constraints (e.g. SwAV)
— Predictor & batch norm (e.g., BYOL)
— Batch norm alternatives (e.g., Group norm)

Модель оценивают с помощью уже привычных сегодня процедур linear probing и kNN eval. Солидные на момент публикации 78.3% на ImageNet1k за счет всего лишь ViT-S/8 в kNN сеттинге показывают эффективность в случае, если вам нужен чисто картиночный претрен. Правда стоит сделать скидку на то что модель обучалась на ImageNet1k, хоть и не видела меток. Солидный ablation и высокая практическая ценность делает работу очень важной в области SSL. Код и модельки.
👍3
DINOv2: Learning Robust Visual Features without Supervision

Развитие DINO в части пересмотра self-supervised learning (SSL) фреймворка в случае наличия большого датасета. В работе также описывается пайплайн подготовки датасета LVD-142M, а также увеличения эффективности обучения, что становится важно на таких масштабах.

LVD-142M собирают из Google Landmarks v2, ImageNet-22k, ImageNet-1k, нескольких мелких датасетов + Common Crawl (СС). Для эффективного добавления примеров из СС, проводится кластеризация картинок k-means на 100к кластеров, после чего:
— Для больших датасетов, для каждого изображения берутся k in [4, 22] из ассоциированных CC кластеров
— Для маленьких, для каждого кластера, состоящего из >3 картинок, берутся k=10k изображений из соответствующих СС кластеров

Метод обучения является комбинацией нескольких известных подходов:
DINO: кросс-энтропия между признаками, извлеченными из student и teacher сетками, каждые из которых получены из CLS токенов ViT, в который подаются разные аугментации одного и того же изображения
iBOT: часть патчей, подаваемых student (но не teacher) маскируются. Затем, вычисляется кросс-энтропия на признаках маскированных патчей. Лосс комбинируется с тем что выдаёт DINO часть
SwAV: шаг центрирования перед вычислением кросс-энтропии в DINO/iBOT заменяется на e Sinkhorn-Knopp (SK) batch norm из SwAV потому что в работе MSN показали, что так лучше
— Еще несколько трюков, такие как KoLeo regularizer и увеличение разрешения в конце обучения.

Архитектурно, модели семейства DINOv2 представляют собой ViT от S/14 до g/14, ускоренные за счет Flash Attention, своей продвинутой вариации stochastic depth, PyTorch имплементации Fully Sharded Data Parallel (FSDP) и Replace one Branch (RoB) дистилляции.

Большие версии полученных моделей показывают уверенную SOTA почти на всех картиночных и видео бенчмарках в задачах zero-shot классификации, семантической сегментации и оценки глубины. Код и веса моделей выложены.
👍6🔥1
OBELISC: An Open Web-Scale Filtered Dataset of Interleaved Image-Text Documents

Датасетная статья, посвященная получению большого набора документных данных в формате текст-картинка под названием OBELISC. Отличие от LAION-подобных датасетов заключается в ожидаемом более высоком качестве пар из-за наличия структуры, заложенной в исходных HTML данных из common crawl.

Высокоуровнево, процедура получения датасета описана на приложенном изображении. Важным моментом является фильтрация текстов на первой стадии. Авторы предлагают:
— Определять и убирать не английские тексты с помощью Fast Text.
— Делать раннюю дедупликацию.
— Определять и убирать тексты большим количеством повторений с помощью MassiveText.
— Убирать не качественные тексты с помощью лог рег классификатора, который обучался на Wiki как положительных примерах и случайных текстах из common crawl как отрицательных.

Анализ, проведенный авторами, показывает, что новый датасет содержит меньше повторений картинок, более разнообразный контент, более качественные (более похожие на Wiki) тексты, чем предшествующие датасеты из этого класса.

Эффективность датасета проверяют обучением на нём Flamingo-подобной vision-language модели с предобученными LLaMA и OpenCLIP текстовой и картиночной частями соответственно и обучаемыми cross-attention блоками между ними. Модель обучают на предсказание следующего токена, оценивают на задачах visual question answering, hateful speech detection, image captioning. Судя по графикам, учить такую модель действительно лучше на маленьком, но качественном OBELISC лучше, чем на LAION, а если скомбериновать - вообще топ.

Датасет и код выложены, а вот веса модели, похоже, нет.
👍1
CoCa: Contrastive Captioners are Image-Text
Foundation Models

TMLR 2022

Мультимодальные модели полезны тем что позволяют объединить знания, представленные с помощью двух крайне богатых и распространенных видов данных: картинок и текста. Наиболее популярные подходы для получения таких моделей:
— Dual Encoder Contrastive Learning - модели вроде CLIP, ALIGN, LiT, FLAVA, имеют две тушки и учатся отображать их выходы в одну точку с помощью contrastive loss;
— Encoder-Decoder Captioning - модели вроде BLIP, которые принимают на вход картинку и учатся авторегрессивно предсказывать следующий текстовый токен.

Подобные модели учатся на значительных объемах данных, и в результате начинают проявлять интересные побочные свойства, такие как способность неплохо решать классификационные задачи без явного обучения на них. Помимо этого, энкодеры, полученные таким образом, являются великолепными претренами для практически любых задач. По это причине, модели этого класса начали называть foundation.

Работа посвящена получению новой foundation модели, которая бы объединила два описанных выше подхода: дискриминативный и генеративный. Для этого предлагается новая архитектура, состоящая из одной картиночной и двух текстовых моделей.

На рисунке представлена схема пропускания данных: сначала картинка и текст проходят через соответствующие энкодеры, на полученных эмбедингах вычисляется contrastive loss. Эта часть соответствует CLIP-подобным подходам. Далее оба выхода подаются в текстовый декодер через cross-attention. На выходе получаются текстовые токены и вычисляется captioning loss, а итоговый loss представляет собой взвешенную сумму. Таким образом, картиночный и первый текстовый энкодеры представляют собой dual encoder пару, а две текстовые модели - encoder-decoder.

Модель учили с нуля на комбинации датасетов JFT-3B и ALIGN, т. е. порядка 4В картинок и 1В текстов. Валидировали на куче задач, включая retrieval, классификацию, VQA, image captioning. На части задач модель даже показала SOTA качество. Код и веса не доступны.
👍1
Channel photo updated
VILA: Learning Image Aesthetics from User Comments
with Vision-Language Pretraining

CVPR 2023

Большинство модели Image Aesthetics Assessment (IAA) обучаются на mean opinion scores (MOS), что может ограничивать их качество, поскольку они вынуждены извлекать всю информацию об эстетичности из единственного предоставленного им скаляра.

Авторы предлагают обогатить данные использованием текстовой информации в виде комментариев с сайтов для публикации эстетических фото, таких как Flickr и DPChallenge. Главной целью является получение наиболее хорошо обобщающейся модели, которая будет устойчива к изменению типов изображений и особенностей разметки конкретных датасетов.

Метрика основывается на разобранной выше модели CoCa. Обучение делится на три этапа:
1. CoCa обучают на подмножестве LAION-5B, получая модель общего назначения;
2. Модель дообучают на AVA-Captions, который состоит из изображений, сопровождаемых несколькими комментариями. Авторы берут случайный коммент к каждой картинки, получая таким образом пары для обучения.
3. Специализация модели на задачу IAA дообучением на MOS. Авторы избегают прямого дообучения всей модели по причине вычислительной неэффективности и потери обобщаемости.

Рассмотрим последнюю стадию отдельно. Простым и понятным подходом было бы обучить поверх полученных картиночных эмбедингов MLP “голову”. Вместо этого, авторы предлагают подход, концептуально схожий с работой CLIP-IQA. Выбираются два текстовых “якоря” (`good image` и `bad image`), относительное расстояние для которых и будет являться метрикой. Исходные эмбединги могут быть не достаточно чувствительны для такого использования, поэтому третья стадия обучения заключается в дообучении на MOS небольшого (0.1% всех весов) адаптера поверх картиночных эмбедов с помощью triplet ranking loss.

Полученная таких образом модель побеждает SOTA модели вроде TANet на AVA датасете в zero-shot режиме. В статье есть некоторый ablation на темы важности типов предобучения и метода получения адаптера. Код и веса модельки на JAX.
👍3
CLIP knows image aesthetics

Для чего только не применяли CLIP: классификация, сегментация и детекция объектов на изображениях, использование в качестве энкодера для текстового conditioning в дифуузионных моделях и даже оценка качества изображений. А вот для оценки эстетичности картинок CLIP еще не применяли, что и было исправлено авторами.

В статье исследуется три подхода к использованию “великого знания”, полученного засчет масштабного image-text предобучения. Подходы упорядочены по мере увеличения степени супервижена:
1. Prompting - пробуют максимизировать качество zero-shot классификации (эстетичная/не эстетичная картинка), подбирая тексты и их комбинации. Также показывают, что косинус угла между картинок и векторами подобранных эмбедингов коррелирует с MOS.
2. Linear probing - обучают линейную голову поверх замороженного CLIP как и в случае с задачей ImageNet/whatever классификации. Показывают, что:
— В такой постановке CLIP сильно лучше моделей предобученных на ImageNet
— Можно даже обогнать некоторые ImageNet модели, обучавшиеся на MOS эстетичности
3. Finetuning on AVA - показывают, что
— CLIP претрен более хорош для файнтюна чем ImageNet, поскольку позволяет сойтись быстрее и до более высокого качества
— Стартуя с CLIP претрена можно доучиться до уровня SOTA IAA/IQA моделей без дополнительных изощрений по части архитектуры и процедуры обучения. Так, например, удаётся немного обогнать обученную на AVA IQA модель MUSIQ.

В области IAA принято сравниваться с NIMA - не самой лучшей, но самой известной и широко используемой метрикой эстетичности. Так вот, побить NIMA удаётся только с помощью linear probing. Prompting подход интересен, но слабоват в терминах SRCC с MOS. Статье немного не хватает экспериментов и сравнений с другими, более сильными моделями, а также эвалов на альтернативных IAA датасетах. Код доступен.
🔥5🫡1
The Vendi Score: A Diversity Evaluation Metric for Machine Learning
TMLR 2023

В экологии (вот это начало 😂), одним из основных методов определения разнообразия задаётся экспонентой энтропии распределения наблюдаемых видов. В таком случае, если вся популяция будет состоять из одного вида, мы получим минимальное значение. Если же все особи будут принадлежать отдельному виду при равномерном распределении видов, значение разнообразия будет максимальным.

В машинном обучении, в основном, используется два вида метрик разнообразия:
— Оценивающие похожесть двух распределений (например, FID);
— Основанные на классификационной модельке, то есть подразумевающие маргинальное распределение какого-нибудь ImageNet в качестве референса (например, Inception Score).

Иногда нам хочется измерить разнообразие объектов в распределении не привязываясь к знанию о каком-то “идеальном” распределении, которе обычно неизвестно. Кстати, по этой причине мы не можем просто честно посчитать энтропию выборки.

Для решения проблемы, авторы предлагают метрику Vendi Score, - экспоненту энтропии собственных чисел матрицы значений ядер (матрица Грамма). Здесь ядро - это некоторая положительно определенная функция, а матрица грамма - матрица попарных значений этой функции для объектов выборки. В качестве примера, можно рассматривать RBF kernel, широко применяющееся в SVM. Альтернативная формулировка Vendi Score - эффективный ранг матрицы Грамма.

Понятно, что вычисление такой метрики будет затратно при работе с объектами большой размерности, например с изображениями. Поэтому предлагается считать её на эмбедингах. В результате, сложность падает до сопоставимой с FID.

Работа скорее теоретическая, однако есть эксперимент, показывающий возможность детектирования mode collapse в GAN. Есть подсчеты метрики для нескольких генеративных моделей на CIFAR-10, ImageNet 64x64, LSUN Cat & Bedroom 256×256, где результаты неплохо согласуются с Inception score, FID, PR. Код есть.
Please open Telegram to view this post
VIEW IN TELEGRAM
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

Еще одна, уже успевшая хорошо зарекомендовать себя, SSL image-text модель.

Мотивируют авторов наблюдения:
1. Encoder-only SSL модели (CLIP) трудно применить к генеративным задачам (image captioning), а encoder-decoder модели (SimVLM) - к дискриминативным (retrieval).
2. Учиться на шумных данных не эффективно, нужно придумать метод фильтрации больших массивов image-text данных.

В статье предлагаются решения соответствующих проблем:
1. Архитектурные изменения - взять картиночный и текстовый (№1) энкодеры и обучать с constrastive loss (как в CLIP). Добавить к ним еще два блока:
— Image-grounded text encoder (№2) - получает на вход текст и картиночный эмбед через cross-attention, выдаёт эмбед, который является совместным представлением картинки и текста;
— Image-grounded text decoder - получает на вход то же самое, но учится генерировать текст.
Все три текстовые части учатся с разными лоссами, но сильно шарят веса. Например, feed forward часть вообще везде одна и та же как и cross-attention блок, за чем исключением, что в первом энкодере он просто выключен.
2. Фильтрация данных:
— Обучить первую версию модели на “грязных” данных (LAION-2B);
— Нагенерить ей синтетических текстов к картинкам из датасета с “грязными” данными;
— Объединить обе эти части;
— Отфильтровать данные по качеству соответствия картинки тексту. Для этого нам пригодится энкодер №2, потому что он как раз этому и учился. В качестве альтернативы, можно использовать картиночный и текстовый (№1) энкодеры и вычислять похожесть как похожесть эмбедов картинки и текста.
— Обучить итоговый BLIP на отфильтрованных данных.

Код и модель выложены авторами в открытый доступ.
👍1
SAM-IQA: Can Segment Anything Boost Image Quality Assessment?

Segment Anything (SA) - сравнительно новая модель, претендующая на звание foundation в области комп. зрения. В отличие от разобранных выше SSL претренов, SA предобучали на вполне себе supervised дискриминативную задачу. Это может быть как плюсом (сегментацию можно получать не интерпретацией карт внимания, а напрямую), так и минусом (“заточенность” под конкретную supervised задачу).

Авторы работы проверяют применимость SA к, казалось бы, не релевантной для модельки задаче IQA. Во-первых, сама задача сегментации про то игнорирование частотных особенностей картинки и выделение семантики во что бы то ни стало. Во-вторых, SA обучали с аугментациями, цель которых - сделать модель еще менее чувствительной к чему-то не семантическому.

Тем не менее, авторы показывают, что если поверх SA фичей прикрутить голову и поучить на стандартных IQA датасетах, можно выбить SOTA качество. Что это значит? Вероятно, IQA датасеты, кроме PIPAL (на котором, кстати, авторы не замеряются), изжили себя. Огромное количество моделей способны получить SRCC близкое к единице, даже те, которые явно не должны быть на это способны.

В общем, новая IQA модель, сонаправленная с общими трендами области. Практическую ценность еще предстоит выяснить, а вот замеряться с ней в следующих работах прийдется. Кода нет, обещают тут.
👍4🤔1
Self-Consuming Generative Models Go MAD

Text2Image модели обучают на датасетах вроде LAION-5B, которые частично состоят из синтетических пар - результатов генераций моделей предыдущих поколений. Авторы задаются вопросами:
— Как наличие в датасетах синтетики влияет на качество обучаемых на них генеративных моделей?
— Что будет, если итеративно обучать каждое новое поколение моделей на датасетах, содержащих результаты предыдущих поколений?

Валидируется широкий класс моделей: диффузионки, GAN, Normalizing Flows в трёх постановках задачи:
1️⃣ Датасет полностью состоит из синтетики. Это моделирует ситуацию тюнинга модели на её лучших генерациях.
Результат: со временем, деградирует либо качество, либо вариативность генераций.
2️⃣ Датасет содержит не только синтетические (реальные) данные, но они каждый раз одинаковые.
Результат: это не помогает, только немного откладывает деградацию модели.
3️⃣ Датасет содержит не только синтетические (реальные) данные, при этом они каждый раз разные.
Результат: при достаточном количестве “свежих” данных, качество со временем не деградирует.

В статье есть несколько любопытных наблюдений. Например, обычно, тюнинг моделей происходит на наиболее удачных примерах генерации. В статье это моделируется выбором семплов шума близких к центру нормального распределения, поскольку их качество должно быть выше. Оказывается, что:
— Если специально не выбирать удачные примеры, то со временем падает и качество и разнообразие генераций
— Если выбирать, то качество может не падать, зато вариативность генераций падает с удвоенной скоростью

Все эксперименты проводились на FFHQ и MNIST, замеры качества с помощью FID и PR. Кода нет.
🤯31👍1🤔1
BLIP-2: Bootstrapping Language-Image Pre-training
with Frozen Image Encoders and Large Language Models


BLIP - хорошо зарекомендовавшая себя SSL модель, интересная тем, что сочетает в себе генеративную и дискриминативную компоненты. Вторая версия модели улучшает качество и уменьшает вычислительную стоимость. Делается это за счет новой архитектуры Q-former (1) и двухстадийного пайплайна обучения (2).

1. Основной трюк, позволяющий добиться хороших результатов - своего рода дистилляция предобученных больших картиночных и текстовых моделей. Q-former представляет собой мостик между “замороженными” ViT и OPT/FlanT5. Внутри Q-former два трансформера: первый обрабатывает картиночные эмбединги, второй - текстовые. Как и в первой версии BLIP, трансформеры имеют общий self-attention блок, который маскируется в случае, если нужно работать с одним типом данных.

2. Обучают Q-former в две стадии:
— Vision and Language pretraining: два лосса обучают модель сопоставлять картинку и текст (contrastive learning, matching), третий - генерировать текст на основе картинки. В этой стадии участвует только замороженная картиночная модель, в том время как внутри Q-former обучаются обе (картиночная, текстовая) части.
— Vision-to-Language Generative Learning - полученная на предыдущей стадии модель теперь рассматривается как цельный черный ящик, выходы которого подаются в замороженную LLM. Поскольку авторы экспериментируют в двумя типами LLM, есть вариации на тему того как устроить эту стадию. Для decoder-based LLMs, выход Q-former используется как condition для обучения с LLM лоссом. Для encoder-decoder моделей, строку разбивают на две. Первую часть подают в энкодер, вторую учатся предсказывать при условии первой.

Что осталось от первой версии? Используются те же данные + сохранена концепция discriminative + generative обучения/использования. Обучение по-прежнему строится на чем-то вроде дистилляции, где искусственного учителя теперь заменяют хорошие, большие претрены. А самое прекрасное - код и веса есть в открытом доступе.
🔥2👍1
Regression-free Blind Image Quality Assessment

Большинство IQA моделей решают регрессионную задачу, обучаясь на MOS. Основная проблема - датасеты маленькие, а задача сложная. Из-за этого, SOTA модели переобученны на очень узкое распределение и совершенно не применимы в не академических условиях.

Ранее уже предпринимались попытки уйти от регрессионной парадигмы получения метрики. Например, CLIP-IQA использует prompt engineering для переиспользования качественных признаков модели CLIP. CLIP-IQA не показывает SOTA качества, за то хорошо обобщается на широкий круг задач.

Авторы работы предлагают еще один непараметрический метод IQA. Их подход основан на двух наблюдениях:
— Изображения одинаковым контентом, но разными дисторшенами скорее имеют разное качество
— Изображения с одинаковыми дисторшенами, но разным контентом скорее имеют разное качество

Гипотеза авторов: если у картинок совпадет контент и дисторшены, то у них должны быть одинаковые MOS. Для проверки предлагается модель, состоящая из двух частей Semantic Classification (SC) и Distortion Classification (DC) модулей:
— SC - VGG16 предобученная на ImageNet, из которой извлекается вектор признаков сразу перед классификационной головой.
— DC - модуль, напоминающий CONTRIQUE. Берётся датасет KADIS-700k не содержащий MOS, но содержащий мета-информацию о типе и силе дисторшенов. DC модуль обучают на нём с кросс-энтропией.

Располагая SC и DC модулями, авторы применяют kNN для поиска ближайших примеров из обучающей выборки. Близость определяется как косинус угла между векторами картинок в датасете и картинки пришедшей на вход алгоритму. Далее значения MOS для k ближайших соседей усредняются для получения ответа. MOS соседей можно взвешивать, поскольку замечено, что семантика важнее типа дисторшена.

В статье есть хороший ablation на значения k, используемую метрику расстояния и цветовые пространства, но критически не хватает cross-dataset эвала, ведь главным бонусом ухода от прямой регрессии должна быть обобщаемость. Кода нет.
Exposing flaws of generative model evaluation metrics and their unfair treatment of diffusion models

Сегодня существует несколько признанных метрик оценки качества картиночных генераций. Самые популярные - FID, KID, IS, PR. Только ленивый не ругал каждую из них за ограниченность и не способность высоко коррелировать с человеческим пониманием качества.

Авторы статьи системно исследуют проблему метрик.
— Для начала, генерируют большое количество изображений моделями разных семейств (GAN, Norm Flow, Diffusion, VAE) на данных из нескольких датасетов (ImageNet, FFHQ, CIFAR, LSUN-Bedroom).
— Затем, размечают картинки на предмет их реалистичности на основе метода из статьи HYPE: респондентам случайным образом показываются реальные и сгенерированные изображения, предлагается угадать реальные ли они. Доля ошибок (fool rate) используется как метрика качества.
— Далее, берутся несколько популярных метрик (FID, KID, IS, PR). Все они устроены как экстрактор эмбедингов + вычислитель некоторой дистанции между наборами эмбедингов из двух сравниваемых распределений. Обычно, в качестве экстрактора используют InceptionNet. Авторы пробуют подставлять альтернативные SSL тушки: CLIP, MAE, DINOv2, SimCLRv2, SwAV.
— Оценивают корреляцию между fool rate и значениями метрик для всего набора моделей.

Основной практический вывод статьи - метрики вроде FID/KID сами по себе не плохи. Проблема в InceptionNet, имеющей слишком узкое распределение. Помимо этого, с помощью вариации Vendi Score показано, что FID/KID могут хорошо детектировать изменение разнообразия генераций, если будут использованы с хорошим экстрактором эмбедов. В качестве такого экстрактора предлагается DINOv2 ViT-L/14, при использовании которого метрики наиболее хорошо согласуются с человеческими оценками. Код и данные выложены.
👍4
How to Scale Your EMA

В наших руках редкий зверь - статья от Apple, да еще и по scaling laws. Конкретнее, про то как масштабировать exponential moving average (EMA) - популярный подход увеличения обобщаемости и избегания локальных минимумов. EMA - взвешенное среднее весов модели. Как понятно из названия метода, взвешивание экспоненциальное, а значит есть параметр, который отвечает за то насколько быстро будет уменьшаться важность ранее полученных вариантов весов. Статья про то как выбирать этот параметр в зависимости от размера батча во время обучения.

В статье есть два важных с практической точки зрения допущения:
1. Исходный анализ исключительно с SGD
2. Learning rate масштабируют относительно batch size линейно (есть альтернативные варианты)

Из принятых выше допущений аналитически следует, что EMA должен масштабироваться относительно размера батча экспоненциально, что называют EMA scaling rule.
Экспериментальная часть посвящена:
— Подтверждению сказанного для SGD
— Иллюстрации того, что (хоть и без пруфов) для адаптивных алгоритмов (RMSProp, Adam) зависимость такая же

Авторы рассматривают несколько задач:
— Supervised классификация (картинки, распознавание аудио)
— Semi-supervised speech recognition via pseudo-labeling
— Self-supervised image representation learning. Конкретнее - постановка, когда EMA модель рассматривается в виде учителя как в BLIP/BYOL

Во всех задачах EMA scaling rule как минимум не вредит, чаще улучшает результаты. Кода нет.
🔥3👍1
2025/07/14 10:46:28
Back to Top
HTML Embed Code: