Concise Research

Blind Image Quality Assessment via Vision-Language Correspondence: A Multitask Learning Perspective
CVPR2023

Мультимодальные (vision-language) модели продолжают проникать в различные ML/DL задачи. Для области оценки качества изображений мы уже разбирали работу CLIP-IQA, суть которой в использовании предобученного CLIP, промпт инжиниринга и CoOp тюнинга для решения задачи в zero-shot режиме. Моотивация использовать CLIP в ожидаемой высокой обобщаемости итоговой метрики из-за не специфического предобучения на большом наборе данных.

В этой работе авторы предлагают полноценно обучать CLIP:
— Сразу на нескольких датасетах;
— Используя сгенерированные специально под задачу текстовые описания;
— Несколько лоссов.

Особенность подхода в обучении модели для одновременного решения нескольких задач. В статье утверждается, что это главный ключ к обобщаемости метрики при увеличении максимального качества ее работы.

Авторы выделяют 9 типов сцен s (“animal”, “human” и т.д.), 11 типов дисторшенов d (JPEG, blur и т.д.) и 5 уровней качества c. Затем, генерится строка, описывающая фото вида: “a photo of a(n) {s} with {d} artifacts, which is of {c} quality”. Всего получается 5 × 9 × 11 = 495 строк, для каждой из которых считается текстовый CLIP эмбед. Также картиночный CLIP эмбед извлекается из каждого изображения в обучающей выборке и считается совместное распределение p(c,d,s|x). Дальше начинается дизайн лоссов:

1. IQA (Fidelity) Loss - FRank модель попарного ранжирования: заставляем нашу метрику ставить картинки по качеству в правильном порядке.
2 и 3. Scene Classification + Distortion Type Identification - опять fidelity (FRank) или softmax для многоклассовой классификации сцен и типов дисторшенов.

Некоторые гиперпараметры (batch size) зависят от датасета. Обучаются на LIVE, CSIQ, BID, LIVE Challenge, KonIQ-10k и KADID-10k. Полученная метрика LIQE показывает SOTA везде. Ablation показывает, что сопоставимого качества можно было бы добиться значительным упрощением системы. Код есть.

🔥3👍1

277 viewsSergey Kastryulin, edited 12:44