Concise Research

Improving Multimodal Datasets with Image Captioning

С появлением больших открытых датасетов для обучения мультимодальных моделей, встал вопрос о влиянии качества этих данных на результат работы моделей. DataComp предлагает фиксировать DL части и экспериментировать с методами фильтрации данных. В результате удаётся уверенно побить SOTA результаты, уменьшив вычислительную сложность.

Фильтрация подразумевает удаление данных, не прошедших по некоторому порогу. Так, предложенный в DataComp baseline удаляет от 60% до 90% всех данных. Побочным эффектом является уменьшение вариативности, что плохо сказывается на обобщаемости.

Авторы говорят: давайте не выкидывать данные, не прошедшие в обучающую выборку по качеству текстов или текстово-картиночной релевантности, потому что картинки могут быть ок. Предлагается заменять “плохие” тексты синтетическими и следить за тем как это влияет на качество в downstream задачах: куче бенчмарков из DataComp, включая zero-shot классификацию и retrieval.

В статье системно разбираются основные вопросы, связанные с моделями и данными:
— Какую модель генерации синтетики брать? Оказывается, что брать наиболее сильную по CIDEr score (стандартная метрика качества image captioning) не всегда оптимально. Обычный CLIP score лучше коррелирует с итоговым качеством
— Как лучше сочетать органику и синтетику? Оптимальная доля синтетики для среднего датасета (128М пар) находится в районе 70%. Прямого анализа зависимости доли от количества данных я не нашел, но в саплементах есть косвенный анализ, показывающий, что вариативность синтетики может накладывать ограничение на оптимальную долю в больших датасетах
— Почему синтетика полезна, но не идеальна? В ней меньше шума и она более “визуальна” (см. text visualness), но менее разнообразна

Важно, что все эти выводы сделаны по довольно ограниченному набору моделей (BLIP, BLIP-2, OpenCLIP-CoCa). Также очень не хватает анализа оптимальной доли синтетики в зависимости от размера датасета. Кода нет.

👍4

586 viewsSergey Kastryulin, edited 11:14