Concise Research

An Inverse Scaling Law for CLIP Training

CLIP и Open-CLIP — foundation модели, послужившие причиной прорывов во многих областях, в том числе text-to-image генерации. Однако, для их обучения требуются не малые вычислительные ресурсы. Сравнительно небольшой OpenCLIP-B/16 обучали ~10k GPU часов на А100 для получения скромных 67.1% zero-shot на ImageNet1k.

Авторы статьи задались вопросами вычислительной оптимальности текущих пайплайнов обучения и предложили:
— Набор трюков для ускорения обучения моделей текстовой релевантности;
— Результаты scaling laws экспериментов, показывающие как соблюдать балланс между длинами последовательностей и ёмкостью моделей.

Про трюки:
— Для картинок используются комбинации ранее известных механизмов маскирование токенов (кропов): Random, Grid, Block + ресайзинг бикубик интерполяцией с антиалиасингом;
— Для текстов используется truncation (берем первые N токенов, остальное выкидываем), random masking, block masking (выкидываем случайные блоки токенов) и syntax masking (с наименьшей вероятностью убираем существительные).

Про scaling laws:
Перебирали оси: размер модели (S/16, B/16, L/16), длины последовательностей токенов и компьют. Главным неочевидным наблюдением является то чем бОльшие картиночные/текстовые энкодеры используются, тем менее они чувствительны к уменьшению длины используемой последовательности токенов. По этой причине авторы называют полученный закон Inverse.

Все замеры делаются на прокси задачах, в основном zero-shot классификация и retrieval. Правильно подобрав соотношение длины последовательности, размера модели и трюков с подготовкой данных, удается сократить итоговое количество затраченных на обучение GPU часов во много раз. Так, удается обучить L/16 до 69.3% на ImageNet1k за 4 дня на одной машине с 8хА100.

Помимо результатов авторы делятся своим фреймворком для эффективного обучения.

🔥1

404 viewsSergey Kastryulin, 10:39