Открытый код ФКН ВШЭ@hse_cs

Открытый код ФКН ВШЭ

understanding-largre-lrs

Репозиторий содержит код для обучения различных моделей компьютерного зрения в режиме предобучения с увеличенным learning rate (LR). Авторы работы исследуют влияние такого предобучения на финальное качество модели. Исследователи приходят к выводу, что предварительное обучение с умеренно большими LR, немного выше порога сходимости, позволяет получать наилучшие чекпоинты для последующего файнтюна или усреднения веса. С точки зрения геометрии обучение с этими значениями LR находит бассейн хорошо обобщающих решений в ландшафте функции потерь; с точки зрения обучения признаков эти решения соответствуют разреженному набору изученных признаков, которые наиболее полезны для задачи. Использование других значений LR может привести к неоптимальным результатам: либо нестабильным локальным минимумам, соответствующим плотному набору изученных признаков с меньшими LR, либо обширным областям с разнообразными минимумами и ухудшенным обучением признаков с большими LR. Код может быть полезен DL-исследователям, DS-специалистам и аналитикам данных.

статья | код

GitHub

GitHub - isadrtdinov/understanding-large-lrs: Source code for NeurIPS-2024 paper "Where Do Large Learning Rates Lead Us"

Source code for NeurIPS-2024 paper "Where Do Large Learning Rates Lead Us" - isadrtdinov/understanding-large-lrs

www.tgoop.com/hse_cs_opensource/59

944 viewsNov 29, 2024 at 09:40

tgoop.com/hse_cs_opensource/59

Create: 2024-11-29
Last Update: 2025-07-08 09:20:12

BY Открытый код ФКН ВШЭ

Share with your friend now:
tgoop.com/hse_cs_opensource/59

Telegram News

understanding-largre-lrs