HSE_CS_OPENSOURCE Telegram 59
understanding-largre-lrs

Репозиторий содержит код для обучения различных моделей компьютерного зрения в режиме предобучения с увеличенным learning rate (LR). Авторы работы исследуют влияние такого предобучения на финальное качество модели. Исследователи приходят к выводу, что предварительное обучение с умеренно большими LR, немного выше порога сходимости, позволяет получать наилучшие чекпоинты для последующего файнтюна или усреднения веса. С точки зрения геометрии обучение с этими значениями LR находит бассейн хорошо обобщающих решений в ландшафте функции потерь; с точки зрения обучения признаков эти решения соответствуют разреженному набору изученных признаков, которые наиболее полезны для задачи. Использование других значений LR может привести к неоптимальным результатам: либо нестабильным локальным минимумам, соответствующим плотному набору изученных признаков с меньшими LR, либо обширным областям с разнообразными минимумами и ухудшенным обучением признаков с большими LR. Код может быть полезен DL-исследователям, DS-специалистам и аналитикам данных.

статья | код



tgoop.com/hse_cs_opensource/59
Create:
Last Update:

understanding-largre-lrs

Репозиторий содержит код для обучения различных моделей компьютерного зрения в режиме предобучения с увеличенным learning rate (LR). Авторы работы исследуют влияние такого предобучения на финальное качество модели. Исследователи приходят к выводу, что предварительное обучение с умеренно большими LR, немного выше порога сходимости, позволяет получать наилучшие чекпоинты для последующего файнтюна или усреднения веса. С точки зрения геометрии обучение с этими значениями LR находит бассейн хорошо обобщающих решений в ландшафте функции потерь; с точки зрения обучения признаков эти решения соответствуют разреженному набору изученных признаков, которые наиболее полезны для задачи. Использование других значений LR может привести к неоптимальным результатам: либо нестабильным локальным минимумам, соответствующим плотному набору изученных признаков с меньшими LR, либо обширным областям с разнообразными минимумами и ухудшенным обучением признаков с большими LR. Код может быть полезен DL-исследователям, DS-специалистам и аналитикам данных.

статья | код

BY Открытый код ФКН ВШЭ




Share with your friend now:
tgoop.com/hse_cs_opensource/59

View MORE
Open in Telegram


Telegram News

Date: |

Telegram channels enable users to broadcast messages to multiple users simultaneously. Like on social media, users need to subscribe to your channel to get access to your content published by one or more administrators. Judge Hui described Ng as inciting others to “commit a massacre” with three posts teaching people to make “toxic chlorine gas bombs,” target police stations, police quarters and the city’s metro stations. This offence was “rather serious,” the court said. On June 7, Perekopsky met with Brazilian President Jair Bolsonaro, an avid user of the platform. According to the firm's VP, the main subject of the meeting was "freedom of expression." The Standard Channel Write your hashtags in the language of your target audience.
from us


Telegram Открытый код ФКН ВШЭ
FROM American