HSE_CS_OPENSOURCE Telegram 59
understanding-largre-lrs

Репозиторий содержит код для обучения различных моделей компьютерного зрения в режиме предобучения с увеличенным learning rate (LR). Авторы работы исследуют влияние такого предобучения на финальное качество модели. Исследователи приходят к выводу, что предварительное обучение с умеренно большими LR, немного выше порога сходимости, позволяет получать наилучшие чекпоинты для последующего файнтюна или усреднения веса. С точки зрения геометрии обучение с этими значениями LR находит бассейн хорошо обобщающих решений в ландшафте функции потерь; с точки зрения обучения признаков эти решения соответствуют разреженному набору изученных признаков, которые наиболее полезны для задачи. Использование других значений LR может привести к неоптимальным результатам: либо нестабильным локальным минимумам, соответствующим плотному набору изученных признаков с меньшими LR, либо обширным областям с разнообразными минимумами и ухудшенным обучением признаков с большими LR. Код может быть полезен DL-исследователям, DS-специалистам и аналитикам данных.

статья | код



tgoop.com/hse_cs_opensource/59
Create:
Last Update:

understanding-largre-lrs

Репозиторий содержит код для обучения различных моделей компьютерного зрения в режиме предобучения с увеличенным learning rate (LR). Авторы работы исследуют влияние такого предобучения на финальное качество модели. Исследователи приходят к выводу, что предварительное обучение с умеренно большими LR, немного выше порога сходимости, позволяет получать наилучшие чекпоинты для последующего файнтюна или усреднения веса. С точки зрения геометрии обучение с этими значениями LR находит бассейн хорошо обобщающих решений в ландшафте функции потерь; с точки зрения обучения признаков эти решения соответствуют разреженному набору изученных признаков, которые наиболее полезны для задачи. Использование других значений LR может привести к неоптимальным результатам: либо нестабильным локальным минимумам, соответствующим плотному набору изученных признаков с меньшими LR, либо обширным областям с разнообразными минимумами и ухудшенным обучением признаков с большими LR. Код может быть полезен DL-исследователям, DS-специалистам и аналитикам данных.

статья | код

BY Открытый код ФКН ВШЭ




Share with your friend now:
tgoop.com/hse_cs_opensource/59

View MORE
Open in Telegram


Telegram News

Date: |

Your posting frequency depends on the topic of your channel. If you have a news channel, it’s OK to publish new content every day (or even every hour). For other industries, stick with 2-3 large posts a week. Judge Hui described Ng as inciting others to “commit a massacre” with three posts teaching people to make “toxic chlorine gas bombs,” target police stations, police quarters and the city’s metro stations. This offence was “rather serious,” the court said. Unlimited number of subscribers per channel Those being doxxed include outgoing Chief Executive Carrie Lam Cheng Yuet-ngor, Chung and police assistant commissioner Joe Chan Tung, who heads police's cyber security and technology crime bureau. Private channels are only accessible to subscribers and don’t appear in public searches. To join a private channel, you need to receive a link from the owner (administrator). A private channel is an excellent solution for companies and teams. You can also use this type of channel to write down personal notes, reflections, etc. By the way, you can make your private channel public at any moment.
from us


Telegram Открытый код ФКН ВШЭ
FROM American