DS_INTERVIEW_LIB Telegram 1135
👇 Как размер batch влияет на выбор стратегии изменения learning rate

Размер batch напрямую связан с настройкой базового learning rate (LR) и расписания.

Большой batch:
— Позволяет использовать больший стабильный LR.
— Часто требует warmup-фазы: постепенного увеличения LR от малого значения до целевого.
— Конвергенция может быть чувствительна: даже небольшой перекос в LR ведёт к дивергенции или плохому локальному минимуму.

Малый batch:
— Даёт шумные оценки градиентов, поэтому нужен меньший базовый LR.
— Лучше работают более консервативные decay-расписания или адаптивные/циклические методы, которые сглаживают шум.

⚠️ Подводный камень:
Если сильно увеличить batch, но оставить старое расписание LR, обучение может «взорваться» (слишком большой эффективный шаг) или наоборот — застопориться, если расписание оказалось слишком осторожным.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2



tgoop.com/ds_interview_lib/1135
Create:
Last Update:

👇 Как размер batch влияет на выбор стратегии изменения learning rate

Размер batch напрямую связан с настройкой базового learning rate (LR) и расписания.

Большой batch:
— Позволяет использовать больший стабильный LR.
— Часто требует warmup-фазы: постепенного увеличения LR от малого значения до целевого.
— Конвергенция может быть чувствительна: даже небольшой перекос в LR ведёт к дивергенции или плохому локальному минимуму.

Малый batch:
— Даёт шумные оценки градиентов, поэтому нужен меньший базовый LR.
— Лучше работают более консервативные decay-расписания или адаптивные/циклические методы, которые сглаживают шум.

⚠️ Подводный камень:
Если сильно увеличить batch, но оставить старое расписание LR, обучение может «взорваться» (слишком большой эффективный шаг) или наоборот — застопориться, если расписание оказалось слишком осторожным.

🐸 Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Share with your friend now:
tgoop.com/ds_interview_lib/1135

View MORE
Open in Telegram


Telegram News

Date: |

Your posting frequency depends on the topic of your channel. If you have a news channel, it’s OK to publish new content every day (or even every hour). For other industries, stick with 2-3 large posts a week. Members can post their voice notes of themselves screaming. Interestingly, the group doesn’t allow to post anything else which might lead to an instant ban. As of now, there are more than 330 members in the group. In handing down the sentence yesterday, deputy judge Peter Hui Shiu-keung of the district court said that even if Ng did not post the messages, he cannot shirk responsibility as the owner and administrator of such a big group for allowing these messages that incite illegal behaviors to exist. 4How to customize a Telegram channel? Image: Telegram.
from us


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM American