tgoop.com/knowledge_accumulator/63
Last Update:
Самая частая проблема статей про RL в рекомендациях
Сегодня мы начинаем обещанный мной разговор с проблемы тестирования на метриках из Supervised learning. Это самая частая и самая фатальная ошибка, которая сигнализирует о глобальном непонимании RL и того, зачем он нужен. Мета-обзоры (из одного из них картинка) показывают, что более половины статей содержат эту проблему.
RL - это про долгосрочное взаимодействие со средой, и в данном случае средой является пользователь, агентом является система рекомендаций, наградой является какая-то оптимизируемая метрика, предоставляемая бизнесом.
Reinforcement learning подразумевает влияние действий на траекторию агента в среде, на саму генерацию данных, и при отсутствии этого влияния RL превращается в Supervised learning.
Нет никакого смысла сравнивать по метрике типа NDCG вашу RL-модель с моделью, учащейся просто на клик. RL-модель по определению должна приносить в жертву мгновенную награду, максимизируя суммарную награду. И если она обгоняет ваш baseline по метрике NDCG, это говорит только о качестве вашего baseline. Долгосрочное же влияние модели на датасетах проверить в принципе невозможно.
Если вы сделали новомодный DQN с 30 хаками, сравнили его с моделью, которая сортирует документы по популярности и получили прирост по NDCG, то, надеюсь, вам за это стыдно...
Вот вам смешно, а я такое периодически читаю.
@knowledge_accumulator
BY Knowledge Accumulator

Share with your friend now:
tgoop.com/knowledge_accumulator/63