KNOWLEDGE_ACCUMULATOR Telegram 63
Самая частая проблема статей про RL в рекомендациях

С
егодня мы начинаем обещанный мной разговор с проблемы тестирования на метриках из Supervised learning. Это самая частая и самая фатальная ошибка, которая сигнализирует о глобальном непонимании RL и того, зачем он нужен. Мета-обзоры (из одного из них картинка) показывают, что более половины статей содержат эту проблему.

RL - это про долгосрочное взаимодействие со средой, и в данном случае средой является пользователь, агентом является система рекомендаций, наградой является какая-то оптимизируемая метрика, предоставляемая бизнесом.

Reinforcement learning подразумевает влияние действий на траекторию агента в среде, на саму генерацию данных, и при отсутствии этого влияния RL превращается в Supervised learning.

Нет никакого смысла сравнивать по метрике типа NDCG вашу RL-модель с моделью, учащейся просто на клик. RL-модель по определению должна приносить в жертву мгновенную награду, максимизируя суммарную награду. И если она обгоняет ваш baseline по метрике NDCG, это говорит только о качестве вашего baseline. Долгосрочное же влияние модели на датасетах проверить в принципе невозможно.

Если вы сделали новомодный DQN с 30 хаками, сравнили его с моделью, которая сортирует документы по популярности и получили прирост по NDCG, то, надеюсь, вам за это стыдно...
Вот вам смешно, а я такое периодически читаю.

@knowledge_accumulator



tgoop.com/knowledge_accumulator/63
Create:
Last Update:

Самая частая проблема статей про RL в рекомендациях

С
егодня мы начинаем обещанный мной разговор с проблемы тестирования на метриках из Supervised learning. Это самая частая и самая фатальная ошибка, которая сигнализирует о глобальном непонимании RL и того, зачем он нужен. Мета-обзоры (из одного из них картинка) показывают, что более половины статей содержат эту проблему.

RL - это про долгосрочное взаимодействие со средой, и в данном случае средой является пользователь, агентом является система рекомендаций, наградой является какая-то оптимизируемая метрика, предоставляемая бизнесом.

Reinforcement learning подразумевает влияние действий на траекторию агента в среде, на саму генерацию данных, и при отсутствии этого влияния RL превращается в Supervised learning.

Нет никакого смысла сравнивать по метрике типа NDCG вашу RL-модель с моделью, учащейся просто на клик. RL-модель по определению должна приносить в жертву мгновенную награду, максимизируя суммарную награду. И если она обгоняет ваш baseline по метрике NDCG, это говорит только о качестве вашего baseline. Долгосрочное же влияние модели на датасетах проверить в принципе невозможно.

Если вы сделали новомодный DQN с 30 хаками, сравнили его с моделью, которая сортирует документы по популярности и получили прирост по NDCG, то, надеюсь, вам за это стыдно...
Вот вам смешно, а я такое периодически читаю.

@knowledge_accumulator

BY Knowledge Accumulator




Share with your friend now:
tgoop.com/knowledge_accumulator/63

View MORE
Open in Telegram


Telegram News

Date: |

Judge Hui described Ng as inciting others to “commit a massacre” with three posts teaching people to make “toxic chlorine gas bombs,” target police stations, police quarters and the city’s metro stations. This offence was “rather serious,” the court said. On Tuesday, some local media outlets included Sing Tao Daily cited sources as saying the Hong Kong government was considering restricting access to Telegram. Privacy Commissioner for Personal Data Ada Chung told to the Legislative Council on Monday that government officials, police and lawmakers remain the targets of “doxxing” despite a privacy law amendment last year that criminalised the malicious disclosure of personal information. Informative Telegram desktop app: In the upper left corner, click the Menu icon (the one with three lines). Select “New Channel” from the drop-down menu. Telegram message that reads: "Bear Market Screaming Therapy Group. You are only allowed to send screaming voice notes. Everything else = BAN. Text pics, videos, stickers, gif = BAN. Anything other than screaming = BAN. You think you are smart = BAN.
from us


Telegram Knowledge Accumulator
FROM American