KNOWLEDGE_ACCUMULATOR Telegram 64
Печальная правда исследований RL в рекомендациях

Одна из самых частых фраз, которые я вижу в статьях на эту тему, звучит примерно так:
"To perform evaluation of RL methods, a straightforward way is to evaluate the learned policy through online A/B test, which, however, could be prohibitively expensive and may hurt user experiences".

Это справедливое замечание, но часто здесь прибегают к неверному решению проблемы - к тестированию на обученном "симуляторе" пользователя. Это абсолютно ложный путь.

Качество работы классических рекомендательных моделей, предсказывающих отклик пользователя на документ, говорит о том, насколько огромен шум в динамике пользовательского поведения. На него влияет огромное количество непредсказуемых и ненаблюдаемых факторов, и надеяться на то, что мы можем успешно симулировать длительную пользовательскую траекторию, весьма наивно.

Да, может быть, для какой-то отладки и быстрой проверки симулятор не помешает (а сделать его это уже боль), но в огромном количестве статей проверка на симуляторе является окончательной проверкой метода, и это полная печаль.

Я понимаю, что не у всех есть настоящий сервис с пользователями. Но печальная правда состоит в том, что если вы не можете протестировать рекомендательный RL-метод в реальной среде, то вам нужно рассмотреть вопрос смены темы исследования 😄

А что делать, если у вас всё-таки есть сервис, но вы боитесь выкатить в прод плохую модель?
1) Тестируйте на маленькой выборке
2) Тестируйте ансамбль вашей модели и текущего продакшна, постепенно увеличивая вес новой модели

Картинка из того же мета-обзора.

@knowledge_accumulator



tgoop.com/knowledge_accumulator/64
Create:
Last Update:

Печальная правда исследований RL в рекомендациях

Одна из самых частых фраз, которые я вижу в статьях на эту тему, звучит примерно так:
"To perform evaluation of RL methods, a straightforward way is to evaluate the learned policy through online A/B test, which, however, could be prohibitively expensive and may hurt user experiences".

Это справедливое замечание, но часто здесь прибегают к неверному решению проблемы - к тестированию на обученном "симуляторе" пользователя. Это абсолютно ложный путь.

Качество работы классических рекомендательных моделей, предсказывающих отклик пользователя на документ, говорит о том, насколько огромен шум в динамике пользовательского поведения. На него влияет огромное количество непредсказуемых и ненаблюдаемых факторов, и надеяться на то, что мы можем успешно симулировать длительную пользовательскую траекторию, весьма наивно.

Да, может быть, для какой-то отладки и быстрой проверки симулятор не помешает (а сделать его это уже боль), но в огромном количестве статей проверка на симуляторе является окончательной проверкой метода, и это полная печаль.

Я понимаю, что не у всех есть настоящий сервис с пользователями. Но печальная правда состоит в том, что если вы не можете протестировать рекомендательный RL-метод в реальной среде, то вам нужно рассмотреть вопрос смены темы исследования 😄

А что делать, если у вас всё-таки есть сервис, но вы боитесь выкатить в прод плохую модель?
1) Тестируйте на маленькой выборке
2) Тестируйте ансамбль вашей модели и текущего продакшна, постепенно увеличивая вес новой модели

Картинка из того же мета-обзора.

@knowledge_accumulator

BY Knowledge Accumulator




Share with your friend now:
tgoop.com/knowledge_accumulator/64

View MORE
Open in Telegram


Telegram News

Date: |

For crypto enthusiasts, there was the “gm” app, a self-described “meme app” which only allowed users to greet each other with “gm,” or “good morning,” a common acronym thrown around on Crypto Twitter and Discord. But the gm app was shut down back in September after a hacker reportedly gained access to user data. During the meeting with TSE Minister Edson Fachin, Perekopsky also mentioned the TSE channel on the platform as one of the firm's key success stories. Launched as part of the company's commitments to tackle the spread of fake news in Brazil, the verified channel has attracted more than 184,000 members in less than a month. Image: Telegram. Earlier, crypto enthusiasts had created a self-described “meme app” dubbed “gm” app wherein users would greet each other with “gm” or “good morning” messages. However, in September 2021, the gm app was down after a hacker reportedly gained access to the user data. As of Thursday, the SUCK Channel had 34,146 subscribers, with only one message dated August 28, 2020. It was an announcement stating that police had removed all posts on the channel because its content “contravenes the laws of Hong Kong.”
from us


Telegram Knowledge Accumulator
FROM American