NLPWANDERER Telegram 123
RL с ллмами притянули к рекомендашкам. Тюнили Qwen 2.5 3B.

Оптимизировались на двух задачах:

Задача поиска товаров (Product Search). Пользователь пишет запрос, LLM запрос переписывает или уточняет, после чего система на основе переработанного запроса (например, через BM25) возвращает список кандидатов.

Задача последовательных рекомендаций (Sequential Recommendation). Здесь нужно предсказать следующий товар на основе истории взаимодействий пользователя (типа предыдущие покупки или что он просматривал). LLM генерирует текстовое описание, которое который пользователь скорее всего купит следующим (тут могут быть ключевые характеристики товара, тип продукта и тд).

ревард для RLя получали по метрикам от рекомендательных систем - NDCG@K, Recall@K (например тут можно подробнее про них узнать)

С RLем сильно улучшили метрички, 1 и 2 скрин.
Сравнили RL и с SFT тюнингом (данные генерили с GPT 4o конкретно под рекомендашки) и потом померили на обычных бенчах производительность.
Результы на 3 скрине. Кое-где после SFT просели результаты, с RLем вроде поровнее получилось.

Ну и у RLя результаты вроде получше получились чем у SFT на небольших тестах (4 скрин по порядку, a). И SFT на сгенерированных GPT 4о данных не превосходит просто GPT 4o на задаче. (авторы даже теоремку доказывают, что политика обученная на SFT не может быть лучше политики которой сгенерили данные. т.е. не будет в данном случае лучше 4o)
На скрине 4 b сравнивают цену и время на RL для того чтобы получить ту же производительность что у генерации данных на SFT + трен.
Ну как-то быстро конечно.

Подробнее читаем тут

Rec-R1: Bridging Generative Large Language Models and User-Centric Recommendation Systems via Reinforcement Learning
https://arxiv.org/abs/2503.24289

Код тута:
https://github.com/linjc16/Rec-R1

PS все крутые статьи собираем и делаем проектики в https://www.tgoop.com/researchim
👍8🐳2👨‍💻1



tgoop.com/nlpwanderer/123
Create:
Last Update:

RL с ллмами притянули к рекомендашкам. Тюнили Qwen 2.5 3B.

Оптимизировались на двух задачах:

Задача поиска товаров (Product Search). Пользователь пишет запрос, LLM запрос переписывает или уточняет, после чего система на основе переработанного запроса (например, через BM25) возвращает список кандидатов.

Задача последовательных рекомендаций (Sequential Recommendation). Здесь нужно предсказать следующий товар на основе истории взаимодействий пользователя (типа предыдущие покупки или что он просматривал). LLM генерирует текстовое описание, которое который пользователь скорее всего купит следующим (тут могут быть ключевые характеристики товара, тип продукта и тд).

ревард для RLя получали по метрикам от рекомендательных систем - NDCG@K, Recall@K (например тут можно подробнее про них узнать)

С RLем сильно улучшили метрички, 1 и 2 скрин.
Сравнили RL и с SFT тюнингом (данные генерили с GPT 4o конкретно под рекомендашки) и потом померили на обычных бенчах производительность.
Результы на 3 скрине. Кое-где после SFT просели результаты, с RLем вроде поровнее получилось.

Ну и у RLя результаты вроде получше получились чем у SFT на небольших тестах (4 скрин по порядку, a). И SFT на сгенерированных GPT 4о данных не превосходит просто GPT 4o на задаче. (авторы даже теоремку доказывают, что политика обученная на SFT не может быть лучше политики которой сгенерили данные. т.е. не будет в данном случае лучше 4o)
На скрине 4 b сравнивают цену и время на RL для того чтобы получить ту же производительность что у генерации данных на SFT + трен.
Ну как-то быстро конечно.

Подробнее читаем тут

Rec-R1: Bridging Generative Large Language Models and User-Centric Recommendation Systems via Reinforcement Learning
https://arxiv.org/abs/2503.24289

Код тута:
https://github.com/linjc16/Rec-R1

PS все крутые статьи собираем и делаем проектики в https://www.tgoop.com/researchim

BY NLP Wanderer







Share with your friend now:
tgoop.com/nlpwanderer/123

View MORE
Open in Telegram


Telegram News

Date: |

2How to set up a Telegram channel? (A step-by-step tutorial) A Telegram channel is used for various purposes, from sharing helpful content to implementing a business strategy. In addition, you can use your channel to build and improve your company image, boost your sales, make profits, enhance customer loyalty, and more. Among the requests, the Brazilian electoral Court wanted to know if they could obtain data on the origins of malicious content posted on the platform. According to the TSE, this would enable the authorities to track false content and identify the user responsible for publishing it in the first place. Matt Hussey, editorial director of NEAR Protocol (and former editor-in-chief of Decrypt) responded to the news of the Telegram group with “#meIRL.” Choose quality over quantity. Remember that one high-quality post is better than five short publications of questionable value.
from us


Telegram NLP Wanderer
FROM American