Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
- Telegram Web
Telegram Web
Как я задизайнил холодный старт в Rutube

Недавно я участвовал в хакатоне Rutube, в котором нужно было задизайнить холодный старт для рутуба. Задачка то актуальная, но как очень быстро сойтись к предпочтениям пользователя о которых мы ничего не знаем?

➡️ Читайте в моем небольшом лонгриде

#RECSYS #MLSYSDES
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Denis Sexy IT 🤖
Media is too big
VIEW IN TELEGRAM
Для истории: успех, добро пожаловать в новую эру исследования космоса!
📱 VK RecSys Challenge

Соревнование от AI VK по предсказанию явного фидбэка (лайков/дизлайков) пользователей VK Клипов.

Метрикой соревнования кстати стало RocAuc 😐

Соревнование длится до 22 декабря, можно участвовать как индивидуально, так и объединяться в команды.

➡️ Участвовать в соревновании
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Рисерчошная
😐 Инструкция для тех кто в Ru регионе

1. Пкм по windows (снизу слева)
2. Windows Power Shell (Администратор)
3. Set-WinSystemLocale -SystemLocale en-US
4. Ребутим систему
5. Заходим по ссылке сверху и скачиваем файл
6. Done!

Просьба тех кто заберет себе в каналы репост или укажите авторство тк я первый кто пофиксил проблему
Please open Telegram to view this post
VIEW IN TELEGRAM
Обзоры статей с RecSys

Не так давно проходил ACM RecSys на котором вышло много интересных статей. Подумал что мне лень писать саммари и при этом порекомендовать вам интересные каналы о которых вы могли не знать!

➡️ Reading club и чатик по рекомендашкам!

➡️ Канал Олега Лашинина, это вообще маст-хев подписка должна быть

➡️ Ребятки из яндекса сделали канал и пишут саммари про статьи

➡️ Ну и канал Кирилла с пропагандой трансформеров

#RECSYS #RESEARCH
Please open Telegram to view this post
VIEW IN TELEGRAM
📱 RU Arena LLM

Если у вас есть желание помочь CIS Research`у, можете воспользоваться LLM Arena.

Вводите свой запрос, выбираете какая модель дала лучший ответ!

Я например вот спросил как избавиться от popular bias и на удивление Qwen была лучше чем 4 turbo 😐

➡️ https://llmarena.ru/
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Мой ТОП-10 проверенных и популярных моделей RecSys.

Для меня модели рекомендаций начинаются с тех, которые можно построить на данных формата (user_id, item_id, timestamp). Если у вас есть такие наборы данных, то с помощью следующих моделей можно составить список персональных рекомендаций для каждого пользователя внутри датасета. Этот список я составил по субъективной популярности и уверенности в том, что модели проверены временем:

1. iALS (2008, 4к+ цитирований) - масштабируемая на большие объемы данных матричная факторизация. Крупные компании в РФ часто упоминают ее как кандидатогенератор, рассказывают про различные трюки с оптимизациями. Скорее всего, про ALS на собеседованиях хотят слышать в первую очередь.
2. EASE (2019, 250+ цитат) - моя любимая модель. Один гиперпараметр, решение в явном виде. Моделька - матрица весов item*item. Топ-1 модель по мнению авторов из Сбера. Мы взяли первое место на Hack the cart, используя только эту модель. Ее минус - большие каталоги айтемов, но на них можно использовать ELSA или SANSA.
3. SLIM (2011, 900+ цитат) - аналог EASE. Матрица весов разреженная, зависимость от гиперпарметров более сильная, их больше. По качеству SLIM похуже EASE. С ней возиться сложнее. Однако, в силу разреженности матрицы весов есть и плюс. Помню, SLIM весил 100 Кб, а EASE около 600 МБ на одинаковых размерах.
4. MultiVAE (2018, 1350+ цитат) - модель от Netflix. Та самая, которая в обзоре are we really... выиграла SLIM и стала единственной нейронкой, которая это сделала. На вход модели идет только вектор интеракций, поэтому ее можно обучить на 1000 юзерах, а инференсить на 100к юзерах без дообучения - это прекрасно!
5. ItemKNN (2001, 13к+ цитат). Про этот алгоритм обычно не говорят на собеседованиях, так как "что-то на старом", а зря. У recsys есть open benchmark BARS, и на датасете Amazon Books ItemKNN занимает второе место среди многих моделей. И ни GCN, ни LightGCN, ни даже UltraGCN его не побеждают.
6. GRU4Rec (2015, 3400+ цитат). В 2019 году я занял 17/264 место в Rekko Challenge от Okko. Тогда я в первый раз обучил нейронку для рекомендаций, и это была GRU4Rec. Ожидния не оправдались, но для старта нормально. Кстати, недавно автор разобрал популярные ошибки в ее имплементации.
7. SASRec (2018, 2400+ цитат). Это трансформер для next-item recommendation. Основа основ для использования трансформеров в мире рекомендаций. Имеет множество расширений (TiSASRec).
8. BERT4Rec (2019, 1900+ цитат). Чуть лучше SASRec, например, по статье Саши Петрова. По опыту, часто нет смысла использовать SASRec и BERT4Rec вместе, лучше выбрать что-то одно.
9. LightGCN (2020, 3300+ цитат) - графовая сверточная сеть. В графе есть только юзеры и айтемы, модель оценивает связи user-item с точки зрения графа и делает рекомендации. На мой взгляд, крайне громоздкая, медленно обучаемая и негибкая модель, куда лучше ее улучшение в виде GFCF.
10. TIFU KNN (2020, 120+ цитат). Если в ваших данных есть повторные действия между юзерами и айтемами (например, покупки в супермаркетах), то, скорее всего, все модели выше проиграют по качеству TIFU KNN. Эта модель играет вокруг персональной частоты покупок пользователя. Если человек купил 100 раз молоко, именно TIFU KNN без проблем порекомендует его 101 раз и не ошибется. Остальные модели могут повторить персональные частоты, но все равно по качеству уступят TIFU KNN.

Мне кажется, если вы хотите ввести модель полноценно в свой инструментарий, надо сделать следующее:

Прочитать оригинальную статью.
Посмотреть ее имплементацию: какие идут данные на вход на трейне и инференсе, как данные идут внутри, что на выходе.
Запустить модель на любом датасете, посмотреть за метриками, возможно, на рекомендации.
Изучить гиперпараметры, посмотреть, как они влияют на модель.
Повторить то же для расширений модели. Например, EASE -> ELSA, Lightgcn - GFCF и т.д..
В идеале, применить на проде в АБ или в рамках соревнования.

Выучив все эти модели и пройдя чек-листы, уже можно уверенно ориентироваться в основных моделях, но на этом recsys не заканчивается, а только начинается)
This media is not supported in your browser
VIEW IN TELEGRAM
LTXV — открытая AI модель для генерации видео

Lightricks представила LTXV — открытую AI-модель для генерации видео в реальном времени.

LTXV оптимизирована для работы на GPU и TPU, что значительно сокращает время рендеринга без потери качества.

Генерация видео по текстовому описанию
🌸 Создание видео на основе изображения и текста
🌻 Работа с видео длительностью до 257 кадров
🔵 Поддержка разрешения до 720x1280

Уникальная методика обучения между кадрами обеспечивает плавные переходы, устраняя мерцание и несоответствия в сценах.

Модель способна создавать длительные видеоролики с высокой степенью согласованности, предоставляя пользователям больше гибкости и контроля.

☺️ Ну что когда там SORA?

➡️ Документация
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from WB Space
Как TF-IDF обошел SOTA-модель BERT4Rec в персональных рекомендациях

Может ли TF-IDF после тюнига стать основой «поисковика» релевантных товаров и побить BERT4Rec в ретро-тесте рекомендательной системы?

Рассказал Коновалов Андрей, Data Scientist персональных рекомендаций Wildberries, в статье на Хабре.

Больше о рекомендациях Wildberries:
🌟 @wildrecsys
🌟 @wb_space
📹 @wb_tech
Please open Telegram to view this post
VIEW IN TELEGRAM
🗳 Голосование
Final Results
69%
1️⃣ EASE
31%
2️⃣ Break the ID-Language Barrier
Новый формат ридинг-клуба по рекомендательным системам

Похоже, что ридинг-клуб в чате ODS Recommender Systems временно остановил свою деятельность. Предлагаю не скучать и попробовать провести обсуждение статей в другом формате.

1️⃣ Embarrassingly Shallow Autoencoders for Sparse Data
Как простые линейные автоэнкодеры могут обгонять сложные модели на разреженных данных.
arxiv.org/abs/1905.03375

2️⃣ Break the ID-Language Barrier
Фреймворк для адаптации ID-based и language-based представлений в LLM для SeqRec.
arxiv.org/abs/2411.18262


Какую статью обсудим первой? Голосуйте в комментариях!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Выбираем статью на след неделю

1️⃣ KuaiFormer — реалтайм трансформер от аналога тикток, который учитывает мультиинтересы пользователей и в целом кучу прикольных продовых фич
arxiv.org/abs/2411.10057

2️⃣ PinnerFormer — трансформер от pinterest, нацеленный на персонализацию и долгосрочные рекомендации
arxiv.org/pdf/2205.04507

В комментариях можно предложить свои статьи!
Please open Telegram to view this post
VIEW IN TELEGRAM
Тиктоки или пины?
Final Results
49%
1️⃣ Kuaiformer
51%
2️⃣ Pinnerformer
Итоги года

Всё подводят итоги года на канале, и я подумал почему бы не подвести свои. За этот год случилось достаточно много изменений, реализовалось много планов!

Меньше чем за год нас стало более 1.6K подписчиков.

Мы стали каналом про рисерч и рекомендашки.

Вдохновили других людей создать свои телеграм блоги.

Я сменил работу, и дорос до сеньора.

Познакомился с крутыми ребятами в рекомендашках, которые создали во мне зону роста.

Написали классную статью, расскажу как будет возможность!

Для вас помог сделать в Simulator DS пару задачек по рекомендашкам. (Кину небольшой анонс в комменты)

Спасибо, что вы со мной, и до встречи в следующем году!
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/01/05 15:54:34
Back to Top
HTML Embed Code: