DATA_SECRETS Telegram 7907
Новый датасет T-ECD для екома

Т выкатили не просто датасет, а крупнейший кросс-доменный набор для развития рексистем

– Основной T-ECD: более 135 млрд взаимодействий, на основе синтезированных данных 44 млн пользователей, 30 млн товаров и 1,2 млн брендов. Сборка данных глубиной от 1 до 3,5 лет — доступны краткосрочные и долгосрочные пользовательские истории

– Домены: Marketplace, Retail, Payments, Offers и Reviews.

– Рекомендательные задачи: подходит для next-item, next-basket, session-based, топ-N и других

– Версии: полный датасет и T-ECD Small на 5 млрд событий, а также облегчённый набор на 1 млрд взаимодействий для быстрых экспериментов.

Почти все доступные датасеты для исследований моно-доменные и маленькие, а Т-ECD первый по-настоящему кросс-доменный датасет такого масштаба. Он универсален — можно использовать как целиком, так и по доменам, а еще подходит для разных подходов: от базовой коллаборативной фильтрации до графовых рекомендаций.

Всё это уже доступно на Hugging Face.

UPD: Марина Ананьева руководитель направления рекомендательных систем в Т-Банке рассказала, как готовятся такие датасеты:

Для каждого синтетического идентификатора пользователя и синтетических ID атеймов генерируется цепочка взаимодействий (покупка, просмотр, клик и тд), похожая на паттерны поведения групп пользователей. В базовом варианте это делается через сэмплирование, подмешивающее шум разных типов - несуществующие взаимодействия, прореживание существующих подпоследовательностей, перестановка местами и др.
При этом задаются несуществующие временные метки, которые могут нарушать и последовательность действий. Названия и категории реальных каталогов товаров и сервисов тоже не используем. Условно, генерим цепочку - что пользователь купил шоколадку, потапал по печенькам, и на какую-то из них активировал кэшбэк в какие-то моменты времени. Т.е. это синтетические цепочки событий, но ценность в сохранении паттернов поведения групп пользователей и их предпочтений
18025🔥23👍98🤯3😁2🤔1



tgoop.com/data_secrets/7907
Create:
Last Update:

Новый датасет T-ECD для екома

Т выкатили не просто датасет, а крупнейший кросс-доменный набор для развития рексистем

– Основной T-ECD: более 135 млрд взаимодействий, на основе синтезированных данных 44 млн пользователей, 30 млн товаров и 1,2 млн брендов. Сборка данных глубиной от 1 до 3,5 лет — доступны краткосрочные и долгосрочные пользовательские истории

– Домены: Marketplace, Retail, Payments, Offers и Reviews.

– Рекомендательные задачи: подходит для next-item, next-basket, session-based, топ-N и других

– Версии: полный датасет и T-ECD Small на 5 млрд событий, а также облегчённый набор на 1 млрд взаимодействий для быстрых экспериментов.

Почти все доступные датасеты для исследований моно-доменные и маленькие, а Т-ECD первый по-настоящему кросс-доменный датасет такого масштаба. Он универсален — можно использовать как целиком, так и по доменам, а еще подходит для разных подходов: от базовой коллаборативной фильтрации до графовых рекомендаций.

Всё это уже доступно на Hugging Face.

UPD: Марина Ананьева руководитель направления рекомендательных систем в Т-Банке рассказала, как готовятся такие датасеты:

Для каждого синтетического идентификатора пользователя и синтетических ID атеймов генерируется цепочка взаимодействий (покупка, просмотр, клик и тд), похожая на паттерны поведения групп пользователей. В базовом варианте это делается через сэмплирование, подмешивающее шум разных типов - несуществующие взаимодействия, прореживание существующих подпоследовательностей, перестановка местами и др.
При этом задаются несуществующие временные метки, которые могут нарушать и последовательность действий. Названия и категории реальных каталогов товаров и сервисов тоже не используем. Условно, генерим цепочку - что пользователь купил шоколадку, потапал по печенькам, и на какую-то из них активировал кэшбэк в какие-то моменты времени. Т.е. это синтетические цепочки событий, но ценность в сохранении паттернов поведения групп пользователей и их предпочтений

BY Data Secrets




Share with your friend now:
tgoop.com/data_secrets/7907

View MORE
Open in Telegram


Telegram News

Date: |

How to Create a Private or Public Channel on Telegram? Telegram has announced a number of measures aiming to tackle the spread of disinformation through its platform in Brazil. These features are part of an agreement between the platform and the country's authorities ahead of the elections in October. So far, more than a dozen different members have contributed to the group, posting voice notes of themselves screaming, yelling, groaning, and wailing in various pitches and rhythms. For crypto enthusiasts, there was the “gm” app, a self-described “meme app” which only allowed users to greet each other with “gm,” or “good morning,” a common acronym thrown around on Crypto Twitter and Discord. But the gm app was shut down back in September after a hacker reportedly gained access to user data. As of Thursday, the SUCK Channel had 34,146 subscribers, with only one message dated August 28, 2020. It was an announcement stating that police had removed all posts on the channel because its content “contravenes the laws of Hong Kong.”
from us


Telegram Data Secrets
FROM American