Y_BORZILO Telegram 897
👨🏻‍💻 Ошибки при оценке SRM

Я уже написал несколько постов про SRM, поэтому подробно рассказывать про это не буду. Сегодня поговорим про 2 ошибки при проверке выборок на дисбаланс.

Когда мы задали конфиг деления наблюдений в АБ тесте 50/50, то ожидаем, что получим близкое деление к запланированному. Проверить корректность деления можно при помощи стат. критерия хи2.

С одной стороны все просто, с другой как всегда есть нюансы. Сегодня поговорим про 2 ошибки, которые можно допустить при оценке SRM.

🛑 Выбор единицы анализа, вместо единицы рандомизации для оценки SRM
Зачастую сплитование происходит по пользователям, а для анализа результатов АБ теста иногда используют метрики посчитанные по сессиям.

Некоторые не задумываясь о различии пользователей и сессий, могут взять сессии для оценки SRM, но это не верно, т.к. сплитование происходило по пользователям, а сессия это некоторая производная от пользователя.

Различия в тестируемых вариантах может влиять на число сессий, которое сгенерирует пользователь в каждом из вариантов экспа, а значит такая сущность как сессия не подойдет для оценки SRM. Есть пример в этом посте

🛑 Оценка SRM по пользователям по дням
Берем каждый день всех пользователей попавших в эксперимент и оцениваем SRM. Тут хотя мы и берем в качестве анализа пользователя, но один и тот же пользователь мог возвращаться в разные дни, а возвращаемость это опять таки производная от пользователя.

На нее может воздействовать само экспериментальное изменение, т.е. даже при корректном сплите вы можете получить разную возвращаемость в группах.

Вы будете видеть дисбаланс при таком методе подсчета. Кроме этого важно помнить, что хи2 как и любой стат критерий имеет ошибку первого рода и чем больше сравнений вы сделаете тем больше вероятность допустить ошибку первого рода и найти дисбаланс там где его нет.


Как проверять SRM?
1. Для оценки SRM нам важно брать в качестве наблюдений именно единицу рандомизации, т.е. если ваша сплит система делит по пользователям, то нам нужны id пользователей.

2. Учитывать каждое наблюдение (пользователя) нужно только 1 раз в выборке, независимо от того сколько раз он вернулся в продукт.

3. Производить подсчет SRM для АБ теста тоже желательно только 1 раз, чтобы держать ошибку первого рода в рамках альфы, либо применить какую-то поправку для корректировки альфы.
Please open Telegram to view this post
VIEW IN TELEGRAM



tgoop.com/y_borzilo/897
Create:
Last Update:

👨🏻‍💻 Ошибки при оценке SRM

Я уже написал несколько постов про SRM, поэтому подробно рассказывать про это не буду. Сегодня поговорим про 2 ошибки при проверке выборок на дисбаланс.

Когда мы задали конфиг деления наблюдений в АБ тесте 50/50, то ожидаем, что получим близкое деление к запланированному. Проверить корректность деления можно при помощи стат. критерия хи2.

С одной стороны все просто, с другой как всегда есть нюансы. Сегодня поговорим про 2 ошибки, которые можно допустить при оценке SRM.

🛑 Выбор единицы анализа, вместо единицы рандомизации для оценки SRM
Зачастую сплитование происходит по пользователям, а для анализа результатов АБ теста иногда используют метрики посчитанные по сессиям.

Некоторые не задумываясь о различии пользователей и сессий, могут взять сессии для оценки SRM, но это не верно, т.к. сплитование происходило по пользователям, а сессия это некоторая производная от пользователя.

Различия в тестируемых вариантах может влиять на число сессий, которое сгенерирует пользователь в каждом из вариантов экспа, а значит такая сущность как сессия не подойдет для оценки SRM. Есть пример в этом посте

🛑 Оценка SRM по пользователям по дням
Берем каждый день всех пользователей попавших в эксперимент и оцениваем SRM. Тут хотя мы и берем в качестве анализа пользователя, но один и тот же пользователь мог возвращаться в разные дни, а возвращаемость это опять таки производная от пользователя.

На нее может воздействовать само экспериментальное изменение, т.е. даже при корректном сплите вы можете получить разную возвращаемость в группах.

Вы будете видеть дисбаланс при таком методе подсчета. Кроме этого важно помнить, что хи2 как и любой стат критерий имеет ошибку первого рода и чем больше сравнений вы сделаете тем больше вероятность допустить ошибку первого рода и найти дисбаланс там где его нет.


Как проверять SRM?
1. Для оценки SRM нам важно брать в качестве наблюдений именно единицу рандомизации, т.е. если ваша сплит система делит по пользователям, то нам нужны id пользователей.

2. Учитывать каждое наблюдение (пользователя) нужно только 1 раз в выборке, независимо от того сколько раз он вернулся в продукт.

3. Производить подсчет SRM для АБ теста тоже желательно только 1 раз, чтобы держать ошибку первого рода в рамках альфы, либо применить какую-то поправку для корректировки альфы.

BY Борзило


Share with your friend now:
tgoop.com/y_borzilo/897

View MORE
Open in Telegram


Telegram News

Date: |

Today, we will address Telegram channels and how to use them for maximum benefit. Members can post their voice notes of themselves screaming. Interestingly, the group doesn’t allow to post anything else which might lead to an instant ban. As of now, there are more than 330 members in the group. A few years ago, you had to use a special bot to run a poll on Telegram. Now you can easily do that yourself in two clicks. Hit the Menu icon and select “Create Poll.” Write your question and add up to 10 options. Running polls is a powerful strategy for getting feedback from your audience. If you’re considering the possibility of modifying your channel in any way, be sure to ask your subscribers’ opinions first. Co-founder of NFT renting protocol Rentable World emiliano.eth shared the group Tuesday morning on Twitter, calling out the "degenerate" community, or crypto obsessives that engage in high-risk trading. More>>
from us


Telegram Борзило
FROM American