tgoop.com/y_borzilo/897
Last Update:
👨🏻💻 Ошибки при оценке SRM
Я уже написал несколько постов про SRM, поэтому подробно рассказывать про это не буду. Сегодня поговорим про 2 ошибки при проверке выборок на дисбаланс.
Когда мы задали конфиг деления наблюдений в АБ тесте 50/50, то ожидаем, что получим близкое деление к запланированному. Проверить корректность деления можно при помощи стат. критерия хи2.
С одной стороны все просто, с другой как всегда есть нюансы. Сегодня поговорим про 2 ошибки, которые можно допустить при оценке SRM.
🛑 Выбор единицы анализа, вместо единицы рандомизации для оценки SRM
Зачастую сплитование происходит по пользователям, а для анализа результатов АБ теста иногда используют метрики посчитанные по сессиям.
Некоторые не задумываясь о различии пользователей и сессий, могут взять сессии для оценки SRM, но это не верно, т.к. сплитование происходило по пользователям, а сессия это некоторая производная от пользователя.
Различия в тестируемых вариантах может влиять на число сессий, которое сгенерирует пользователь в каждом из вариантов экспа, а значит такая сущность как сессия не подойдет для оценки SRM. Есть пример в этом посте
🛑 Оценка SRM по пользователям по дням
Берем каждый день всех пользователей попавших в эксперимент и оцениваем SRM. Тут хотя мы и берем в качестве анализа пользователя, но один и тот же пользователь мог возвращаться в разные дни, а возвращаемость это опять таки производная от пользователя.
На нее может воздействовать само экспериментальное изменение, т.е. даже при корректном сплите вы можете получить разную возвращаемость в группах.
Вы будете видеть дисбаланс при таком методе подсчета. Кроме этого важно помнить, что хи2 как и любой стат критерий имеет ошибку первого рода и чем больше сравнений вы сделаете тем больше вероятность допустить ошибку первого рода и найти дисбаланс там где его нет.
1. Для оценки SRM нам важно брать в качестве наблюдений именно единицу рандомизации, т.е. если ваша сплит система делит по пользователям, то нам нужны id пользователей.
2. Учитывать каждое наблюдение (пользователя) нужно только 1 раз в выборке, независимо от того сколько раз он вернулся в продукт.
3. Производить подсчет SRM для АБ теста тоже желательно только 1 раз, чтобы держать ошибку первого рода в рамках альфы, либо применить какую-то поправку для корректировки альфы.