Не AБы какие тесты

Привет, comrades statisticians!

Наконец-то 3-ая заключительная часть про мета-анализ независимых гипотез (вот первая и вторая)

Мы подробно рассмотрим weighted combined z-score, который на мой взгляд имеет ряд преимуществ в сравнении с Fisher's method.

Мета-анализ: weigthed combined z-score, ч-3

Чуть позже возьмемся за зависимые гипотезы.
Приятного чтения!

👍13

1.51K viewsedited 15:03

Не AБы какие тесты

Привет, товарищи статистики!

А знаете ли вы, что одной поваренной книге по A/B "Practitioner’s Guide to Statistical Tests" от VK Team, к которой я время от времени возвращаюсь, базовое заклинание "assumption" встречается 46 раз?

Один из авторов статьи - Никита Маршалкин, когда-то дал интересное интервью Толе Карпову. Ох, оказывается 4 года прошло с тех пор.

Так вот, до сих пор помню пару моментов в этом интервью:
1. (это я понял задним числом) Когда он говорил про метрику отношений, - тот же средний чек, - но тогда он ее так не называл (правда тогда ее так никто особо и не называл), он приводил пример про CTR. Он его разделял на глобальный CTR, то есть CTR множества (группы), и на локальный CTR, то есть CTR на юзера.

Вот думаю, что "глобальный/локальный" - хорошие определения в этом контексте.

2. Его высказывание про книгу "Thustworthy Online Controlled Experiments" от Рона Кохави: "Все статьи можно выбросить, прочитать только это книжку". Книжка действительно очень хорошая, но с ней вот какая штука: она полезна уже тем, кто понимает A/B, хотя бы базу, как оно работает (я про критерии); а вот тем, кто только начал свой путь - скажем так, она хуже не сделает, но и не особо поможет. Но если собирётесь читать, то читайте на английском, на русском хватало опечаток!

3. Хорошие объяснения разных подходов по сплитованию трафика, bootstrap. Но особенно запомнилось рассуждение того, как A/B проводятся в маленькими компаниями в сравнении с большими: когда продукт только на старте, важны большие эффекты, что само по себе требует мало аудитории, а когда продукт уже развит и у него большая аудитория, то эффекты ожидаются не столь большие (все самые бустящие/важные/критичные вещи внедрены/пофикшены), но и MDE на такой аудитории можно отлавливать меньше.

В этом смысле я сейчас думаю о графике MDE vs размер аудитории (2-ая картинка). Что большой MDE вполне имеет право на жизнь, но только если вы стартап. Но когда вы уже большие, вам следует ориентироваться в основном на малый прирост. Менять местами ожидания, - стартапу подавать малый MDE, крупному ребятам - большой MDE, - значит для первых делать бесконечный тест (так как большой размер выборки нужен), а для вторых - ничего не менять на продукте (так как ну вряд ли будет такой эффект). И то и другое тупиковый путь.

Со статьей и интервью рекомендую ознакомиться, если не видели.

👍12

1.76K views06:31

Не AБы какие тесты

Привет, товарищи-статистики!

—ВВОДНАЯ—
Я должен был написать продолжение про мета-анализ общей зависимой гипотезы, но, во-первых, на телеграфе с некоторых пор баг, который не позволяет ставлять картинки; во-вторых, я уже пишу статью на Хабр про мета-анализ, где про зависимую гипотезу будет в том числе. Идет статья со скрипом, мои рецензенты как следует дали мне продышаться по методу Фишера, переписываю в том числе и ту часть.

Сегодня напишу по теме, про которую долго думаю, про которую меня позавчера спросили на финальной встрече потока (спасибо за вопрос, Кристина), да и еще к тому же Юра дал ссылку на пост про MDE, который тож триггернул. В общем, пора!

Итак, будем говорить о том, что я для себя называю как "макс. эффект / эффект, которого "скорее всего точно нет"" (возможно, придумываю колесо и все уже есть, просто не встречал что-то подобное). И должен сказать, что нет уверенности в том, чем хочу поделиться.

—ТЕМА ПОСТА—
Вводные:
- Мы дизайним тест: пускай сигма = 2, классические параметры альфа, мощности (0.05 / 0.8) и доступный размер аудитории на группу по 100, получаем MDE = 0.792
- Помним, что мощность определяется как вероятность обнаружить эффект, если он есть. Проблема в том, что на практике мы, конечно, не знаем, есть ли эффект на самом деле или нет, даже с учетом стат. значимого теста (ошибка 1-го рода).

Так вот, меня давно очень интересует на этапе дизайне другое значение MDE, когда максимизируешь мощность, например, до 0.99, назовем это MDE №2 [1.212]. Получаем при этом ошибку 2-го рода 1%.

Почему думаю об этом? Вот мы проводим тест и он не стат. значимый (тут я специально проводил А/А). При этом обычное дело - строим дов. интервал эффекта, скажем [-0.12, 1.08], однако он говорит лишь о том, что с некоторой надежностью (1-alpha) охватывает истинный эффект. Его правая граница, 1.08, может принимать и другие значения, но в принципе с оговорками она дает нам оценку максимального эффекта, так как интервал мог быть и другим.

Но что если зайти со стороны MDE №2? А он, кажется, про "эффект, которого "точно" нет". Почти, так как по логике получается, у нас, как будто, уже 99% против 1%, что такого MDE №2 и более эффекта нет в рамках нашего результата. Более того, А/А симуляция доверительных интервалов эффекта с точки зрения абсолютного максимального значения приближалась к этому MDE №2.

То есть такая мера как MDE №2 = 1.212 в рамках не стат.значимого теста дает, даже с учетом мощности всего 0.99 оценку вашего максимального выхлопа, если ошибка 2-го рода имела место. При этом он прям маловероятен. Ни больше, ни меньше. По идее.

И вроде как оно тем лучше дов. интервала эффекта в таком контексте, что интервал вариативен и правая сторона гуляет, (что можно попробовать решить через бутстрап, например), а MDE №2, условно, предел. Только надо балансировать этот MDE №2 на полученные размеры групп, все-таки плюс-минус размер будет разбегаться от ожидаемого.

Зачем оно нужно?
Дело в том, что тест не запрещает катить нестат. значимый результат, более того, такое может произойти. И вот подобная оценка как будто способна дать. доп. информацию о том, а стоит ли это того? Если конкретизировать: "твой максимум c вероятностью 1% это 1.212, при этом может стать хуже (по дов. интервалу) на -0.12 + ресурсы на раскатку, как тебе с этим?"

Проблемы:
- Возможно, это все-таки "говно без задач" + я мог ошибиться в рассуждениях.
- Мощность мощно изменить c 0.99 на 0.9999 и т.д. Как правильно? Правильно то, что вы принимаете для себя как предел ошибки 2-го рода, Beta. C альфой же для себя как-то разобрались :)
- Надо помнить, мы можем говорить о пределе только ссылкой на набор наших параметров в рамках теста: сигма, альфа, аудитория. Оно не может быть обобщающим.

👍2

1.31K viewsedited 10:47

Не AБы какие тесты

Привет, товарищи-статистики!

В полку свидетелей A/B прибыло: недавно завершился 6-ой поток, самый большой из всех на данный момент! Отзывы выше, и это лишь их часть, остальное как соберу, закину в комменты.

Ух, это было непросто, но теперь я больше уверен в том, какой размер группы мне по плечу так, чтобы это было максимально комфортно группе. ну и чтобы я не закончился.

1. Занятий снова стало больше, так как разбил блок по множественному тестированию, чтобы они легче усвоились. Для всех, кто был ранее, только их и рекомендую пересмотреть, особенно часть про A/B и много метрик, там я переосмыслил процедуры первичной проверки и рассказал про тест Hotelling'a.

Для следующего потока я также подумываю некоторый материал разбить на части, например, Хи-Квадрат и Бутстрап.

2. Материал каждой встречи также был переработан в сторону большей атомизации для более последовательной подачи. Это делалось для того, чтобы упростить восприятие и снизить темп повествования, хотя все равно есть фидбек, что быстровато. Услышал, думаю, как себя притормозить.

Существенно дополнил и то, что я пишу до и после встреч. Например, теперь мы вспоминаем элементы школьного курса алгебры, разбирая, например, операции возведения в степень и взятия логарифма.

Добавлены и материалы про ковариацию и корреляцию. В рамках следующего потока немного иначе расскажу про стандартную ошибку, кажется текущая версия проще и вообще еще больше опирается на логику, чем математику.

(не покидает ощущение, что я пишу об очередном релизе будь то приложения/патча :))

4. У меня есть желание дополнить материал к новому потоку про синтетический контроль с заходом через анализ временных рядов: AR, MA, ARMA и вот это все, чтоб окончательно закрыть 2-3% специфического тестах. Это материал, если и будет, то в формате "beta", а потому на цене никак не скажется до тех пор, пока не отшлифуется.

Тестирование по Байесу я также хотел бы, вся подводка в наличии, но, пожалуй, пока воздержусь (прости, Виктор).

5. Также есть запрос на колабы/ноутбуки и еще доп. ДЗ на достаточно частные темы. Хоть по тому и другому я все еще придерживаюсь позиции, что "если оно нужно, значит мы пошли куда-то не туда в плане представленного материала", но глас народа важнее. В целом пока есть идея сделать больше подводок к дизайну тестов, расширяя пример из встречи ко встречи, чтобы к выпускному заданию вы были готовы по максимум.

Продолжение далее.

🔥5❤1👍1

1.53K views07:02

Не AБы какие тесты

6. Ну и начинаю неспешный набор на 7-ой поток "Наглядное АB-тестирование: от основ до современных стандартов" (спасибо моему коллеге Петру за помощь в названии название), старт примерно во второй половине ноября, так как нужна передышка + время на дополнения + отпуск;

Те, кто писал ранее - о вас помню, вы записаны.

Список актуальных тем на скрине, о чем они - тут.

Цена пока та же - 35к, условия те же: "каждый поток веду лично, оказывая максимальное сопровождение по материалу; веду с удовольствием, в душе педагог; подача такая, будто надо объяснить детям, чтобы они могли объяснить это другим детям"

Обучение идет по вечерам, в 19 по Мск, 2-3 раза в неделю, не менее 2-х месяцев.

Желающие стать свидетелями Госсета и Фишера, пишите смелее в ЛС :)

P.S. В следующих постах поговорим об одной важной конфе, потом (не)много о личном и далее вновь мета-анализе, но со стороны непараметрики.

❤14

1.91K viewsedited 07:04

Не AБы какие тесты

Матемаркетинг 2024

Привет, товарищи-статистики!

Если что-то рекомендовать и рекламировать, то именно то и только то, чем пользуешься и что любишь сам. Это мой добровольный PR-пост в поддержку конференции, которую я глубоко уважаю и в которой принимал участие и как слушатель, и как помощник в организации, и как выступающий. Данная конференция, как и Aha, одна из тех, кто посетить нужно обязательно: каждый раз было много полезного с точки зрения как что-то работает, куда можно копнуть дальше и пр.

В этом году я также буду выступать вместе со своим коллегой, Ваней Щербаком, с темой "Дизайн-документ по A/B для разных сценариев от команды «Пятерочка»" (мы будем в онлайн-секции). Доклад нацелен на джунов и всех тех, кто хочет делать дизайн эксперимента как по учебнику с соблюдением всех стандартов. Не мудреный какой-то там ML, но мое любимое - очередная порция базы.

Вот программа, очень крутая: очевидный ход это заранее ее посмотреть всю, выделить для себя интересные доклады и план на конфу готов! Только обязательно оставьте время для общения у кофе, его, общения, как правило, очень много, даже если вы его не планировали)

Конференция будет идти 3 дня: онлайн часть, где как раз будет наш доклад в том числе, 29 октября, и 7-8 ноября оффлайн в Москве, МГУ, кластер «Ломоносов», Раменский бульвар 1.

Купить билеты вы можете по ссылке. Конечно, есть промокод на 15%: ABBATESTING15. Вы можете мне сказать, ну блин, че-то все равно дорого. А я вам отвечу: для вас или все же для вашей компании, требующей YtY кратного роста и которая вроде как обещала вам при трудоустройстве оплату обучения и вот этого всего? Это конфа стоит того, чтобы ее посетить, так как может научить тому, как надо и как не надо: может, кратного роста компании она не даст, но сэкономить x2-3 стоимости билета - весьма-весьма вероятно.

🔥10

1.76K views07:02

Не AБы какие тесты

Привет, товарищи-статистики!

Обещал пост о личном, а напишу снова о статистике: поговорим о спорной теме.

Кажется, что, в общем-то, есть два способа протестировать среднее:
1. Сделать assumption, что наше воздействие не повлияет на дисперсию, поэтому t-test
2. Вполне справедливо не сделать такого assumption ("А на каких основаниях, собственно?"), поэтому передать в функции t-test, что дисперсии не равны, превратив t-test в Welch test.

Вы можете подумать, что вас спрашивают, равны ли дисперсии выборок - нет, спрашивают как раз именно об изменения дисперсии популяции под воздействием тритмента. Да и к тому же, дисперсии выборок в абсолютном значении почти никогда не будут равны.

Но есть вроде бы логичный выход, это провести предварительный тест дисперсии (preliminary test). Или это не выход? Давайте разбираться.

🔥5❤1

1.92K views19:20

Не AБы какие тесты

Привет, товарищи-статистики!

Или, как мы дошутились с коллегой Валерой, товарищи, - представили субкультуры,- абешники и абешницы.

В посте выше я вскользь написал, что мне в принципе понятна мотивация делать ошибочных ход: проверять тестом на нормальность выборку для t-test'a. Но думаю, было бы полезно объяснить почему это ход даже не столько ошибочный, сколько бессмысленный.

Продолжение бессмыслицы.

+ неожиданным образом пришлось откомментировать пост глубоко уважаемого мною Филлипа Ульянкина в попытке уменьшить разночтения от моих слов, слов коллег из X5 и Филлипа в голове тех, кто только трогает статистику

👍7🔥3

1.96K views14:01

Не AБы какие тесты

😁16👍1

1.51K views18:22

Не AБы какие тесты

Привет, товарищи-статистики!

Я, наконец-то, дописал статью про мета-анализ, о котором менее строго писал ранее в канале.
https://habr.com/ru/companies/X5Tech/articles/862202/

Что важно:
- в статье есть обещанный разбор тестирования зависимых гипотез.
- формализованный вывод метода Фишера через преобразование случайной величины
- рассмотрены еще ряд статистик для независимых тестов

Постарался как и всегда дать это максимально просто, надеюсь, получилось.

Статья большая, не меньше, чем я написал про Mann-Whitney, но должна быть максимально исчерпывающей.

P.S. Аналитик из Gett - это Дима, @DVars, спасибо и тебе за мотивацию написать эту простыню)

Хабр

Гайд по мета-анализу результатов тестов

Привет! На связи команда аналитиков «Пятёрочки» X5 Tech. Подсчитать и проанализировать можно не только A/B, но также подвергнуть анализу ряд тестов с общей нулевой гипотезой. Другими словами,...

❤19🔥9

1.54K viewsedited 10:42

Не AБы какие тесты

Привет, товарищи-статистики!

На днях вышла статья коллег из X5: “Diff-in-diff: жизнь за пределами идеального эксперимента”, о том, как метод Diff-in-Diff помогает бороться со смещенным отбором (selection bias). Крайне рекомендую к прочтению, так как написано со всеми необходимыми вводными и, - что я очень люблю, - интуицией метода. А так как метод использует линейные модели, то ребята наглядно (что тоже люблю) показали, что будет, если не учитывать смещение отбора или/и тренд как со стороны оценки эффекта, так и со стороны ошибок 1-го рода.

Единственное, что я добавлю от себя, это попробую чуть больше рассказать про ковариационную матрицу в контексте гомоскедастичности ошибок регрессии, чтобы постараться сделать статью нагляднее (при всем уважении к ребятам).

Читать далее про ковариационную матрицу.

Telegraph

Ковариационная матрица для оценки гомоскедастичности ошибок регрессии

Давайте рассмотрим некоторого школьника “111” и его результаты 10 проверочных работ по одному и тому же предмету. [81, 80, 79, 72, 72, 70, 69, 77, 77, 76] Результаты записаны последовательно, перед нами условная временная линия: На графике зеленым выделена…

🔥12👍1

1.4K viewsedited 07:01

Не AБы какие тесты

Привет, товарищи-статистики!

Сегодня пост про одно из мои важных достижений, которые не касаются работы (итоги года может завтра подведу). Я получил свидетельство частного пилота, теперь пилот значит.

На самом деле бумажка у меня на руках еще с октября, мне казалось, что я быстро напишу пост по мотивам, но в итоге написал пока первую часть, вторую попозже.

Вот, делюсь впечатлениями, каково оно учиться нынче пилотировать однодвигательный летательный, надеюсь, вам будет интересно:

Читать про причастие к небу, часть-1

🔥39👍1

1.07K views12:00

Не AБы какие тесты

И, конечно, хочу выразить пожелания всем вам в Новом Году, дорогие товарищи-статистики!

Во-первых, я бы хотел, чтобы каждый из вас следовал своим мечтам и желаниям, не сходите с курса те, кто на нем, ищите свой, кто ещё не нашел ну и на мой заглядывайте :)

Во-вторых, вероятно, большая часть из нас тут рабочие люди, а потому желаю, чтобы если вы и будете менять работу в 25-м (и далее тоже), то по своей воле и своих условиях, а не по "обоюдному согласию".

В-третьих, всем, в том числе всем вашим близким, откуда вы ни были, любви, благополучия, мира и здоровья. Действительность показывает, что это сейчас уже давно в дефиците.

С наступающим Новым Годом, ребята!

👍17❤15💯2

937 views09:31

Не AБы какие тесты

Пока продолжение про полёты пишется, подведу свои итоги года, тем более Новый год на носу.

Достижения за год (по работе в целом):
- Как оказалось, курс в ноябре этого года отметил свой годик, а на текущий момент идет уже 7-ой поток, перевалили за базу! И за год я курс перелопатил прилично (при том, что горжусь и самым первым). Похоже, что в 8-ом потоке будет почти 30 встреч!
- Прочитал курс внутри X5 команде, а там ребята все мозговитые, накидывали вопросы по теории и математике без стеснения только так. Свои накинут похлеще всех прочих)
- Наша команда так-то вообще очень славно поработала в этом году. Мне кажется, мы сейчас в самом, как говорится, "ресурсном" состоянии. И это при прекрасной атмосфере. Ребят, если читаете это, вы молодцы и большое вам спасибо!
- Кажется выполнил цель по передаче всех знаний своему джуну Ване как минимум по A/B. Теперь он даст фору ОЧЕНЬ многим по A/B, в том числе сеньорам. Теперь A/B дизайнит/считает не глядя. Горжусь тобой, Ваня! Ну и кстати, передаю по секрету его слова про статистику: "действительно, надо именно понять, без этого хоть тысячу тестов сделай - не поймешь". А я что? "А я говорил" (c)
- Обо мне хорошо осведомлен департамент, который делает A/B в оффлайне и вообще вся методологи X5. Дизайны Вани хвалят, как по учебнику говорят. Ну а то!
- 3 статьи, две прям фундаментальные по базе: Мета-анализ и Mann-Whitney, последнюю писал год.
- Несколько внешних выступлений и уже 2-ое выступление вместе с Ваней на Матемаркетинге! Я бы рад и первому, но 2 это уже, имхо, весомо.
- Вообще, разделю утверждение Юры Борзило, о том, что нравится развивать культуру A/B, объяснять, рассказывать об этом, преподавать. Делал, получал удовольствие!

В 25-ом году есть мысли больше понять про LLM, RL. Точнее укрепить теор. базу, чтобы лучше понимать вектор департамента, у нас этим плотно занялись, хочется больше быть в контексте, ML-то так-то не особо интересен, скучновато. То ли дело применять в 100-ый раз t-test, ~~всегда как в первый раз.~~

Ну и курс улучшать!

Из личного:
- Еще один прекрасный год с любимой и дорогой супругой. Кажется, ты, Вика, улыбалась в этом году больше, чем в прошлом)
- Съездили второй раз в жизни на Мальдивы. Пост напишу. Пока кратко скажу следующее: один раз туда точно съездить стоит, хотя бы на недельку. Это дорого, но стоит той дозы эндорфинов в глаза, сердце и душу.
- Получил, наконец, лицензию пилота. Конечно, я зелень зелёная, но и не в самом начале.
- Вместе с братом откапиталили гараж: честно, на него было страшно смотреть уже, а входить так вообще. Сейчас будто новый! Приятно.
- Добрался до последней фазы лечения зубов, правда, на самой дорогой. Однако путь был долгий. Закончу, поделюсь.
- На даче садили новые плодовые деревья, еще и виноград.

В новом году поехать бы в Японию (Влад, Артур, это все ваше влияние, засранцы): говорят, еда и проживание дешевле чем в Питере, а по атмосфере будто в будущее попал. Хотеть.

Что было не очень:
- У меня был выраженный дисбаланс в сторону работы. Мне нравится работать, но я понял, что стал согласен с фразой "жизнь по календарю это свобода", эх. Да, приходится планировать уже более чем на неделю далеко не только календарь X5.
- Из-за этого я меньше отдавал времени хобби, и мы меньше куда выбирались, больше все работа и работа. А ведь мне скучновато делать одно и тоже, хочется больше разнообразия. Тем более, что вылазки делают жизнь насыщеннее, она не так быстро пробегает! А так работаешь и раз, месяц прошёл. Wat!?
- В это лето ни разу не выехали с Викой на конные прогулки, чтоб в полях этих хитрых ссыкунов (при всей любви) пустить в галоп. И это при том, что мы нашли комфортную конюшню/
- На даче мало перегнали яблок и прочего, да и вообще как-то не шла жизнь деревенская этим летом.
- Скучал по тренажерному залу, а он там у меня ух какой: гири, штанги и прочие снаряды на любой вкус. С одной стороны сил не было ездить, а с другой я потянул ногу по своей глупости. Ну хоть дома есть пара снарядов)

Буду рефлексировать, благо есть время подумать.

❤16👍3

1.25K views09:31

2025/07/12 14:25:11
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>