Привет, comrades statisticians!
Наконец-то 3-ая заключительная часть про мета-анализ независимых гипотез (вот первая и вторая)
Мы подробно рассмотрим weighted combined z-score, который на мой взгляд имеет ряд преимуществ в сравнении с Fisher's method.
Мета-анализ: weigthed combined z-score, ч-3
Чуть позже возьмемся за зависимые гипотезы.
Приятного чтения!
Наконец-то 3-ая заключительная часть про мета-анализ независимых гипотез (вот первая и вторая)
Мы подробно рассмотрим weighted combined z-score, который на мой взгляд имеет ряд преимуществ в сравнении с Fisher's method.
Мета-анализ: weigthed combined z-score, ч-3
Чуть позже возьмемся за зависимые гипотезы.
Приятного чтения!
👍13
Привет, товарищи статистики!
А знаете ли вы, что одной поваренной книге по A/B "Practitioner’s Guide to Statistical Tests" от VK Team, к которой я время от времени возвращаюсь, базовое заклинание "assumption" встречается 46 раз?
Один из авторов статьи - Никита Маршалкин, когда-то дал интересное интервью Толе Карпову. Ох, оказывается 4 года прошло с тех пор.
Так вот, до сих пор помню пару моментов в этом интервью:
1. (это я понял задним числом) Когда он говорил про метрику отношений, - тот же средний чек, - но тогда он ее так не называл (правда тогда ее так никто особо и не называл), он приводил пример про CTR. Он его разделял на глобальный CTR, то есть CTR множества (группы), и на локальный CTR, то есть CTR на юзера.
Вот думаю, что "глобальный/локальный" - хорошие определения в этом контексте.
2. Его высказывание про книгу "Thustworthy Online Controlled Experiments" от Рона Кохави: "Все статьи можно выбросить, прочитать только это книжку". Книжка действительно очень хорошая, но с ней вот какая штука: она полезна уже тем, кто понимает A/B, хотя бы базу, как оно работает (я про критерии); а вот тем, кто только начал свой путь - скажем так, она хуже не сделает, но и не особо поможет. Но если собирётесь читать, то читайте на английском, на русском хватало опечаток!
3. Хорошие объяснения разных подходов по сплитованию трафика, bootstrap. Но особенно запомнилось рассуждение того, как A/B проводятся в маленькими компаниями в сравнении с большими: когда продукт только на старте, важны большие эффекты, что само по себе требует мало аудитории, а когда продукт уже развит и у него большая аудитория, то эффекты ожидаются не столь большие (все самые бустящие/важные/критичные вещи внедрены/пофикшены), но и MDE на такой аудитории можно отлавливать меньше.
В этом смысле я сейчас думаю о графике MDE vs размер аудитории (2-ая картинка). Что большой MDE вполне имеет право на жизнь, но только если вы стартап. Но когда вы уже большие, вам следует ориентироваться в основном на малый прирост. Менять местами ожидания, - стартапу подавать малый MDE, крупному ребятам - большой MDE, - значит для первых делать бесконечный тест (так как большой размер выборки нужен), а для вторых - ничего не менять на продукте (так как ну вряд ли будет такой эффект). И то и другое тупиковый путь.
Со статьей и интервью рекомендую ознакомиться, если не видели.
А знаете ли вы, что одной поваренной книге по A/B "Practitioner’s Guide to Statistical Tests" от VK Team, к которой я время от времени возвращаюсь, базовое заклинание "assumption" встречается 46 раз?
Один из авторов статьи - Никита Маршалкин, когда-то дал интересное интервью Толе Карпову. Ох, оказывается 4 года прошло с тех пор.
Так вот, до сих пор помню пару моментов в этом интервью:
1. (это я понял задним числом) Когда он говорил про метрику отношений, - тот же средний чек, - но тогда он ее так не называл (правда тогда ее так никто особо и не называл), он приводил пример про CTR. Он его разделял на глобальный CTR, то есть CTR множества (группы), и на локальный CTR, то есть CTR на юзера.
Вот думаю, что "глобальный/локальный" - хорошие определения в этом контексте.
2. Его высказывание про книгу "Thustworthy Online Controlled Experiments" от Рона Кохави: "Все статьи можно выбросить, прочитать только это книжку". Книжка действительно очень хорошая, но с ней вот какая штука: она полезна уже тем, кто понимает A/B, хотя бы базу, как оно работает (я про критерии); а вот тем, кто только начал свой путь - скажем так, она хуже не сделает, но и не особо поможет. Но если собирётесь читать, то читайте на английском, на русском хватало опечаток!
3. Хорошие объяснения разных подходов по сплитованию трафика, bootstrap. Но особенно запомнилось рассуждение того, как A/B проводятся в маленькими компаниями в сравнении с большими: когда продукт только на старте, важны большие эффекты, что само по себе требует мало аудитории, а когда продукт уже развит и у него большая аудитория, то эффекты ожидаются не столь большие (все самые бустящие/важные/критичные вещи внедрены/пофикшены), но и MDE на такой аудитории можно отлавливать меньше.
В этом смысле я сейчас думаю о графике MDE vs размер аудитории (2-ая картинка). Что большой MDE вполне имеет право на жизнь, но только если вы стартап. Но когда вы уже большие, вам следует ориентироваться в основном на малый прирост. Менять местами ожидания, - стартапу подавать малый MDE, крупному ребятам - большой MDE, - значит для первых делать бесконечный тест (так как большой размер выборки нужен), а для вторых - ничего не менять на продукте (так как ну вряд ли будет такой эффект). И то и другое тупиковый путь.
Со статьей и интервью рекомендую ознакомиться, если не видели.
👍12
Привет, товарищи-статистики!
—ВВОДНАЯ—
Я должен был написать продолжение про мета-анализ общей зависимой гипотезы, но, во-первых, на телеграфе с некоторых пор баг, который не позволяет ставлять картинки; во-вторых, я уже пишу статью на Хабр про мета-анализ, где про зависимую гипотезу будет в том числе. Идет статья со скрипом, мои рецензенты как следует дали мне продышаться по методу Фишера, переписываю в том числе и ту часть.
Сегодня напишу по теме, про которую долго думаю, про которую меня позавчера спросили на финальной встрече потока (спасибо за вопрос, Кристина), да и еще к тому же Юра дал ссылку на пост про MDE, который тож триггернул. В общем, пора!
Итак, будем говорить о том, что я для себя называю как "макс. эффект / эффект, которого "скорее всего точно нет""(возможно, придумываю колесо и все уже есть, просто не встречал что-то подобное) . И должен сказать, что нет уверенности в том, чем хочу поделиться.
—ТЕМА ПОСТА—
Вводные:
- Мы дизайним тест: пускай сигма = 2, классические параметры альфа, мощности (0.05 / 0.8) и доступный размер аудитории на группу по 100, получаем MDE = 0.792
- Помним, что мощность определяется как вероятность обнаружить эффект, если он есть. Проблема в том, что на практике мы, конечно, не знаем, есть ли эффект на самом деле или нет, даже с учетом стат. значимого теста (ошибка 1-го рода).
Так вот, меня давно очень интересует на этапе дизайне другое значение MDE, когда максимизируешь мощность, например, до 0.99, назовем это MDE №2 [1.212]. Получаем при этом ошибку 2-го рода 1%.
Почему думаю об этом? Вот мы проводим тест и он не стат. значимый (тут я специально проводил А/А). При этом обычное дело - строим дов. интервал эффекта, скажем [-0.12, 1.08], однако он говорит лишь о том, что с некоторой надежностью (1-alpha) охватывает истинный эффект. Его правая граница, 1.08, может принимать и другие значения, но в принципе с оговорками она дает нам оценку максимального эффекта, так как интервал мог быть и другим.
Но что если зайти со стороны MDE №2? А он, кажется, про "эффект, которого "точно" нет". Почти, так как по логике получается, у нас, как будто, уже 99% против 1%, что такого MDE №2 и более эффекта нет в рамках нашего результата. Более того, А/А симуляция доверительных интервалов эффекта с точки зрения абсолютного максимального значения приближалась к этому MDE №2.
То есть такая мера как MDE №2 = 1.212 в рамках не стат.значимого теста дает, даже с учетом мощности всего 0.99 оценку вашего максимального выхлопа, если ошибка 2-го рода имела место. При этом он прям маловероятен. Ни больше, ни меньше. По идее.
И вроде как оно тем лучше дов. интервала эффекта в таком контексте, что интервал вариативен и правая сторона гуляет, (что можно попробовать решить через бутстрап, например), а MDE №2, условно, предел. Только надо балансировать этот MDE №2 на полученные размеры групп, все-таки плюс-минус размер будет разбегаться от ожидаемого.
Зачем оно нужно?
Дело в том, что тест не запрещает катить нестат. значимый результат, более того, такое может произойти. И вот подобная оценка как будто способна дать. доп. информацию о том, а стоит ли это того? Если конкретизировать: "твой максимум c вероятностью 1% это 1.212, при этом может стать хуже (по дов. интервалу) на -0.12 + ресурсы на раскатку, как тебе с этим?"
Проблемы:
- Возможно, это все-таки "говно без задач" + я мог ошибиться в рассуждениях.
- Мощность мощно изменить c 0.99 на 0.9999 и т.д. Как правильно? Правильно то, что вы принимаете для себя как предел ошибки 2-го рода, Beta. C альфой же для себя как-то разобрались :)
- Надо помнить, мы можем говорить о пределе только ссылкой на набор наших параметров в рамках теста: сигма, альфа, аудитория. Оно не может быть обобщающим.
—ВВОДНАЯ—
Я должен был написать продолжение про мета-анализ общей зависимой гипотезы, но, во-первых, на телеграфе с некоторых пор баг, который не позволяет ставлять картинки; во-вторых, я уже пишу статью на Хабр про мета-анализ, где про зависимую гипотезу будет в том числе. Идет статья со скрипом, мои рецензенты как следует дали мне продышаться по методу Фишера, переписываю в том числе и ту часть.
Сегодня напишу по теме, про которую долго думаю, про которую меня позавчера спросили на финальной встрече потока (спасибо за вопрос, Кристина), да и еще к тому же Юра дал ссылку на пост про MDE, который тож триггернул. В общем, пора!
Итак, будем говорить о том, что я для себя называю как "макс. эффект / эффект, которого "скорее всего точно нет""
—ТЕМА ПОСТА—
Вводные:
- Мы дизайним тест: пускай сигма = 2, классические параметры альфа, мощности (0.05 / 0.8) и доступный размер аудитории на группу по 100, получаем MDE = 0.792
- Помним, что мощность определяется как вероятность обнаружить эффект, если он есть. Проблема в том, что на практике мы, конечно, не знаем, есть ли эффект на самом деле или нет, даже с учетом стат. значимого теста (ошибка 1-го рода).
Так вот, меня давно очень интересует на этапе дизайне другое значение MDE, когда максимизируешь мощность, например, до 0.99, назовем это MDE №2 [1.212]. Получаем при этом ошибку 2-го рода 1%.
Почему думаю об этом? Вот мы проводим тест и он не стат. значимый (тут я специально проводил А/А). При этом обычное дело - строим дов. интервал эффекта, скажем [-0.12, 1.08], однако он говорит лишь о том, что с некоторой надежностью (1-alpha) охватывает истинный эффект. Его правая граница, 1.08, может принимать и другие значения, но в принципе с оговорками она дает нам оценку максимального эффекта, так как интервал мог быть и другим.
Но что если зайти со стороны MDE №2? А он, кажется, про "эффект, которого "точно" нет". Почти, так как по логике получается, у нас, как будто, уже 99% против 1%, что такого MDE №2 и более эффекта нет в рамках нашего результата. Более того, А/А симуляция доверительных интервалов эффекта с точки зрения абсолютного максимального значения приближалась к этому MDE №2.
То есть такая мера как MDE №2 = 1.212 в рамках не стат.значимого теста дает, даже с учетом мощности всего 0.99 оценку вашего максимального выхлопа, если ошибка 2-го рода имела место. При этом он прям маловероятен. Ни больше, ни меньше. По идее.
И вроде как оно тем лучше дов. интервала эффекта в таком контексте, что интервал вариативен и правая сторона гуляет, (что можно попробовать решить через бутстрап, например), а MDE №2, условно, предел. Только надо балансировать этот MDE №2 на полученные размеры групп, все-таки плюс-минус размер будет разбегаться от ожидаемого.
Зачем оно нужно?
Дело в том, что тест не запрещает катить нестат. значимый результат, более того, такое может произойти. И вот подобная оценка как будто способна дать. доп. информацию о том, а стоит ли это того? Если конкретизировать: "твой максимум c вероятностью 1% это 1.212, при этом может стать хуже (по дов. интервалу) на -0.12 + ресурсы на раскатку, как тебе с этим?"
Проблемы:
- Возможно, это все-таки "говно без задач" + я мог ошибиться в рассуждениях.
- Мощность мощно изменить c 0.99 на 0.9999 и т.д. Как правильно? Правильно то, что вы принимаете для себя как предел ошибки 2-го рода, Beta. C альфой же для себя как-то разобрались :)
- Надо помнить, мы можем говорить о пределе только ссылкой на набор наших параметров в рамках теста: сигма, альфа, аудитория. Оно не может быть обобщающим.
👍2
Привет, товарищи-статистики!
В полку свидетелей A/B прибыло: недавно завершился 6-ой поток, самый большой из всех на данный момент! Отзывы выше, и это лишь их часть, остальное как соберу, закину в комменты.
Ух, это было непросто, но теперь я больше уверен в том, какой размер группы мне по плечу так, чтобы это было максимально комфортно группе. ну и чтобы я не закончился.
1. Занятий снова стало больше, так как разбил блок по множественному тестированию, чтобы они легче усвоились. Для всех, кто был ранее, только их и рекомендую пересмотреть, особенно часть про A/B и много метрик, там я переосмыслил процедуры первичной проверки и рассказал про тест Hotelling'a.
Для следующего потока я также подумываю некоторый материал разбить на части, например, Хи-Квадрат и Бутстрап.
2. Материал каждой встречи также был переработан в сторону большей атомизации для более последовательной подачи. Это делалось для того, чтобы упростить восприятие и снизить темп повествования, хотя все равно есть фидбек, что быстровато. Услышал, думаю, как себя притормозить.
Существенно дополнил и то, что я пишу до и после встреч. Например, теперь мы вспоминаем элементы школьного курса алгебры, разбирая, например, операции возведения в степень и взятия логарифма.
Добавлены и материалы про ковариацию и корреляцию. В рамках следующего потока немного иначе расскажу про стандартную ошибку, кажется текущая версия проще и вообще еще больше опирается на логику, чем математику.
(не покидает ощущение, что я пишу об очередном релизе будь то приложения/патча :))
4. У меня есть желание дополнить материал к новому потоку про синтетический контроль с заходом через анализ временных рядов: AR, MA, ARMA и вот это все, чтоб окончательно закрыть 2-3% специфического тестах. Это материал, если и будет, то в формате "beta", а потому на цене никак не скажется до тех пор, пока не отшлифуется.
Тестирование по Байесу я также хотел бы, вся подводка в наличии, но, пожалуй, пока воздержусь (прости, Виктор).
5. Также есть запрос на колабы/ноутбуки и еще доп. ДЗ на достаточно частные темы. Хоть по тому и другому я все еще придерживаюсь позиции, что "если оно нужно, значит мы пошли куда-то не туда в плане представленного материала", но глас народа важнее. В целом пока есть идея сделать больше подводок к дизайну тестов, расширяя пример из встречи ко встречи, чтобы к выпускному заданию вы были готовы по максимум.
Продолжение далее.
В полку свидетелей A/B прибыло: недавно завершился 6-ой поток, самый большой из всех на данный момент! Отзывы выше, и это лишь их часть, остальное как соберу, закину в комменты.
Ух, это было непросто, но теперь я больше уверен в том, какой размер группы мне по плечу так, чтобы это было максимально комфортно группе.
1. Занятий снова стало больше, так как разбил блок по множественному тестированию, чтобы они легче усвоились. Для всех, кто был ранее, только их и рекомендую пересмотреть, особенно часть про A/B и много метрик, там я переосмыслил процедуры первичной проверки и рассказал про тест Hotelling'a.
Для следующего потока я также подумываю некоторый материал разбить на части, например, Хи-Квадрат и Бутстрап.
2. Материал каждой встречи также был переработан в сторону большей атомизации для более последовательной подачи. Это делалось для того, чтобы упростить восприятие и снизить темп повествования, хотя все равно есть фидбек, что быстровато. Услышал, думаю, как себя притормозить.
Существенно дополнил и то, что я пишу до и после встреч. Например, теперь мы вспоминаем элементы школьного курса алгебры, разбирая, например, операции возведения в степень и взятия логарифма.
Добавлены и материалы про ковариацию и корреляцию. В рамках следующего потока немного иначе расскажу про стандартную ошибку, кажется текущая версия проще и вообще еще больше опирается на логику, чем математику.
(не покидает ощущение, что я пишу об очередном релизе будь то приложения/патча :))
4. У меня есть желание дополнить материал к новому потоку про синтетический контроль с заходом через анализ временных рядов: AR, MA, ARMA и вот это все, чтоб окончательно закрыть 2-3% специфического тестах. Это материал, если и будет, то в формате "beta", а потому на цене никак не скажется до тех пор, пока не отшлифуется.
Тестирование по Байесу я также хотел бы, вся подводка в наличии, но, пожалуй, пока воздержусь (прости, Виктор).
5. Также есть запрос на колабы/ноутбуки и еще доп. ДЗ на достаточно частные темы. Хоть по тому и другому я все еще придерживаюсь позиции, что "если оно нужно, значит мы пошли куда-то не туда в плане представленного материала", но глас народа важнее. В целом пока есть идея сделать больше подводок к дизайну тестов, расширяя пример из встречи ко встречи, чтобы к выпускному заданию вы были готовы по максимум.
Продолжение далее.
🔥5❤1👍1
6. Ну и начинаю неспешный набор на 7-ой поток "Наглядное АB-тестирование: от основ до современных стандартов" (спасибо моему коллеге Петру за помощь в названии название), старт примерно во второй половине ноября, так как нужна передышка + время на дополнения + отпуск;
Те, кто писал ранее - о вас помню, вы записаны.
Список актуальных тем на скрине, о чем они - тут.
Цена пока та же - 35к, условия те же: "каждый поток веду лично, оказывая максимальное сопровождение по материалу; веду с удовольствием, в душе педагог; подача такая, будто надо объяснить детям, чтобы они могли объяснить это другим детям"
Обучение идет по вечерам, в 19 по Мск, 2-3 раза в неделю, не менее 2-х месяцев.
Желающие стать свидетелями Госсета и Фишера, пишите смелее в ЛС :)
P.S. В следующих постах поговорим об одной важной конфе, потом (не)много о личном и далее вновь мета-анализе, но со стороны непараметрики.
Те, кто писал ранее - о вас помню, вы записаны.
Список актуальных тем на скрине, о чем они - тут.
Цена пока та же - 35к, условия те же: "каждый поток веду лично, оказывая максимальное сопровождение по материалу; веду с удовольствием, в душе педагог; подача такая, будто надо объяснить детям, чтобы они могли объяснить это другим детям"
Обучение идет по вечерам, в 19 по Мск, 2-3 раза в неделю, не менее 2-х месяцев.
Желающие стать свидетелями Госсета и Фишера, пишите смелее в ЛС :)
P.S. В следующих постах поговорим об одной важной конфе, потом (не)много о личном и далее вновь мета-анализе, но со стороны непараметрики.
❤14
Матемаркетинг 2024
Привет, товарищи-статистики!
Если что-то рекомендовать и рекламировать, то именно то и только то, чем пользуешься и что любишь сам. Это мой добровольный PR-пост в поддержку конференции, которую я глубоко уважаю и в которой принимал участие и как слушатель, и как помощник в организации, и как выступающий. Данная конференция, как и Aha, одна из тех, кто посетить нужно обязательно: каждый раз было много полезного с точки зрения как что-то работает, куда можно копнуть дальше и пр.
В этом году я также буду выступать вместе со своим коллегой, Ваней Щербаком, с темой "Дизайн-документ по A/B для разных сценариев от команды «Пятерочка»" (мы будем в онлайн-секции). Доклад нацелен на джунов и всех тех, кто хочет делать дизайн эксперимента как по учебнику с соблюдением всех стандартов. Не мудреный какой-то там ML, но мое любимое - очередная порция базы.
Вот программа, очень крутая: очевидный ход это заранее ее посмотреть всю, выделить для себя интересные доклады и план на конфу готов! Только обязательно оставьте время для общения у кофе, его, общения, как правило, очень много, даже если вы его не планировали)
Конференция будет идти 3 дня: онлайн часть, где как раз будет наш доклад в том числе, 29 октября, и 7-8 ноября оффлайн в Москве, МГУ, кластер «Ломоносов», Раменский бульвар 1.
Купить билеты вы можете по ссылке. Конечно, есть промокод на 15%: ABBATESTING15. Вы можете мне сказать, ну блин, че-то все равно дорого. А я вам отвечу: для вас или все же для вашей компании, требующей YtY кратного роста и которая вроде как обещала вам при трудоустройстве оплату обучения и вот этого всего? Это конфа стоит того, чтобы ее посетить, так как может научить тому, как надо и как не надо: может, кратного роста компании она не даст, но сэкономить x2-3 стоимости билета - весьма-весьма вероятно.
Привет, товарищи-статистики!
Если что-то рекомендовать и рекламировать, то именно то и только то, чем пользуешься и что любишь сам. Это мой добровольный PR-пост в поддержку конференции, которую я глубоко уважаю и в которой принимал участие и как слушатель, и как помощник в организации, и как выступающий. Данная конференция, как и Aha, одна из тех, кто посетить нужно обязательно: каждый раз было много полезного с точки зрения как что-то работает, куда можно копнуть дальше и пр.
В этом году я также буду выступать вместе со своим коллегой, Ваней Щербаком, с темой "Дизайн-документ по A/B для разных сценариев от команды «Пятерочка»" (мы будем в онлайн-секции). Доклад нацелен на джунов и всех тех, кто хочет делать дизайн эксперимента как по учебнику с соблюдением всех стандартов. Не мудреный какой-то там ML, но мое любимое - очередная порция базы.
Вот программа, очень крутая: очевидный ход это заранее ее посмотреть всю, выделить для себя интересные доклады и план на конфу готов! Только обязательно оставьте время для общения у кофе, его, общения, как правило, очень много, даже если вы его не планировали)
Конференция будет идти 3 дня: онлайн часть, где как раз будет наш доклад в том числе, 29 октября, и 7-8 ноября оффлайн в Москве, МГУ, кластер «Ломоносов», Раменский бульвар 1.
Купить билеты вы можете по ссылке. Конечно, есть промокод на 15%: ABBATESTING15. Вы можете мне сказать, ну блин, че-то все равно дорого. А я вам отвечу: для вас или все же для вашей компании, требующей YtY кратного роста и которая вроде как обещала вам при трудоустройстве оплату обучения и вот этого всего? Это конфа стоит того, чтобы ее посетить, так как может научить тому, как надо и как не надо: может, кратного роста компании она не даст, но сэкономить x2-3 стоимости билета - весьма-весьма вероятно.
🔥10
Привет, товарищи-статистики!
Обещал пост о личном, а напишу снова о статистике: поговорим о спорной теме.
Кажется, что, в общем-то, есть два способа протестировать среднее:
1. Сделать assumption, что наше воздействие не повлияет на дисперсию, поэтому t-test
2. Вполне справедливо не сделать такого assumption ("А на каких основаниях, собственно?"), поэтому передать в функции t-test, что дисперсии не равны, превратив t-test в Welch test.
Вы можете подумать, что вас спрашивают, равны ли дисперсии выборок - нет, спрашивают как раз именно об изменения дисперсии популяции под воздействием тритмента. Да и к тому же, дисперсии выборок в абсолютном значении почти никогда не будут равны.
Но есть вроде бы логичный выход, это провести предварительный тест дисперсии (preliminary test). Или это не выход? Давайте разбираться.
Обещал пост о личном, а напишу снова о статистике: поговорим о спорной теме.
Кажется, что, в общем-то, есть два способа протестировать среднее:
1. Сделать assumption, что наше воздействие не повлияет на дисперсию, поэтому t-test
2. Вполне справедливо не сделать такого assumption ("А на каких основаниях, собственно?"), поэтому передать в функции t-test, что дисперсии не равны, превратив t-test в Welch test.
Но есть вроде бы логичный выход, это провести предварительный тест дисперсии (preliminary test). Или это не выход? Давайте разбираться.
🔥5❤1
Привет, товарищи-статистики!
Или, как мы дошутились с коллегой Валерой, товарищи, - представили субкультуры,- абешники и абешницы.
В посте выше я вскользь написал, что мне в принципе понятна мотивация делать ошибочных ход: проверять тестом на нормальность выборку для t-test'a. Но думаю, было бы полезно объяснить почему это ход даже не столько ошибочный, сколько бессмысленный.
Продолжение бессмыслицы.
+ неожиданным образом пришлось откомментировать пост глубоко уважаемого мною Филлипа Ульянкина в попытке уменьшить разночтения от моих слов, слов коллег из X5 и Филлипа в голове тех, кто только трогает статистику
В посте выше я вскользь написал, что мне в принципе понятна мотивация делать ошибочных ход: проверять тестом на нормальность выборку для t-test'a. Но думаю, было бы полезно объяснить почему это ход даже не столько ошибочный, сколько бессмысленный.
Продолжение бессмыслицы.
+ неожиданным образом пришлось откомментировать пост глубоко уважаемого мною Филлипа Ульянкина в попытке уменьшить разночтения от моих слов, слов коллег из X5 и Филлипа в голове тех, кто только трогает статистику
👍7🔥3
Привет, товарищи-статистики!
Я, наконец-то, дописал статью про мета-анализ, о котором менее строго писал ранее в канале.
https://habr.com/ru/companies/X5Tech/articles/862202/
Что важно:
- в статье есть обещанный разбор тестирования зависимых гипотез.
- формализованный вывод метода Фишера через преобразование случайной величины
- рассмотрены еще ряд статистик для независимых тестов
Постарался как и всегда дать это максимально просто, надеюсь, получилось.
Статья большая, не меньше, чем я написал про Mann-Whitney, но должна быть максимально исчерпывающей.
P.S. Аналитик из Gett - это Дима, @DVars, спасибо и тебе за мотивацию написать эту простыню)
Я, наконец-то, дописал статью про мета-анализ, о котором менее строго писал ранее в канале.
https://habr.com/ru/companies/X5Tech/articles/862202/
Что важно:
- в статье есть обещанный разбор тестирования зависимых гипотез.
- формализованный вывод метода Фишера через преобразование случайной величины
- рассмотрены еще ряд статистик для независимых тестов
Постарался как и всегда дать это максимально просто, надеюсь, получилось.
Статья большая, не меньше, чем я написал про Mann-Whitney, но должна быть максимально исчерпывающей.
P.S. Аналитик из Gett - это Дима, @DVars, спасибо и тебе за мотивацию написать эту простыню)
Хабр
Гайд по мета-анализу результатов тестов
Привет! На связи команда аналитиков «Пятёрочки» X5 Tech. Подсчитать и проанализировать можно не только A/B, но также подвергнуть анализу ряд тестов с общей нулевой гипотезой. Другими словами,...
❤19🔥9
Привет, товарищи-статистики!
На днях вышла статья коллег из X5: “Diff-in-diff: жизнь за пределами идеального эксперимента”, о том, как метод Diff-in-Diff помогает бороться со смещенным отбором (selection bias). Крайне рекомендую к прочтению, так как написано со всеми необходимыми вводными и, - что я очень люблю, - интуицией метода. А так как метод использует линейные модели, то ребята наглядно (что тоже люблю) показали, что будет, если не учитывать смещение отбора или/и тренд как со стороны оценки эффекта, так и со стороны ошибок 1-го рода.
Единственное, что я добавлю от себя, это попробую чуть больше рассказать про ковариационную матрицу в контексте гомоскедастичности ошибок регрессии, чтобы постараться сделать статью нагляднее (при всем уважении к ребятам).
Читать далее про ковариационную матрицу.
На днях вышла статья коллег из X5: “Diff-in-diff: жизнь за пределами идеального эксперимента”, о том, как метод Diff-in-Diff помогает бороться со смещенным отбором (selection bias). Крайне рекомендую к прочтению, так как написано со всеми необходимыми вводными и, - что я очень люблю, - интуицией метода. А так как метод использует линейные модели, то ребята наглядно (что тоже люблю) показали, что будет, если не учитывать смещение отбора или/и тренд как со стороны оценки эффекта, так и со стороны ошибок 1-го рода.
Единственное, что я добавлю от себя, это попробую чуть больше рассказать про ковариационную матрицу в контексте гомоскедастичности ошибок регрессии, чтобы постараться сделать статью нагляднее (при всем уважении к ребятам).
Читать далее про ковариационную матрицу.
Telegraph
Ковариационная матрица для оценки гомоскедастичности ошибок регрессии
Давайте рассмотрим некоторого школьника “111” и его результаты 10 проверочных работ по одному и тому же предмету. [81, 80, 79, 72, 72, 70, 69, 77, 77, 76] Результаты записаны последовательно, перед нами условная временная линия: На графике зеленым выделена…
🔥12👍1
Привет, товарищи-статистики!
Сегодня пост про одно из мои важных достижений, которые не касаются работы (итоги года может завтра подведу). Я получил свидетельство частного пилота, теперь пилот значит.
На самом деле бумажка у меня на руках еще с октября, мне казалось, что я быстро напишу пост по мотивам, но в итоге написал пока первую часть, вторую попозже.
Вот, делюсь впечатлениями, каково оно учиться нынче пилотировать однодвигательный летательный, надеюсь, вам будет интересно:
Читать про причастие к небу, часть-1
Сегодня пост про одно из мои важных достижений, которые не касаются работы (итоги года может завтра подведу). Я получил свидетельство частного пилота, теперь пилот значит.
На самом деле бумажка у меня на руках еще с октября, мне казалось, что я быстро напишу пост по мотивам, но в итоге написал пока первую часть, вторую попозже.
Вот, делюсь впечатлениями, каково оно учиться нынче пилотировать однодвигательный летательный, надеюсь, вам будет интересно:
Читать про причастие к небу, часть-1
🔥39👍1
И, конечно, хочу выразить пожелания всем вам в Новом Году, дорогие товарищи-статистики!
Во-первых, я бы хотел, чтобы каждый из вас следовал своим мечтам и желаниям, не сходите с курса те, кто на нем, ищите свой, кто ещё не нашелну и на мой заглядывайте :)
Во-вторых, вероятно, большая часть из нас тут рабочие люди, а потому желаю, чтобы если вы и будете менять работу в 25-м (и далее тоже), то по своей воле и своих условиях, а не по "обоюдному согласию".
В-третьих, всем, в том числе всем вашим близким, откуда вы ни были, любви, благополучия, мира и здоровья. Действительность показывает, что это сейчас уже давно в дефиците.
С наступающим Новым Годом, ребята!
Во-первых, я бы хотел, чтобы каждый из вас следовал своим мечтам и желаниям, не сходите с курса те, кто на нем, ищите свой, кто ещё не нашел
Во-вторых, вероятно, большая часть из нас тут рабочие люди, а потому желаю, чтобы если вы и будете менять работу в 25-м (и далее тоже), то по своей воле и своих условиях, а не по "обоюдному согласию".
В-третьих, всем, в том числе всем вашим близким, откуда вы ни были, любви, благополучия, мира и здоровья. Действительность показывает, что это сейчас уже давно в дефиците.
С наступающим Новым Годом, ребята!
👍17❤15💯2
Пока продолжение про полёты пишется, подведу свои итоги года, тем более Новый год на носу.
Достижения за год (по работе в целом):
- Как оказалось, курс в ноябре этого года отметил свой годик, а на текущий момент идет уже 7-ой поток, перевалили за базу! И за год я курс перелопатил прилично (при том, что горжусь и самым первым). Похоже, что в 8-ом потоке будет почти 30 встреч!
- Прочитал курс внутри X5 команде, а там ребята все мозговитые, накидывали вопросы по теории и математике без стеснения только так. Свои накинут похлеще всех прочих)
- Наша команда так-то вообще очень славно поработала в этом году. Мне кажется, мы сейчас в самом, как говорится, "ресурсном" состоянии. И это при прекрасной атмосфере. Ребят, если читаете это, вы молодцы и большое вам спасибо!
- Кажется выполнил цель по передаче всех знаний своему джуну Ване как минимум по A/B. Теперь он даст фору ОЧЕНЬ многим по A/B, в том числе сеньорам. Теперь A/B дизайнит/считает не глядя. Горжусь тобой, Ваня! Ну и кстати, передаю по секрету его слова про статистику: "действительно, надо именно понять, без этого хоть тысячу тестов сделай - не поймешь". А я что? "А я говорил" (c)
- Обо мне хорошо осведомлен департамент, который делает A/B в оффлайне и вообще вся методологи X5. Дизайны Вани хвалят, как по учебнику говорят. Ну а то!
- 3 статьи, две прям фундаментальные по базе: Мета-анализ и Mann-Whitney, последнюю писал год.
- Несколько внешних выступлений и уже 2-ое выступление вместе с Ваней на Матемаркетинге! Я бы рад и первому, но 2 это уже, имхо, весомо.
- Вообще, разделю утверждение Юры Борзило, о том, что нравится развивать культуру A/B, объяснять, рассказывать об этом, преподавать. Делал, получал удовольствие!
В 25-ом году есть мысли больше понять про LLM, RL. Точнее укрепить теор. базу, чтобы лучше понимать вектор департамента, у нас этим плотно занялись, хочется больше быть в контексте, ML-то так-то не особо интересен, скучновато. То ли дело применять в 100-ый раз t-test,всегда как в первый раз.
Ну и курс улучшать!
Из личного:
- Еще один прекрасный год с любимой и дорогой супругой. Кажется, ты, Вика, улыбалась в этом году больше, чем в прошлом)
- Съездили второй раз в жизни на Мальдивы. Пост напишу. Пока кратко скажу следующее: один раз туда точно съездить стоит, хотя бы на недельку. Это дорого, но стоит той дозы эндорфинов в глаза, сердце и душу.
- Получил, наконец, лицензию пилота. Конечно, я зелень зелёная, но и не в самом начале.
- Вместе с братом откапиталили гараж: честно, на него было страшно смотреть уже, а входить так вообще. Сейчас будто новый! Приятно.
- Добрался до последней фазы лечения зубов, правда, на самой дорогой. Однако путь был долгий. Закончу, поделюсь.
- На даче садили новые плодовые деревья, еще и виноград.
В новом году поехать бы в Японию (Влад, Артур, это все ваше влияние, засранцы): говорят, еда и проживание дешевле чем в Питере, а по атмосфере будто в будущее попал. Хотеть.
Что было не очень:
- У меня был выраженный дисбаланс в сторону работы. Мне нравится работать, но я понял, что стал согласен с фразой "жизнь по календарю это свобода", эх. Да, приходится планировать уже более чем на неделю далеко не только календарь X5.
- Из-за этого я меньше отдавал времени хобби, и мы меньше куда выбирались, больше все работа и работа. А ведь мне скучновато делать одно и тоже, хочется больше разнообразия. Тем более, что вылазки делают жизнь насыщеннее, она не так быстро пробегает! А так работаешь и раз, месяц прошёл. Wat!?
- В это лето ни разу не выехали с Викой на конные прогулки, чтоб в полях этих хитрых ссыкунов (при всей любви) пустить в галоп. И это при том, что мы нашли комфортную конюшню/
- На даче мало перегнали яблок и прочего, да и вообще как-то не шла жизнь деревенская этим летом.
- Скучал по тренажерному залу, а он там у меня ух какой: гири, штанги и прочие снаряды на любой вкус. С одной стороны сил не было ездить, а с другой я потянул ногу по своей глупости. Ну хоть дома есть пара снарядов)
Буду рефлексировать, благо есть время подумать.
Достижения за год (по работе в целом):
- Как оказалось, курс в ноябре этого года отметил свой годик, а на текущий момент идет уже 7-ой поток, перевалили за базу! И за год я курс перелопатил прилично (при том, что горжусь и самым первым). Похоже, что в 8-ом потоке будет почти 30 встреч!
- Прочитал курс внутри X5 команде, а там ребята все мозговитые, накидывали вопросы по теории и математике без стеснения только так. Свои накинут похлеще всех прочих)
- Наша команда так-то вообще очень славно поработала в этом году. Мне кажется, мы сейчас в самом, как говорится, "ресурсном" состоянии. И это при прекрасной атмосфере. Ребят, если читаете это, вы молодцы и большое вам спасибо!
- Кажется выполнил цель по передаче всех знаний своему джуну Ване как минимум по A/B. Теперь он даст фору ОЧЕНЬ многим по A/B, в том числе сеньорам. Теперь A/B дизайнит/считает не глядя. Горжусь тобой, Ваня! Ну и кстати, передаю по секрету его слова про статистику: "действительно, надо именно понять, без этого хоть тысячу тестов сделай - не поймешь". А я что? "А я говорил" (c)
- Обо мне хорошо осведомлен департамент, который делает A/B в оффлайне и вообще вся методологи X5. Дизайны Вани хвалят, как по учебнику говорят. Ну а то!
- 3 статьи, две прям фундаментальные по базе: Мета-анализ и Mann-Whitney, последнюю писал год.
- Несколько внешних выступлений и уже 2-ое выступление вместе с Ваней на Матемаркетинге! Я бы рад и первому, но 2 это уже, имхо, весомо.
- Вообще, разделю утверждение Юры Борзило, о том, что нравится развивать культуру A/B, объяснять, рассказывать об этом, преподавать. Делал, получал удовольствие!
В 25-ом году есть мысли больше понять про LLM, RL. Точнее укрепить теор. базу, чтобы лучше понимать вектор департамента, у нас этим плотно занялись, хочется больше быть в контексте, ML-то так-то не особо интересен, скучновато. То ли дело применять в 100-ый раз t-test,
Ну и курс улучшать!
Из личного:
- Еще один прекрасный год с любимой и дорогой супругой. Кажется, ты, Вика, улыбалась в этом году больше, чем в прошлом)
- Съездили второй раз в жизни на Мальдивы. Пост напишу. Пока кратко скажу следующее: один раз туда точно съездить стоит, хотя бы на недельку. Это дорого, но стоит той дозы эндорфинов в глаза, сердце и душу.
- Получил, наконец, лицензию пилота. Конечно, я зелень зелёная, но и не в самом начале.
- Вместе с братом откапиталили гараж: честно, на него было страшно смотреть уже, а входить так вообще. Сейчас будто новый! Приятно.
- Добрался до последней фазы лечения зубов, правда, на самой дорогой. Однако путь был долгий. Закончу, поделюсь.
- На даче садили новые плодовые деревья, еще и виноград.
В новом году поехать бы в Японию (Влад, Артур, это все ваше влияние, засранцы): говорят, еда и проживание дешевле чем в Питере, а по атмосфере будто в будущее попал. Хотеть.
Что было не очень:
- У меня был выраженный дисбаланс в сторону работы. Мне нравится работать, но я понял, что стал согласен с фразой "жизнь по календарю это свобода", эх. Да, приходится планировать уже более чем на неделю далеко не только календарь X5.
- Из-за этого я меньше отдавал времени хобби, и мы меньше куда выбирались, больше все работа и работа. А ведь мне скучновато делать одно и тоже, хочется больше разнообразия. Тем более, что вылазки делают жизнь насыщеннее, она не так быстро пробегает! А так работаешь и раз, месяц прошёл. Wat!?
- В это лето ни разу не выехали с Викой на конные прогулки, чтоб в полях этих хитрых ссыкунов (при всей любви) пустить в галоп. И это при том, что мы нашли комфортную конюшню/
- На даче мало перегнали яблок и прочего, да и вообще как-то не шла жизнь деревенская этим летом.
- Скучал по тренажерному залу, а он там у меня ух какой: гири, штанги и прочие снаряды на любой вкус. С одной стороны сил не было ездить, а с другой я потянул ногу по своей глупости. Ну хоть дома есть пара снарядов)
Буду рефлексировать, благо есть время подумать.
❤16👍3