Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
- Telegram Web
Telegram Web
Привет, товарищи статистики!

Сегодня завершился 5-ый поток по A/B, в рядах стат. секты прибыло :)

1. И в этот раз я снова сделал это: пополнил курс еще 4-ям лекциям, что изменило оный и превратило в cплав базовых и продвинутых тем (которые входу в индустрии).

Вот как это было: к моменту 2-3 встречи, я понял, что не могу не сделать рассказ про Cuped; не могу оставить в стороне Sequential; что нужно разбивать тему про множественное тестирование на несколько встреч, освещая что это такое и как к этому снаряду приступить с нескольких сторон, рассказ про тест Tukey, Dunnett'a, метаанализ Фишера и пр. Итого это дало +3 встречи. Еще одна стала результатам разделение на части уже готового материала про бутстрап и линеаризацию с последующим расширением и того, и другого. Теперь все стало еще понятнее, особенно в части проблемы с линеаризацией.

Поэтому уже второй раз (простите) обращаюсь к участникам предыдущих потоков: сделайте мне второе одолжение и посмотрите, пожалуйста, 12, 13, 14 и 15-ую лекции. Ну или хотя бы про 12-ую про CUPED (там все с картинками и пр.). Или напишите мне, чтобы попасть в момент, когда я буду вести это все у 6-го потока.

Отдельно скажу, что верстка с нуля трех не самых простых тем вызвала во мне флэшбеки того, как я потратил на самую первую версию курса львиную долю прошлого лета, так себе впечатления скажу.

2. Курс почти прошел негласную аккредитацию в родимом X5: сейчас дочитываю последние лекции, вроде как все ок! Фууууух! В общем, это вселило больше уверенности в созданном материале. Хотя даже не представляю, каково было коллегам пересидеть 1-ую и 2-ую встречу про базовую базу.

3. Начинаю набор на 6-ый поток. Мне также нужна пауза - пара недель перед его стартом.
Список актуальных тем на 2-ой картинке, о чем они - тут.

Цену оставляю пока той же - 35к (а материала уже больше!). По сути ничего не изменилось с прошлого набора: "каждый поток веду лично, оказывая максимальное сопровождение по материалу; веду с удовольствием, в душе педагог; подача такая, будто надо объяснить детям, чтобы они могли объяснить это другим детям"

Обучение идет по вечерам по Мск, 2-3 раза в неделю, полтора месяца.
Отзывы прилагал ранее, приложу и сейчас + обращенные есть в этом чате, welcome в комменты)

Желающие "пристатиститься" cмело мне пишите в ЛС :) О тех, кто уже это сделал, я помню, напишу.
Привет, товарищи статистики!

Все собирался пост написать, да не мог. Но в моем случае часто работает "спросили интересный вопрос" -> "родился пост". В общем, благодаря беседе в чате Юры Борзило и вопросу Сергея в частности (спасибо!) этот пост и появился (но немного с другой постановкой вопроса):

"Допустим запустили мы АБ, получили p-value 0.051 (уровень значимости alpha = 0.05), что делать?"
Привет, товарищи статистики!

Держите в конце рабочей недели первую часть про введение в психо мета-анализ: разберемся в основной сути метода Фишера для независимых гипотез (это когда у нас из теста в тест конкретной фичи идет разная конфигурация юзеров/объектов в A/B), попутно ответив на вопрос, почему комбинация [0.051, 0.051] стат. значима. Точнее не то, что ответим, а все как я люблю - увидим это.

Тест комбинированной вероятности Фишера, ч-1, основная суть.

В следующий раз пройдемся по преобразованию для этого метода. Какому и зачем? А в статье все написано, читайте!
Привет, товарищи статистики!

Я вам тут 2-ю часть про метод Фишера принес (1-ая выше):

Тест комбинированной вероятности Фишера, ч-2, преобразование и "вывод" формулы

Надеюсь, вопрос об оперируемой формуле этого мета-анализа для вас снимется. Have fun!
Привет, comrades statisticians!

Наконец-то 3-ая заключительная часть про мета-анализ независимых гипотез (вот первая и вторая)

Мы подробно рассмотрим weighted combined z-score, который на мой взгляд имеет ряд преимуществ в сравнении с Fisher's method.

Мета-анализ: weigthed combined z-score, ч-3

Чуть позже возьмемся за зависимые гипотезы.
Приятного чтения!
Привет, товарищи статистики!

А знаете ли вы, что одной поваренной книге по A/B "Practitioner’s Guide to Statistical Tests" от VK Team, к которой я время от времени возвращаюсь, базовое заклинание "assumption" встречается 46 раз?

Один из авторов статьи - Никита Маршалкин, когда-то дал интересное интервью Толе Карпову. Ох, оказывается 4 года прошло с тех пор.

Так вот, до сих пор помню пару моментов в этом интервью:
1. (это я понял задним числом) Когда он говорил про метрику отношений, - тот же средний чек, - но тогда он ее так не называл (правда тогда ее так никто особо и не называл), он приводил пример про CTR. Он его разделял на глобальный CTR, то есть CTR множества (группы), и на локальный CTR, то есть CTR на юзера.

Вот думаю, что "глобальный/локальный" - хорошие определения в этом контексте.

2. Его высказывание про книгу "Thustworthy Online Controlled Experiments" от Рона Кохави: "Все статьи можно выбросить, прочитать только это книжку". Книжка действительно очень хорошая, но с ней вот какая штука: она полезна уже тем, кто понимает A/B, хотя бы базу, как оно работает (я про критерии); а вот тем, кто только начал свой путь - скажем так, она хуже не сделает, но и не особо поможет. Но если собирётесь читать, то читайте на английском, на русском хватало опечаток!

3. Хорошие объяснения разных подходов по сплитованию трафика, bootstrap. Но особенно запомнилось рассуждение того, как A/B проводятся в маленькими компаниями в сравнении с большими: когда продукт только на старте, важны большие эффекты, что само по себе требует мало аудитории, а когда продукт уже развит и у него большая аудитория, то эффекты ожидаются не столь большие (все самые бустящие/важные/критичные вещи внедрены/пофикшены), но и MDE на такой аудитории можно отлавливать меньше.

В этом смысле я сейчас думаю о графике MDE vs размер аудитории (2-ая картинка). Что большой MDE вполне имеет право на жизнь, но только если вы стартап. Но когда вы уже большие, вам следует ориентироваться в основном на малый прирост. Менять местами ожидания, - стартапу подавать малый MDE, крупному ребятам - большой MDE, - значит для первых делать бесконечный тест (так как большой размер выборки нужен), а для вторых - ничего не менять на продукте (так как ну вряд ли будет такой эффект). И то и другое тупиковый путь.

Со статьей и интервью рекомендую ознакомиться, если не видели.
Привет, товарищи-статистики!

—ВВОДНАЯ—
Я должен был написать продолжение про мета-анализ общей зависимой гипотезы, но, во-первых, на телеграфе с некоторых пор баг, который не позволяет ставлять картинки; во-вторых, я уже пишу статью на Хабр про мета-анализ, где про зависимую гипотезу будет в том числе. Идет статья со скрипом, мои рецензенты как следует дали мне продышаться по методу Фишера, переписываю в том числе и ту часть.

Сегодня напишу по теме, про которую долго думаю, про которую меня позавчера спросили на финальной встрече потока (спасибо за вопрос, Кристина), да и еще к тому же Юра дал ссылку на пост про MDE, который тож триггернул. В общем, пора!

Итак, будем говорить о том, что я для себя называю как "макс. эффект / эффект, которого "скорее всего точно нет"" (возможно, придумываю колесо и все уже есть, просто не встречал что-то подобное). И должен сказать, что нет уверенности в том, чем хочу поделиться.

—ТЕМА ПОСТА—
Вводные:
- Мы дизайним тест: пускай сигма = 2, классические параметры альфа, мощности (0.05 / 0.8) и доступный размер аудитории на группу по 100, получаем MDE = 0.792
- Помним, что мощность определяется как вероятность обнаружить эффект, если он есть. Проблема в том, что на практике мы, конечно, не знаем, есть ли эффект на самом деле или нет, даже с учетом стат. значимого теста (ошибка 1-го рода).

Так вот, меня давно очень интересует на этапе дизайне другое значение MDE, когда максимизируешь мощность, например, до 0.99, назовем это MDE №2 [1.212]. Получаем при этом ошибку 2-го рода 1%.

Почему думаю об этом? Вот мы проводим тест и он не стат. значимый (тут я специально проводил А/А). При этом обычное дело - строим дов. интервал эффекта, скажем [-0.12, 1.08], однако он говорит лишь о том, что с некоторой надежностью (1-alpha) охватывает истинный эффект. Его правая граница, 1.08, может принимать и другие значения, но в принципе с оговорками она дает нам оценку максимального эффекта, так как интервал мог быть и другим.

Но что если зайти со стороны MDE №2? А он, кажется, про "эффект, которого "точно" нет". Почти, так как по логике получается, у нас, как будто, уже 99% против 1%, что такого MDE №2 и более эффекта нет в рамках нашего результата. Более того, А/А симуляция доверительных интервалов эффекта с точки зрения абсолютного максимального значения приближалась к этому MDE №2.

То есть такая мера как MDE №2 = 1.212 в рамках не стат.значимого теста дает, даже с учетом мощности всего 0.99 оценку вашего максимального выхлопа, если ошибка 2-го рода имела место. При этом он прям маловероятен. Ни больше, ни меньше. По идее.

И вроде как оно тем лучше дов. интервала эффекта в таком контексте, что интервал вариативен и правая сторона гуляет, (что можно попробовать решить через бутстрап, например), а MDE №2, условно, предел. Только надо балансировать этот MDE №2 на полученные размеры групп, все-таки плюс-минус размер будет разбегаться от ожидаемого.

Зачем оно нужно?
Дело в том, что тест не запрещает катить нестат. значимый результат, более того, такое может произойти. И вот подобная оценка как будто способна дать. доп. информацию о том, а стоит ли это того? Если конкретизировать: "твой максимум c вероятностью 1% это 1.212, при этом может стать хуже (по дов. интервалу) на -0.12 + ресурсы на раскатку, как тебе с этим?"

Проблемы:
- Возможно, это все-таки "говно без задач" + я мог ошибиться в рассуждениях.
- Мощность мощно изменить c 0.99 на 0.9999 и т.д. Как правильно? Правильно то, что вы принимаете для себя как предел ошибки 2-го рода, Beta. C альфой же для себя как-то разобрались :)
- Надо помнить, мы можем говорить о пределе только ссылкой на набор наших параметров в рамках теста: сигма, альфа, аудитория. Оно не может быть обобщающим.
Привет, товарищи-статистики!

В полку свидетелей A/B прибыло: недавно завершился 6-ой поток, самый большой из всех на данный момент! Отзывы выше, и это лишь их часть, остальное как соберу, закину в комменты.

Ух, это было непросто, но теперь я больше уверен в том, какой размер группы мне по плечу так, чтобы это было максимально комфортно группе. ну и чтобы я не закончился.

1. Занятий снова стало больше, так как разбил блок по множественному тестированию, чтобы они легче усвоились. Для всех, кто был ранее, только их и рекомендую пересмотреть, особенно часть про A/B и много метрик, там я переосмыслил процедуры первичной проверки и рассказал про тест Hotelling'a.

Для следующего потока я также подумываю некоторый материал разбить на части, например, Хи-Квадрат и Бутстрап.

2. Материал каждой встречи также был переработан в сторону большей атомизации для более последовательной подачи. Это делалось для того, чтобы упростить восприятие и снизить темп повествования, хотя все равно есть фидбек, что быстровато. Услышал, думаю, как себя притормозить.

Существенно дополнил и то, что я пишу до и после встреч. Например, теперь мы вспоминаем элементы школьного курса алгебры, разбирая, например, операции возведения в степень и взятия логарифма.

Добавлены и материалы про ковариацию и корреляцию. В рамках следующего потока немного иначе расскажу про стандартную ошибку, кажется текущая версия проще и вообще еще больше опирается на логику, чем математику.

(не покидает ощущение, что я пишу об очередном релизе будь то приложения/патча :))

4. У меня есть желание дополнить материал к новому потоку про синтетический контроль с заходом через анализ временных рядов: AR, MA, ARMA и вот это все, чтоб окончательно закрыть 2-3% специфического тестах. Это материал, если и будет, то в формате "beta", а потому на цене никак не скажется до тех пор, пока не отшлифуется.

Тестирование по Байесу я также хотел бы, вся подводка в наличии, но, пожалуй, пока воздержусь (прости, Виктор).

5. Также есть запрос на колабы/ноутбуки и еще доп. ДЗ на достаточно частные темы. Хоть по тому и другому я все еще придерживаюсь позиции, что "если оно нужно, значит мы пошли куда-то не туда в плане представленного материала", но глас народа важнее. В целом пока есть идея сделать больше подводок к дизайну тестов, расширяя пример из встречи ко встречи, чтобы к выпускному заданию вы были готовы по максимум.

Продолжение далее.
6. Ну и начинаю неспешный набор на 7-ой поток "Наглядное АB-тестирование: от основ до современных стандартов" (спасибо моему коллеге Петру за помощь в названии название), старт примерно во второй половине ноября, так как нужна передышка + время на дополнения + отпуск;

Те, кто писал ранее - о вас помню, вы записаны.

Список актуальных тем на скрине, о чем они - тут.

Цена пока та же - 35к, условия те же: "каждый поток веду лично, оказывая максимальное сопровождение по материалу; веду с удовольствием, в душе педагог; подача такая, будто надо объяснить детям, чтобы они могли объяснить это другим детям"

Обучение идет по вечерам, в 19 по Мск, 2-3 раза в неделю, не менее 2-х месяцев.

Желающие стать свидетелями Госсета и Фишера, пишите смелее в ЛС :)

P.S. В следующих постах поговорим об одной важной конфе, потом (не)много о личном и далее вновь мета-анализе, но со стороны непараметрики.
Матемаркетинг 2024

Привет, товарищи-статистики!

Если что-то рекомендовать и рекламировать, то именно то и только то, чем пользуешься и что любишь сам. Это мой добровольный PR-пост в поддержку конференции, которую я глубоко уважаю и в которой принимал участие и как слушатель, и как помощник в организации, и как выступающий. Данная конференция, как и Aha, одна из тех, кто посетить нужно обязательно: каждый раз было много полезного с точки зрения как что-то работает, куда можно копнуть дальше и пр.

В этом году я также буду выступать вместе со своим коллегой, Ваней Щербаком, с темой "Дизайн-документ по A/B для разных сценариев от команды «Пятерочка»" (мы будем в онлайн-секции). Доклад нацелен на джунов и всех тех, кто хочет делать дизайн эксперимента как по учебнику с соблюдением всех стандартов. Не мудреный какой-то там ML, но мое любимое - очередная порция базы.

Вот программа, очень крутая: очевидный ход это заранее ее посмотреть всю, выделить для себя интересные доклады и план на конфу готов! Только обязательно оставьте время для общения у кофе, его, общения, как правило, очень много, даже если вы его не планировали)

Конференция будет идти 3 дня: онлайн часть, где как раз будет наш доклад в том числе, 29 октября, и 7-8 ноября оффлайн в Москве, МГУ, кластер «Ломоносов», Раменский бульвар 1.

Купить билеты вы можете по ссылке. Конечно, есть промокод на 15%: ABBATESTING15. Вы можете мне сказать, ну блин, че-то все равно дорого. А я вам отвечу: для вас или все же для вашей компании, требующей YtY кратного роста и которая вроде как обещала вам при трудоустройстве оплату обучения и вот этого всего? Это конфа стоит того, чтобы ее посетить, так как может научить тому, как надо и как не надо: может, кратного роста компании она не даст, но сэкономить x2-3 стоимости билета - весьма-весьма вероятно.
Привет, товарищи-статистики!

Обещал пост о личном, а напишу снова о статистике: поговорим о спорной теме.

Кажется, что, в общем-то, есть два способа протестировать среднее:
1. Сделать assumption, что наше воздействие не повлияет на дисперсию, поэтому t-test
2. Вполне справедливо не сделать такого assumption ("А на каких основаниях, собственно?"), поэтому передать в функции t-test, что дисперсии не равны, превратив t-test в Welch test.
Вы можете подумать, что вас спрашивают, равны ли дисперсии выборок - нет, спрашивают как раз именно об изменения дисперсии популяции под воздействием тритмента. Да и к тому же, дисперсии выборок в абсолютном значении почти никогда не будут равны.

Но есть вроде бы логичный выход, это провести предварительный тест дисперсии (preliminary test). Или это не выход? Давайте разбираться.
Привет, товарищи-статистики!
Или, как мы дошутились с коллегой Валерой, товарищи, - представили субкультуры,- абешники и абешницы.

В посте выше я вскользь написал, что мне в принципе понятна мотивация делать ошибочных ход: проверять тестом на нормальность выборку для t-test'a. Но думаю, было бы полезно объяснить почему это ход даже не столько ошибочный, сколько бессмысленный.

Продолжение бессмыслицы.

+ неожиданным образом пришлось откомментировать пост глубоко уважаемого мною Филлипа Ульянкина в попытке уменьшить разночтения от моих слов, слов коллег из X5 и Филлипа в голове тех, кто только трогает статистику
Привет, товарищи-статистики!

Я, наконец-то, дописал статью про мета-анализ, о котором менее строго писал ранее в канале.
https://habr.com/ru/companies/X5Tech/articles/862202/

Что важно:
- в статье есть обещанный разбор тестирования зависимых гипотез.
- формализованный вывод метода Фишера через преобразование случайной величины
- рассмотрены еще ряд статистик для независимых тестов

Постарался как и всегда дать это максимально просто, надеюсь, получилось.

Статья большая, не меньше, чем я написал про Mann-Whitney, но должна быть максимально исчерпывающей.

P.S. Аналитик из Gett - это Дима, @DVars, спасибо и тебе за мотивацию написать эту простыню)
2024/12/22 09:47:55
Back to Top
HTML Embed Code: