Привет, товарищи-статистики!
Вчера мой товарищ Влад, с которым мы работали в X5 и который теперь работает в Авито, выдал ML-базу: bias-variance decomposition через очень последовательное переписывание MSE - среднеквадратичной ошибки как метрики, оценивающей результатах нашего моделирования.
Я встречался с этой метрикой много раз в рамках материалов про ML, как и с идей bias-variance tradeoff, но в таком виде MSE, в котором и есть буквально bias и variance, признаюсь, увидел впервые. Выглядит как очень красиво, наконец-то есть связь с tradeoff не просто на уровне логического осмысления, но и через метрику!
Влад очень последовательно показывает вывод с применением классических свойств дисперсии и мат. ожидания, поэтому за преобразованием следить очень легко! К тому же есть промежуточные пояснения и подробные комментарии - всё как я люблю, в общем.
P.S. И как-то странно получается, но не так давно видел замечательное видео про то, почему у MSE именно квадрат (это тоже считается классикой вывода), к материалу будет только в плюс, видео на английском
Вчера мой товарищ Влад, с которым мы работали в X5 и который теперь работает в Авито, выдал ML-базу: bias-variance decomposition через очень последовательное переписывание MSE - среднеквадратичной ошибки как метрики, оценивающей результатах нашего моделирования.
Я встречался с этой метрикой много раз в рамках материалов про ML, как и с идей bias-variance tradeoff, но в таком виде MSE, в котором и есть буквально bias и variance, признаюсь, увидел впервые. Выглядит как очень красиво, наконец-то есть связь с tradeoff не просто на уровне логического осмысления, но и через метрику!
Влад очень последовательно показывает вывод с применением классических свойств дисперсии и мат. ожидания, поэтому за преобразованием следить очень легко! К тому же есть промежуточные пояснения и подробные комментарии - всё как я люблю, в общем.
P.S. И как-то странно получается, но не так давно видел замечательное видео про то, почему у MSE именно квадрат (это тоже считается классикой вывода), к материалу будет только в плюс, видео на английском
🔥11❤4👎1
С прошедшим Днём международной солидарности трудящихся, товарищи!
Раз уж у нас идут последовательно праздники за праздниками, то почему бы не поговорить вновь и про последовательное тестирование, которое может позволить нам совершенно валидно остановить тест раньше времени?
На этот раз поговорим о Group Sequential Testing, который легко интерпретировать и внедрить, да и честно сказать, он мне стал нравится куда больше из-за своей простоты, чем mSPRT.
Вас ждут:
- Разбор Alpha-spending функции
- границы по Pocock
- метод Lan, Kim и DeMets
- Futility как возможность остановить тест, когда тщетны наши попытки эффект обнаружить
- Beta-spending от Pampallona и Kim как раз для Futility
В общем, читайте про Group Sequential Testing
Раз уж у нас идут последовательно праздники за праздниками, то почему бы не поговорить вновь и про последовательное тестирование, которое может позволить нам совершенно валидно остановить тест раньше времени?
На этот раз поговорим о Group Sequential Testing, который легко интерпретировать и внедрить, да и честно сказать, он мне стал нравится куда больше из-за своей простоты, чем mSPRT.
Вас ждут:
- Разбор Alpha-spending функции
- границы по Pocock
- метод Lan, Kim и DeMets
- Futility как возможность остановить тест, когда тщетны наши попытки эффект обнаружить
- Beta-spending от Pampallona и Kim как раз для Futility
В общем, читайте про Group Sequential Testing
Telegraph
Group Sequential Tests: очередное ускорение тестов
Наивная Alpha-Spending Для начала имеет смысл рассмотреть базовый наивный подход к снаряду, он нам нужен только для того, чтобы от него потом оттолкнуться в плане теории и не возвращаться! В момент подглядывания (оно же промежуточный анализ, interim analysis)…
🔥12❤1
Привет, сomrads-statisticians!
Пока пишу очередной пост-разбор по статистике, хочу порекомедовать конференцию по аналитике Aha!25, так считаю, что и как Матемаркетинг, это действительно мероприятие стоящие вашего времени и денег. Она пройдет 29-30 мая в Москве, МГУ, кластер «Ломоносов» (Раменский бульвар, 1).
Программа по ссылке
Сам я буду в этот раз слушателем онлайн, поэтому не смогу увидеть никого из аналитической тусочки, эх. Но расскажу, что хочу послушать, тут не будет ничего неожиданного, я бы сказал, тут прям база:
- Артем Ерохин, X5 Tech "Проксимируй это: как использовать прокси-метрики умнее?". Метрики - это самое сложное на мой взгляд в AB, с ними больше подводных, чем с критериями, а с прокси так вообще: пойди еще докажи, что они прокси для целевой. Артем расскажет про современный подход в работе с ними так, что fit - use (но это неточно)
- Диля Хакимова, Яндекс, "Формула доверия: аналитические доверительные интервалы для Ratio- и Uplift-метрик". Диля говорит, что ее материал уникален с точки зрения вывода, плюс будет полный гайд, ну посмотрим. Если все понравится - напишу может даже пост.
- Дарья Леонова, Garage8, "A/B-тесты для миддлов и продактов: как выйти за рамки "Просто запускаем эксперименты". Там хоть и будет про типичные ошибки и сценарии, но мало ли что-то новое проскочит. Главное, что обещала Дарья, это показать системный подход. Интересно его сравнить с нашим, можем дополню последний.
Ну и еще про временные ряды, то, что мне по душе уж который год:
- Александр Исаков, Яндекс.Лавка, "Как прогнозировать тысячи временных рядов и не сойти с ума". Во-первых, это опыт конкурента :), во-вторых, временные ряды, камон! Посмотрим, насколько Саша будет конкретен в своем докладе.
Билеты можно купить тут.
Да, недешево, но подразумевается, что купит их вам компания, в которой вы работаете: поэтому идите к HR и просите обещанное когда-то в вакансии - возможность посетить конференцию для собственного роста!
Промокод 15%
ABBATESTING15
Пока пишу очередной пост-разбор по статистике, хочу порекомедовать конференцию по аналитике Aha!25, так считаю, что и как Матемаркетинг, это действительно мероприятие стоящие вашего времени и денег. Она пройдет 29-30 мая в Москве, МГУ, кластер «Ломоносов» (Раменский бульвар, 1).
Программа по ссылке
Сам я буду в этот раз слушателем онлайн, поэтому не смогу увидеть никого из аналитической тусочки, эх. Но расскажу, что хочу послушать, тут не будет ничего неожиданного, я бы сказал, тут прям база:
- Артем Ерохин, X5 Tech "Проксимируй это: как использовать прокси-метрики умнее?". Метрики - это самое сложное на мой взгляд в AB, с ними больше подводных, чем с критериями, а с прокси так вообще: пойди еще докажи, что они прокси для целевой. Артем расскажет про современный подход в работе с ними так, что fit - use (но это неточно)
- Диля Хакимова, Яндекс, "Формула доверия: аналитические доверительные интервалы для Ratio- и Uplift-метрик". Диля говорит, что ее материал уникален с точки зрения вывода, плюс будет полный гайд, ну посмотрим. Если все понравится - напишу может даже пост.
- Дарья Леонова, Garage8, "A/B-тесты для миддлов и продактов: как выйти за рамки "Просто запускаем эксперименты". Там хоть и будет про типичные ошибки и сценарии, но мало ли что-то новое проскочит. Главное, что обещала Дарья, это показать системный подход. Интересно его сравнить с нашим, можем дополню последний.
Ну и еще про временные ряды, то, что мне по душе уж который год:
- Александр Исаков, Яндекс.Лавка, "Как прогнозировать тысячи временных рядов и не сойти с ума". Во-первых, это опыт конкурента :), во-вторых, временные ряды, камон! Посмотрим, насколько Саша будет конкретен в своем докладе.
Билеты можно купить тут.
Да, недешево, но подразумевается, что купит их вам компания, в которой вы работаете: поэтому идите к HR и просите обещанное когда-то в вакансии - возможность посетить конференцию для собственного роста!
Промокод 15%
ABBATESTING15
👍6🔥3❤1
Не пропускаем понедельник, товарищи-статистики!
Хотел продолжить серию про секвентальное тестирование, но уже довольно свежий (!) и интересный алгоритм показался мне прям сильно сложнее для объяснения, чем тот, что был ранее, поэтому сегодня поговорим про оценку кумулятивного эффекта - то, как несколько изменений, по которым были тесты, повлияли совместо.
Классическая и очень простая история это выделить глобальную контрольную группу, - holdout, - на которую какое-то время не будет распространяться никаких улучшений.
Но что если такую группу выделить по каким-то причинам невозможно, а оценить нужно?
Причины могут быть от технических допрое "забыли".
В начале года столкнулся с тем, что нужно было продумать, как оценить кумулятив при сценарии невозможности выделения holdout'a. И на методологию от Airbnb, которая мне очень пришлась по душе (так как математически выведена оценка!), меня навел Влад. Статья ниже написана в том числе благодаря его материалам, большое ему спасибо!
Статья начинается со слов "Winner's Curse", Проклятье победителя: смысл в том, что в рамках аукциона, где продается неких товар, победитель аукциона (а это часто наибольшая ставка) скорее всего заплатит больше, чем фактическая стоимость товара. Так и в рамках наивного суммирования эффектов от прошедших тестов - скорее всего оценка будет завышенной.
Разберем Winner's Curse: Bias Estimation for Total Effects of Features in Online Controlled Experiments
Хотел продолжить серию про секвентальное тестирование, но уже довольно свежий (!) и интересный алгоритм показался мне прям сильно сложнее для объяснения, чем тот, что был ранее, поэтому сегодня поговорим про оценку кумулятивного эффекта - то, как несколько изменений, по которым были тесты, повлияли совместо.
Классическая и очень простая история это выделить глобальную контрольную группу, - holdout, - на которую какое-то время не будет распространяться никаких улучшений.
Но что если такую группу выделить по каким-то причинам невозможно, а оценить нужно?
Причины могут быть от технических до
В начале года столкнулся с тем, что нужно было продумать, как оценить кумулятив при сценарии невозможности выделения holdout'a. И на методологию от Airbnb, которая мне очень пришлась по душе (так как математически выведена оценка!), меня навел Влад. Статья ниже написана в том числе благодаря его материалам, большое ему спасибо!
Статья начинается со слов "Winner's Curse", Проклятье победителя: смысл в том, что в рамках аукциона, где продается неких товар, победитель аукциона (а это часто наибольшая ставка) скорее всего заплатит больше, чем фактическая стоимость товара. Так и в рамках наивного суммирования эффектов от прошедших тестов - скорее всего оценка будет завышенной.
Разберем Winner's Curse: Bias Estimation for Total Effects of Features in Online Controlled Experiments
Telegraph
Оценка кумулятивного эффекта
Объяснение будет следовать согласно докладам как Влада, так и ребят из Airb'n'b. Пускай у нас есть ряд экспериментов, в которых мы получили следущее: Observed - это та дельта, что мы наблюдаем, а True - это истинная дельта, "что есть на самом деле". Как видно…
❤6👍4🔥1