Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
58 - Telegram Web
Telegram Web
4.1) Так как p-value непрерывная величина, то нельзя взять так просто и подсчитать вероятность конкретного p-value, поэтому вместо, например, P(p-value=0.05) мы возьмем P(0.0499 =< p-value <= 0.05). Сиська? Сиська! Почти тож самое, мать твою (с)

Поэтому считаем P(0.0499 =< p-value <= 0.05), а думаем о P(p-value=0.05)

4.2) На сгенерированных данных вышло следующее:
P(p-value|HA) = P(0.05|HA) = 0.028
P(p-value|H0) = P(0.05|H0) = 0.008
Смотрим картинку 5 - ну в целом размер желтого прямоугольника против синего в красном квадрате на то и похоже в плане пропорции.

5.1) Считаем P(HA|0.05) = (0.028*0.1) / (0.028*0.1+0.008*0.9) = 0.28 = 28%, КАРЛ.
То есть стат. значимый результат = 0.05 не ахти как перевзвешивает нашу гипотезу.
Такое себе.

5.2) А что будет, если взять p-value = 0.01 (интервал от 0.0099 до 0.01)? Картинка 6
P(p-value|HA) = P(0.05|HA) = 0.172
P(p-value|H0) = P(0.05|H0) = 0.01
P(HA|0.05) = (0.172*0.1) / (0.172*0.1+0.01*0.9) = 0.65 = 65%. И также не особо лучше.

Короче: теперь статистики всерьез задумались об альфе = 0.005. Потому что P(HA|0.005) стремится к 1. Ну и потому, что это как будто бы решает проблему репликации (повторяемости) исследований.
А все, что находится между 0.005 и 0.05 - это теперь "suggestive", гугл переводит это как на "наводящий на размышления", смешно: тест теперь не стат. значимый в этом диапазоне, а "наводящий на размышления", нах.

При этом это не предел для минимизации альфы, о, нет! (хе-хе)

Но об этом в следующий раз.
👍2
Поддержу тренд и расскажу, почему нужна n-1 в оценке выборочной дисперсии.
Картинки из моего курса по базе A/B вместо тысячи слов!

1. Выборочная дисперсия на малых выборках в среднем ниже дисперсии генеральной (тут для примера ГС = 4, а среднее по выборочной = 1.96)

Поэтому статистики, точнее товарищ Bessel, подумал, а почему бы нам ее просто не сместить на -1 ?

И вот результат: в среднем (но не в каждом конкретном случае!) у нас скорректированная оценка близка (3.85 vs 4) истинной. Клево, да?

2. Вообще-то, когда у вас выборки достаточно большие (таблица t значений намекает на более 10к), у вас выборочная дисперсия близка дисперсии популяции. Так что поправка необязательна. Но если вы не можете это объяснить или если забудете, тогда для вас она - обязательна.

P.S. Пожалуйста, давайте больше не будем говорить на собеседованиях про такое конченное понятие как "степени непонимания свободы"

P.S.S. Есть еще одна интересная и неочевидная корректировка, которая прямо относится к A/B, расскажу как-нибудь о ней тоже
👍4
Легкое пятничное: недавно задался вопросом с подачи супруги, а какая проблема могла помочь придумать дисперсию и стандартное отклонение? То есть когда мы стали бы ломать голову и что-то пытаться придумать, чтобы изобрести их?

Мне упорно приходят в голову задача рассказать про самое важное различие в цифрах двух нормально распределенные популяции, у которых одинаковые средние, близкие максимум и минимум, при этом у первого распределения данные довольно быстро расползаются от среднего, а у второго нет. Получается, мы это визуально видим различия, может даже проговорить ("по-разному стоят от среднего"), а вот цифры аналогичной max, min, avg нет.

То есть наша задача рассказать о наблюдаемом одним единственным значением. По идее первая наша мысль на основе видимого (данные по-разному ведут себя у среднего) это "оценить расстояние до среднего". Конечно, у каждого значения это расстояние будет своим. Поэтому усреднение этих расстояний логичный шаг, который, правда, сразу привел бы к проблеме зануления. И вот тут я думаю, что до квадрата разниц и после корня из, я бы не допер, а предложил взять по модулю эти разницы, - по моему опыту, это обычно первое, что предлагают в качестве решения те, кто только столкнулся с оценкой среднего расстояния от среднего.

Ну и скорее всего стал сторонником модуля разницы, не понимая все эти финты с квадратом и корнем, считая это пушкой по воробьям с примерно тем же результатом. Итого, не дисперсия и ср. кв. отклонение это у меня было бы, а просто вывод в свет стандартного отклонения, без кв. Получается не вывел бы прям именно ту самую дисперсию? Вероятно, но в сущности дисперсия это про тож самое "средние разниц расстояний элементов от среднего".

Я к чему? Да в принципе в статистике так все и рождается, как мне видится. Вот, например, статья от коллеги, Николая Назарова, про то, как придумать собственный критерий в случай малых выборок из ненормальной генеральной.

Действительно, распределение средних малых выборок из ненормальных популяций также ненормально, а потому при попытке применить t-test t-статистика будет приземлятся на НЕ-t-распределение. Во время отсутствия компуктеров оставалось мало вариантов тестирования малых выборок из ненормальных генеральных. Cразу вспоминают о а-ля Манн-Уитни, но он-то проверяет другую гипотезу в отличии от t-test'a (о Манне-Уитни у меня очень-очень скоро будет большая статья с Яндексом, демистифицируем его по полной). А сейчас: бери свою ненормальную генеральную, генерируй выборки, применяй t-test, смотри каким будет НЕ-t-распределение -> это и будет распределение для нулевой для данной ненорм генеральной для t-test'a. Очень здраво! Это если очень кратко. У Коли все подробнее, формализованее и с аккуратной подводкой как мы любим (верно же?). Наслаждайтесь!

То есть получается этот пост все же немного тяжелое пятничное. Специально ли я так сделал? А я сам не знаю, просто к слову пришлось да и темой, что Коля описал, занимался, но решил, что в наш век BigData малые выборки это такое, узкоспециализированное. С другой стороны, малые выборки - это хороший способ проверить на наличие радикальных отличий, то есть такой контроль на очень большую разницу (которой быть не должно), держите это в голове при чтении статьи как ответ на вопрос о прикладом смысле теста на малых.
1) Понимание заказчиком всех этих альф, мощностей и пр. это, как правило, вежливость с их стороны. Обычно, для них эта абстракция. Поэтому чтобы сделать их жизнь несколько проще, то в рамках дизайна после подсчета MDE (при заданных параметрах с учетом возможности задействовать какую-то часть генеральной / с учетом ограничений по периоду) отдельным параграфом рекомендовано показать картинку всевозможных разниц. Это легко сделать, сгенерировав данные при верности H0 и HA=H0+MDE.

Отсюда уже легче объяснить все эти параметры, что вот, смотрите, при таком размере выборки мы можем обнаружить такой-то минимальный эффект (расстояние между зелеными в точечку линиями). При этом вот все наши возможные разницы, если верна H0 (различий нет) и HA (различия есть с таким MDE).
- Если верна HA, то желтая* область это то, где мы увидим стат. значимость и это ок, а черная область, где не обнаружим, и это плохо, но вероятно.
*ес-сно, если эффект прям большой, то эта разница уйдет далеко вправо и не будет и в желтой зоне, но очевидно, что это нетрудно объяснить как что-то хорошее;

- Если верна H0 и разницы на самом деле нет, то красная область это тоже стат. значимый эффект, просто наш результат будет ложноположительный, это не ок, но вероятно.

Конечно, это визуализация работает только в рамках самого массового t-test'a. С тестом на однородность иначе, как - покажу после статьи по Mann-Whitney.

2) И еще кое-что. В заметке про MDE было такое словосочетание как "минимально значимое отличие". Так вот, этому понятию место-то есть:
- с точки зрения стандартизированных разниц это критическое значение (при альфе = 0.05 и в случае больших выборок это z=1.96), одно из, если тест двусторонний.

- с точки зрения абсолютных разниц и подсчитанного MDE, это конкретное критическое значение, в нашем примере ~ 0.356. Это просто (в случае справа) 1-альфа/2. У нас альфа = 0.05, это 1-0.05/2 = 1-0.025 = 0.975 квантиль. Далее np.quantile(diff_h0, 0.975), где diff_h0 - это всевозможные разницы при верности Нулевого гипотезы.
3
Привет, товарищи статистики!

Закроем примером известное высказывание:
"Корреляция не подразумевает каузацию, то есть наличия причинно-следственных связей".

[ По этой теме не пишет только ленивый. А я немного ленивый, поэтому и пишу не сразу, хотя планировал. Я хотел найти свой же собственный пример, который помнил так-то (но лень было писать заново). Лааааадно, я даже не пытался его найти, а когда попытался, нашел меньше, чем за минуту. ]

Пример для понимания.

Провели наблюдение за людьми - сколько человек весит, ось X, и сколько пьют воды, ось Y. Обнаружили положительную корреляцию - с увеличением веса росло и кол-во миллилитров воды в день. Или - с увеличением миллитров воды в день рос и вес.

Одно не обуславливает другого. Есть скрытый фактор, диабет, и его побочный эффект - повышенный сахар. Именно он усугубляет вес и вызывает жажду.

Считая же, что вес причина потребления больше воды или что вода причина веса мы можем сделать аж 4-е направильных вывода.

Неправильный вывод №1: надо пить меньше воды, чтобы похудеть (с излишним весом: "изи")
Неправильный вывод №2: надо пить больше воды, чтобы набрать вес (с недовесом: "изи")
Неправильный вывод №3: надо толстеть, чтобы пить больше воды (доктор сказал, больше жидкости)
Неправильный вывод №4: надо худеть, чтобы меньше пить воды

Пример плюшевый, но должен быть доступный.
А чтобы точно суметь всегда объяснить, придумайте свой пример для себя же. Разбуди, - расскажите.
Привет, товарищи статистики!

Помимо уважаемых, но избитых ошибок 1-го и 2-го рода есть еще две, тесно связанных с мощностью:
- Type S error как ошибка знака
- Type M error как переоценка эффекта

Сегодня рассмотрим Type S ошибку как имеющую значения для тестов с мощностью ниже 40%, пусть наш MDE = +0.5 (24 vs 24.5).

И вновь абсолютные значения помогут нам все увидеть. Cтроим разницы выборочных средних выборок по 2 измерения в каждой из H0, проводим классические границы значимости (0.05). Вторым шагом - всевозможные разницы между выборочными средним из H0 и из HA.

Обратите внимание, у нас относительно HA в границах значимости H0 появляются две зоны:
- зеленая, где мы отлавиваем эффект с нужным знаком (среднее выборки из HA больше H0);

- красная зона стат. значимых результатов, но такая, где среднее из HA очевидно меньше средней H0, то есть наш тест прокрашивается с другим, противоположным от ожидаемого знаком.

Это и есть ошибка знака. Мы бы отклонили нулевую гипотезу, но ошибочно посчитали бы, что наша новая фича работает хуже.

Если гененировать выборки под разные мощности от очень низкой до максимальной (точки X), делить красную долю на зеленую (=error rate, точки для Y), то у нас получится график зависимости Type S error rate от мощности.

Хорошо видно, что от 0.4 = 40% такой ошибки уже не возникает. Вопрос: зачем вообще об этом думать во времена классических 0.8? По двум причинам:
1) Теперь вы знаете еще одну цену малой мощности помимо малой вероятности обнаружить желаемый эффект, когда он реально есть.

2) Это полезно, если читаете какие-то исследования интересной вам области (у меня это пси-сфера), где малые выборки. Рекомендую смотреть на две вещи:
- MDE сквозь призму метрики: возможен ли он такой силы?
- на мощность. Если она маленькая, то сам по себе эксперимент "на удачу" + Type S и Type M включаются.

В следующий раз поговорим про Type M.

P.S. Делал быструю аппроксимацию этой функции, приблизительный результат на картинке. Подставляй мощность, получай оценку S ошибки, вноси в дизайн
2👍1
Привет, товарищи статистики!

В прошлом посте мы рассмотрели Type S error, ошибку знака. При мощности от 0.4 мы можем о ней не беспокоиться, чего не скажешь о Type M ошибке, даже если у нас мощность = 0.8.

Снова тот же пример, MDE у нас вышел = 0.5, возможные разницы при выборках по 2 измерения, когда верна H0 и когда верна HA. Смотрим на зеленую область.

Да, это зона, где мы верно отклоняем HA и наблюдаем значимость с правильным знаком. Но у нас будут значимыми результаты при разнице от 3.9 (соответствует красной правой линии) при том, что MDE у нас = 0.5.

Если мы возьмем среднее всех значений в зеленой области (для при верности HA, конечно) мы получим 8.45. Посмотрим, насколько это превышает MDE.

Сначала напомню базовую базу: если бы значение было равно MDE, то есть 0.5/MDE = 0.5/0.5 = 1 -> единица тут показала бы скорее соответствие, 100%. Поэтому мы должны вычесть единицу -> 1-1 = 0 -> нет превышения или "превышение равно нулю".

Итак, поделим среднее на MDE и вычтем единицу -> 8.45/0.5 - 1 = 15.9. Превышение в 15.9 раз! То есть переоценка эффекта лютая.

Возьмем нашу классическую мощность = 0.8; среднее всех значений в зеленой области ~ 0.58 -> 0.58/0.5 - 1 ~ 0.18, то есть превышение при мощности = 0.8 будет на 16%. Не безобидно, да?

Помните выборочную дисперсию с корректировкой на n-1, которая справлялась в среднем с занижением оценки дисперсии генеральной? Получается, в данном случае мы имеем дело с постоянным завышением эффекта. Сделаем аналогичный ход с эффектом а-ля дельтой, если ее доверительные интервалы охватывают MDE, перепишем:

type_m = expected_effect / mde - 1
expected_effect заменим на delta.

real_effect = delta/(type_m+1) -> готово, подставляй дельту, перевзвешивай эффект.

Откуда взять значение для type_m? Да через ту же генерацию данных и аппроксимацию кривой, у меня вышло так (картинки)

А если MDE слева от интервала дельты? Эффект на самом деле мог быть больше. Примените формулу размера выборки, ища эффект при изменение мощности в сторону увеличения (альфа и n те, что в дизайне)
Привет, товарищи статистики!

Пока жду выпуска своей большой статьи по Mann-Whitney, я хочу поговорить о моем любимом понятии как ожидаемое значение, оно же expected value, E(X). Его я встречаю в разных областях математики, которыми интересуюсь: само собой в статистике, в теории принятия решений, теории игр и пр.

Его часто уравнивают со средним значением, но это не совсем корректно, хоть они оба и представляют собой меру центрально тенденции.

Дело даже не в том, что считаются они по-разному: E(X) через вероятность значения случайной величины, а среднее через сумму значений на кол-во значений. Пример:
[1, 2, 3]
Mean = (1+2+3)/3 = 2

E(X) = 1*P(1) + 2*P(2) + 3*P(3)
Где каждую P мы считаем на основе частоты встречаемости элемента; для всех это P = 1/3, так как у нас каждое значение 1, 2 и 3 встречается по одному разу

Основное различие состоит в том, что E(X) является пределом, к которому сходится среднее в рамках заданной "системы".

1) Классический пример, кубик с 6-ю гранями, о котором заранее известно, что он честный, значит вероятность каждой стороны = 1/6.
E(X) = 1*1/6+2*1/6+3*1/6+4*1/6+5*1/6+6*1/6 = 3.5

Сделаем два броска: [1, 4] - среднее 2.5. Еще бросок: [1, 4, 6] - среднее 3.66. Если мы проведем еще серию бросков, желательно бесконечную)), то среднее будет стремится к 3.5 (картинку оставлю в комментариях)

2) Более наш пример, про данные: пускай у нас есть генеральная с mu=24. Возьмем выборку из n=2 без возвращения (забрали у генеральной и не вернули обратно):
[21, 23] - среднее 22

Возьмем еще элемент:
[21, 23, 26] - среднее 23.33

Если мы будем и далее выгребать всю генеральную до предела, что наша выборка станет самой генеральной, то среднее такой выборки сведется к mu=24.

Это же значение прям круто себя раскрывает, если знаешь вероятности успеха и неуспеха.
- Например, выиграть в казино в рулетке, если делаешь ставку на конкретное поле, = 1/38, а проиграть = 37/38. Тебе обещают кратно увеличить твой рублик при выигрыше, пускай это будет 20р. Но если проиграешь, то минус рубль (-1р.)
20*1/38 + (-1)*37/38 = -0.44р. - интерпретируя, в долгосрок проиграешь. И это не так уж очевидно, не зная про вычисление E(X).
- Или если принимаешь решения, с возможность хотя бы прикинуть их выгоду и стоимость. Например, сделать фичу, которая даст +2000; если не сделать - упущенная выгода (-2000):
->обратиться к подрядчику А -> успех P=0.8 -> стоимость (-1000)
->обратиться к подрядчику B -> успех P=0.7 -> стоимость (-700)
E(A) = (2000-1000)*0.8+(-2000-1000)*0.2 = 200
E(B) = (2000-700)*0.7+(-2000-700)*0.3 = 100
Выбираем А, выгоднее.

Но проблема в том, что эти вероятности системы не даются вот так просто (откуда мы взяли вероятность успеха подрядчиков А и B?). Часто надо собирать статистику, определяя вероятность согласно частотному подходу: сколько успехов из стольки-то попыток. 7 из 10. И, конечно, это лишь та вероятность, которую мы смогли вычленить из доступных нам для наблюдения попыток. Те же 100 попыток могли показать нам 50 успехов, что не только отличается от 7/10, но и взвешеннее.

Поэтому E(X) является теоретическим понятием. И его активно используют в статистике, когда говорят, к чему сведется величина, например среднее выборочных средних больших выборок а-ля E(cр.X) = mu = 24. А среднее - эмпирическим понятием (на практике именно его и считаем), используемым для выборок.
🔥61
Как отличить математика от статистика?

Привет, товарищи статистики!

Есть два определения ЦПТ, оба я приведу из вики, но с той лишь разницей, первое будет из русской вики, а второе - из английской. Отмечу особенность: обе страницы самобытны и не связаны между собой переводом.

1) Из русской википедии:
*тут: сконцентировались и быстро читаем, особо не задумываемся*
- сумма достаточно большого количества слабо зависимых случайных величин, имеющих примерно одинаковые масштабы (ни одно из слагаемых не доминирует, не вносит в сумму определяющего вклада), имеет распределение, близкое к нормальному.

2) Из английской википедии:
*а вот это для нас, статистиков, важнее*
- states that, under appropriate conditions, the distribution of a normalized version of the sample mean converges to a standard normal distribution.

Обратите внимание, что вторая говорит о совершенно ином контексте, о выборочных средних, более того, оно для статистики с ее генеральными и выборками не просто важнее, оно именно то, что нужно! Тогда как первое о, - давайте честны, - каких-то там суммах слабо зависимых и бла-бла. Отсюда нетрудно догадаться, что первое определение вероятнее всего писал математик, а второе - статистик. Почему?

На мой взгляд именно потому, что вопросы, связанные с выборками и проблемами вокруг них, волнуют больше статистика, и он, конечно, мог бы заниматься суммами слабых бла-бла, любя играть в кости, и говорить о них больше, чем о выборочных средних, как это блестяще делает математик 3Blue1Brown но, честно сказать, это вообще мало отвечает на вопросы следствий ЦПТ в рамках работы с выборками, которые коротко может записать так: "И чё? йопта"

Если спуститься с небес определений в найм, то понимание, почему таки работает статистика, у кандидата можно выяснять двумя последовательными вопросами:
1. Что такое ЦПТ? - если ответ будет про суммы, уже очень вероятно, что этого понимания нет, но надо обязательно спросить более сакральное, вы готовы?

2. И чё?
Ну, вот распределяются эти твои средние нормально и-и-и-и?
(я уж не говорю про суммы, это вообще так себе путь для понимания работы статистики)

Не стоит переживать, если ответа на второй вопрос у вас нет, даже если у вас был курс мат. стата. Как и я писал, методология преподавания статистики в силу ее, статистики, логической простоты просто опустила несколько маленьких, но очень важных мостиков, ведь это же "должно быть очевидно и просто". Ну и получили то, что получили: после няшных вводных про моду, среднее, медианы люди, как правило, резко оказываются в каком-то аду абстракций.

И это бич подачи статистики, при том что статистика это не про математику, которая присутствует там, пожалуй, в основном в виде базовых операций. Да, там есть нетривиальные вещи, но вы будете готовы к ним, когда к ним придете. Отсюда я прям глубоко согласен с картинкой (будет в комменте), что "stats is not math". Верится с трудом, да? Ну, тогда ждите пост про новый поток, а там сами все увидите, заодно и на вопрос "и че?" узнаете ответы.
👍43
Так получилось, что за неделю меня спросили несколько разных людей о статье про Mann-Whitney, главный вопрос был - когда. Отвечаю:

В лучшем случае в течение месяца.
Почему так? Редакция и ряд согласований еще не окончены. И это неспроста:

- Сейчас объем этой статьи составляет 48 листов A4, будут сокращения, но это неточно.

Когда начинал ее писать (об этом чуть ниже), я не планировал такой объем, но сейчас мне совершенно понятно, что меньше никак нельзя, иначе с тем же успехом можно было бы отправлять людей читать средней руки учебник, после которого люди обычно все как один говорят про сумму рангов. Такого мне не надо.

Поэтому читать придется много и далеко не только об одном Mann-Whitney (внезапно! Да, мы поговорим в деталях и о ряде других тестов), готовьтесь. Единственное, что могу немного успокоить: уровень объяснения будет ровно так, как я и люблю - для детей.

- Чем ближе статья к релизу, тем больше меня просят отработать то один, то другой комментарий. Я, честно сказать, видеть ее уже не могу; сопротивляюсь и немного медлю :)

- Вообще, первый драфт я написал как раз в апреле прошлого года. То есть пишу ее уже год! И переписывал ее не единожды, где-то под напором переосмыслений, где-то мне не нравилась подача и структура, где-то целые абзацы ставились под сомнение аналитиками X5. Некоторые вещи я переписывал в том числе на днях, уже сам напрягая других сделать вычитку.

- Так как контекст статьи это инструмент Яндекса, VarioQub, который как раз и использует Mann-Whitney, то первая публикация будет именно у них на блоге, скорее всего в блоге AppMetrica. Так вот, они предельно серьезно рассматривают каждую запятую, учитывая, что речь пойдет о сердце их инструмента; есть и еще кое-что, но об этом я уже скажу, когда, наконец, будет публикация.

Это далеко не первая моя статья, в том числе по статистике. Но я могу уже уверенно сказать о ней следующее: это мой magnum opus за все время написания постов и статей в народ в рамках аналитики. (есть, конечно, и еще один такой труд в другой области, но о нем как-нибудь в другой раз, не все же карты раскрывать :) )
Хотелось бы верить, что на нее будут массовые ссылки с исключительно положительным оттенком, когда кому-то захочется понять Mann-Whitney раз и навсегда.

В общем, ждите, уверен, вы не пожалеете.
👍8🔥2
2025/07/12 01:07:12
Back to Top
HTML Embed Code: