Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
32 - Telegram Web
Telegram Web
Возвращаемся к а), часть-2, товарищи статистики!

- вероятность (перевзвешанная) альтернативной гипотезы через значение p-value,

Это часть будет сложнее, она и у меня собирается по частям так-то, так что жуйте без спешки.

Напомню: число успешных тестов, Success Rate, не очень велико, как и говорил, это 5-10%, зависит от индустрии -> можете посмотреть эти данные от Microsoft, Neflix и пр.

б) Возьмём, что в нашем случае оно составляет 10%. И пускай при этом все из них были действительно успешны, true positive. Значит, шансы, что наша конкретная гипотеза в конкретном эксперименте будет успешна P(HA) = 10% = 0.1

Распишем согласно Баейсу (пост с разбором формулы тут) вероятность P(HA|p-value) как переоценка HA при условии "конкретного" p-value:
P(HA|p-value) = P(p-value|HA)*P(HA)/P(p-value)
P(p-value|HA) - вероятность конкретного p-value при верности HA
P(HA) - вероятность HA = 0.1
P(p-value) - вероятность конкретного значения p-value

P(p-value) = P(p-value|HA)*P(HA)+P(p-value|-HA)*P(-HA)
или
P(p-value|HA)*P(HA)+P(p-value|H0)*P(H0)

P(H0) = 1 - P(HA) = 0.9

Нам нужно выяснить, чему равно P(p-value|HA), P(p-value|H0)
Сделаем это.

Предварительно мы сделали дизайн теста, альфа = 0.05, мощность = 0.8, выяснили MDE.
1) Далее сделали симуляцию распределений p-value когда эффекта нет (верна H0), p-value ожидаемо в 5% случае оказался от 0.05 и ниже согласно альфе, см. картинку 1

При этом важно (!) cтат. значимый результат при H0 может быть в обе стороны у нас, нас интересует только ложноположительность, когда результат для нас положительный. А это случается в половине всех p-value <= alpha. То есть от красного квадратика мы берем половину, картинка 2!

2) Далее подсчитали, когда эффект есть (HA), p-value ниже 0.05 в 80% согласно мощности, картинка 3.

3) Посмотрим только те p-value по H0 и HA, которые <= 0.05, то есть стат. значимые согласно альфе, картинка 4

Продолжение ниже...
4.1) Так как p-value непрерывная величина, то нельзя взять так просто и подсчитать вероятность конкретного p-value, поэтому вместо, например, P(p-value=0.05) мы возьмем P(0.0499 =< p-value <= 0.05). Сиська? Сиська! Почти тож самое, мать твою (с)

Поэтому считаем P(0.0499 =< p-value <= 0.05), а думаем о P(p-value=0.05)

4.2) На сгенерированных данных вышло следующее:
P(p-value|HA) = P(0.05|HA) = 0.028
P(p-value|H0) = P(0.05|H0) = 0.008
Смотрим картинку 5 - ну в целом размер желтого прямоугольника против синего в красном квадрате на то и похоже в плане пропорции.

5.1) Считаем P(HA|0.05) = (0.028*0.1) / (0.028*0.1+0.008*0.9) = 0.28 = 28%, КАРЛ.
То есть стат. значимый результат = 0.05 не ахти как перевзвешивает нашу гипотезу.
Такое себе.

5.2) А что будет, если взять p-value = 0.01 (интервал от 0.0099 до 0.01)? Картинка 6
P(p-value|HA) = P(0.05|HA) = 0.172
P(p-value|H0) = P(0.05|H0) = 0.01
P(HA|0.05) = (0.172*0.1) / (0.172*0.1+0.01*0.9) = 0.65 = 65%. И также не особо лучше.

Короче: теперь статистики всерьез задумались об альфе = 0.005. Потому что P(HA|0.005) стремится к 1. Ну и потому, что это как будто бы решает проблему репликации (повторяемости) исследований.
А все, что находится между 0.005 и 0.05 - это теперь "suggestive", гугл переводит это как на "наводящий на размышления", смешно: тест теперь не стат. значимый в этом диапазоне, а "наводящий на размышления", нах.

При этом это не предел для минимизации альфы, о, нет! (хе-хе)

Но об этом в следующий раз.
👍2
Поддержу тренд и расскажу, почему нужна n-1 в оценке выборочной дисперсии.
Картинки из моего курса по базе A/B вместо тысячи слов!

1. Выборочная дисперсия на малых выборках в среднем ниже дисперсии генеральной (тут для примера ГС = 4, а среднее по выборочной = 1.96)

Поэтому статистики, точнее товарищ Bessel, подумал, а почему бы нам ее просто не сместить на -1 ?

И вот результат: в среднем (но не в каждом конкретном случае!) у нас скорректированная оценка близка (3.85 vs 4) истинной. Клево, да?

2. Вообще-то, когда у вас выборки достаточно большие (таблица t значений намекает на более 10к), у вас выборочная дисперсия близка дисперсии популяции. Так что поправка необязательна. Но если вы не можете это объяснить или если забудете, тогда для вас она - обязательна.

P.S. Пожалуйста, давайте больше не будем говорить на собеседованиях про такое конченное понятие как "степени непонимания свободы"

P.S.S. Есть еще одна интересная и неочевидная корректировка, которая прямо относится к A/B, расскажу как-нибудь о ней тоже
👍4
Легкое пятничное: недавно задался вопросом с подачи супруги, а какая проблема могла помочь придумать дисперсию и стандартное отклонение? То есть когда мы стали бы ломать голову и что-то пытаться придумать, чтобы изобрести их?

Мне упорно приходят в голову задача рассказать про самое важное различие в цифрах двух нормально распределенные популяции, у которых одинаковые средние, близкие максимум и минимум, при этом у первого распределения данные довольно быстро расползаются от среднего, а у второго нет. Получается, мы это визуально видим различия, может даже проговорить ("по-разному стоят от среднего"), а вот цифры аналогичной max, min, avg нет.

То есть наша задача рассказать о наблюдаемом одним единственным значением. По идее первая наша мысль на основе видимого (данные по-разному ведут себя у среднего) это "оценить расстояние до среднего". Конечно, у каждого значения это расстояние будет своим. Поэтому усреднение этих расстояний логичный шаг, который, правда, сразу привел бы к проблеме зануления. И вот тут я думаю, что до квадрата разниц и после корня из, я бы не допер, а предложил взять по модулю эти разницы, - по моему опыту, это обычно первое, что предлагают в качестве решения те, кто только столкнулся с оценкой среднего расстояния от среднего.

Ну и скорее всего стал сторонником модуля разницы, не понимая все эти финты с квадратом и корнем, считая это пушкой по воробьям с примерно тем же результатом. Итого, не дисперсия и ср. кв. отклонение это у меня было бы, а просто вывод в свет стандартного отклонения, без кв. Получается не вывел бы прям именно ту самую дисперсию? Вероятно, но в сущности дисперсия это про тож самое "средние разниц расстояний элементов от среднего".

Я к чему? Да в принципе в статистике так все и рождается, как мне видится. Вот, например, статья от коллеги, Николая Назарова, про то, как придумать собственный критерий в случай малых выборок из ненормальной генеральной.

Действительно, распределение средних малых выборок из ненормальных популяций также ненормально, а потому при попытке применить t-test t-статистика будет приземлятся на НЕ-t-распределение. Во время отсутствия компуктеров оставалось мало вариантов тестирования малых выборок из ненормальных генеральных. Cразу вспоминают о а-ля Манн-Уитни, но он-то проверяет другую гипотезу в отличии от t-test'a (о Манне-Уитни у меня очень-очень скоро будет большая статья с Яндексом, демистифицируем его по полной). А сейчас: бери свою ненормальную генеральную, генерируй выборки, применяй t-test, смотри каким будет НЕ-t-распределение -> это и будет распределение для нулевой для данной ненорм генеральной для t-test'a. Очень здраво! Это если очень кратко. У Коли все подробнее, формализованее и с аккуратной подводкой как мы любим (верно же?). Наслаждайтесь!

То есть получается этот пост все же немного тяжелое пятничное. Специально ли я так сделал? А я сам не знаю, просто к слову пришлось да и темой, что Коля описал, занимался, но решил, что в наш век BigData малые выборки это такое, узкоспециализированное. С другой стороны, малые выборки - это хороший способ проверить на наличие радикальных отличий, то есть такой контроль на очень большую разницу (которой быть не должно), держите это в голове при чтении статьи как ответ на вопрос о прикладом смысле теста на малых.
1) Понимание заказчиком всех этих альф, мощностей и пр. это, как правило, вежливость с их стороны. Обычно, для них эта абстракция. Поэтому чтобы сделать их жизнь несколько проще, то в рамках дизайна после подсчета MDE (при заданных параметрах с учетом возможности задействовать какую-то часть генеральной / с учетом ограничений по периоду) отдельным параграфом рекомендовано показать картинку всевозможных разниц. Это легко сделать, сгенерировав данные при верности H0 и HA=H0+MDE.

Отсюда уже легче объяснить все эти параметры, что вот, смотрите, при таком размере выборки мы можем обнаружить такой-то минимальный эффект (расстояние между зелеными в точечку линиями). При этом вот все наши возможные разницы, если верна H0 (различий нет) и HA (различия есть с таким MDE).
- Если верна HA, то желтая* область это то, где мы увидим стат. значимость и это ок, а черная область, где не обнаружим, и это плохо, но вероятно.
*ес-сно, если эффект прям большой, то эта разница уйдет далеко вправо и не будет и в желтой зоне, но очевидно, что это нетрудно объяснить как что-то хорошее;

- Если верна H0 и разницы на самом деле нет, то красная область это тоже стат. значимый эффект, просто наш результат будет ложноположительный, это не ок, но вероятно.

Конечно, это визуализация работает только в рамках самого массового t-test'a. С тестом на однородность иначе, как - покажу после статьи по Mann-Whitney.

2) И еще кое-что. В заметке про MDE было такое словосочетание как "минимально значимое отличие". Так вот, этому понятию место-то есть:
- с точки зрения стандартизированных разниц это критическое значение (при альфе = 0.05 и в случае больших выборок это z=1.96), одно из, если тест двусторонний.

- с точки зрения абсолютных разниц и подсчитанного MDE, это конкретное критическое значение, в нашем примере ~ 0.356. Это просто (в случае справа) 1-альфа/2. У нас альфа = 0.05, это 1-0.05/2 = 1-0.025 = 0.975 квантиль. Далее np.quantile(diff_h0, 0.975), где diff_h0 - это всевозможные разницы при верности Нулевого гипотезы.
3
Привет, товарищи статистики!

Закроем примером известное высказывание:
"Корреляция не подразумевает каузацию, то есть наличия причинно-следственных связей".

[ По этой теме не пишет только ленивый. А я немного ленивый, поэтому и пишу не сразу, хотя планировал. Я хотел найти свой же собственный пример, который помнил так-то (но лень было писать заново). Лааааадно, я даже не пытался его найти, а когда попытался, нашел меньше, чем за минуту. ]

Пример для понимания.

Провели наблюдение за людьми - сколько человек весит, ось X, и сколько пьют воды, ось Y. Обнаружили положительную корреляцию - с увеличением веса росло и кол-во миллилитров воды в день. Или - с увеличением миллитров воды в день рос и вес.

Одно не обуславливает другого. Есть скрытый фактор, диабет, и его побочный эффект - повышенный сахар. Именно он усугубляет вес и вызывает жажду.

Считая же, что вес причина потребления больше воды или что вода причина веса мы можем сделать аж 4-е направильных вывода.

Неправильный вывод №1: надо пить меньше воды, чтобы похудеть (с излишним весом: "изи")
Неправильный вывод №2: надо пить больше воды, чтобы набрать вес (с недовесом: "изи")
Неправильный вывод №3: надо толстеть, чтобы пить больше воды (доктор сказал, больше жидкости)
Неправильный вывод №4: надо худеть, чтобы меньше пить воды

Пример плюшевый, но должен быть доступный.
А чтобы точно суметь всегда объяснить, придумайте свой пример для себя же. Разбуди, - расскажите.
Привет, товарищи статистики!

Помимо уважаемых, но избитых ошибок 1-го и 2-го рода есть еще две, тесно связанных с мощностью:
- Type S error как ошибка знака
- Type M error как переоценка эффекта

Сегодня рассмотрим Type S ошибку как имеющую значения для тестов с мощностью ниже 40%, пусть наш MDE = +0.5 (24 vs 24.5).

И вновь абсолютные значения помогут нам все увидеть. Cтроим разницы выборочных средних выборок по 2 измерения в каждой из H0, проводим классические границы значимости (0.05). Вторым шагом - всевозможные разницы между выборочными средним из H0 и из HA.

Обратите внимание, у нас относительно HA в границах значимости H0 появляются две зоны:
- зеленая, где мы отлавиваем эффект с нужным знаком (среднее выборки из HA больше H0);

- красная зона стат. значимых результатов, но такая, где среднее из HA очевидно меньше средней H0, то есть наш тест прокрашивается с другим, противоположным от ожидаемого знаком.

Это и есть ошибка знака. Мы бы отклонили нулевую гипотезу, но ошибочно посчитали бы, что наша новая фича работает хуже.

Если гененировать выборки под разные мощности от очень низкой до максимальной (точки X), делить красную долю на зеленую (=error rate, точки для Y), то у нас получится график зависимости Type S error rate от мощности.

Хорошо видно, что от 0.4 = 40% такой ошибки уже не возникает. Вопрос: зачем вообще об этом думать во времена классических 0.8? По двум причинам:
1) Теперь вы знаете еще одну цену малой мощности помимо малой вероятности обнаружить желаемый эффект, когда он реально есть.

2) Это полезно, если читаете какие-то исследования интересной вам области (у меня это пси-сфера), где малые выборки. Рекомендую смотреть на две вещи:
- MDE сквозь призму метрики: возможен ли он такой силы?
- на мощность. Если она маленькая, то сам по себе эксперимент "на удачу" + Type S и Type M включаются.

В следующий раз поговорим про Type M.

P.S. Делал быструю аппроксимацию этой функции, приблизительный результат на картинке. Подставляй мощность, получай оценку S ошибки, вноси в дизайн
2👍1
Привет, товарищи статистики!

В прошлом посте мы рассмотрели Type S error, ошибку знака. При мощности от 0.4 мы можем о ней не беспокоиться, чего не скажешь о Type M ошибке, даже если у нас мощность = 0.8.

Снова тот же пример, MDE у нас вышел = 0.5, возможные разницы при выборках по 2 измерения, когда верна H0 и когда верна HA. Смотрим на зеленую область.

Да, это зона, где мы верно отклоняем HA и наблюдаем значимость с правильным знаком. Но у нас будут значимыми результаты при разнице от 3.9 (соответствует красной правой линии) при том, что MDE у нас = 0.5.

Если мы возьмем среднее всех значений в зеленой области (для при верности HA, конечно) мы получим 8.45. Посмотрим, насколько это превышает MDE.

Сначала напомню базовую базу: если бы значение было равно MDE, то есть 0.5/MDE = 0.5/0.5 = 1 -> единица тут показала бы скорее соответствие, 100%. Поэтому мы должны вычесть единицу -> 1-1 = 0 -> нет превышения или "превышение равно нулю".

Итак, поделим среднее на MDE и вычтем единицу -> 8.45/0.5 - 1 = 15.9. Превышение в 15.9 раз! То есть переоценка эффекта лютая.

Возьмем нашу классическую мощность = 0.8; среднее всех значений в зеленой области ~ 0.58 -> 0.58/0.5 - 1 ~ 0.18, то есть превышение при мощности = 0.8 будет на 16%. Не безобидно, да?

Помните выборочную дисперсию с корректировкой на n-1, которая справлялась в среднем с занижением оценки дисперсии генеральной? Получается, в данном случае мы имеем дело с постоянным завышением эффекта. Сделаем аналогичный ход с эффектом а-ля дельтой, если ее доверительные интервалы охватывают MDE, перепишем:

type_m = expected_effect / mde - 1
expected_effect заменим на delta.

real_effect = delta/(type_m+1) -> готово, подставляй дельту, перевзвешивай эффект.

Откуда взять значение для type_m? Да через ту же генерацию данных и аппроксимацию кривой, у меня вышло так (картинки)

А если MDE слева от интервала дельты? Эффект на самом деле мог быть больше. Примените формулу размера выборки, ища эффект при изменение мощности в сторону увеличения (альфа и n те, что в дизайне)
2025/07/12 18:44:16
Back to Top
HTML Embed Code: