ABBA_TESTING Telegram 21
Подглянем за подглядывающими. О проблеме подглядывания в экспериментах.

Если мы с вами возьмем из любой генеральной (в рамках симуляции для t-test'a - нормальной, раз выборки малые) две выборки А и А', то мы знаем, что хотя между ними и нет разницы, но в заданным уровнем значимости альфа = 0.05 в среднем 5 тестов из 100 у нас будут давать ложноположительный результат (обнаруживать эффект там, где его нет).

Давай понаблюдаем за тестом и его значением p-value 20 дней. На нулевой день в в группу A и A' у нас по 1-ом наблюдению. Каждый день у нас в группу A и A' будет добавляться по также 1-ому наблюдению: на 1-ый день будет у группах по 2 наблюдения, на 2-ой по 3 и т. д.

Красная линия - это альфа = 0.05, от нее и ниже это стат. значимость.

Experiment №1: p-value к уровню значимости за все время и не приблизился.

Experiment №9: к 20-му дню p-value ниже уровня значимости - ложноположительный результат. Штош, бывает.

Давайте посмотрим 100 тестов одновременно: посмотрите, день ото дня какая-то доля тестов ложноположительная. Это - нормально, так и должно быть, это доля в среднем будет 5% (может быть ниже, может быть выше, но ожидаемо - 5%, то есть 5 из 100).

Рассмотрим Experiment №2: именно на 10-ый день он стал ложноположительным. Пробыл там еще денек, а потом снова стал не стат. значимым.

Но что будет, если мы будем останавливать тест ровно тогда, когда он стал стат. значимым?
На графике красными точками обозначено то, когда какой-либо из 100 тестов стал впервые стат. значимым (может быть и повторно, как с Experiment №2, как видите). Сколько раз мы совершим тогда ошибку 1-го рода?

В данной симуляции 21 раз!
В этом и есть проблема поглядывания в тест и остановка его раньше запланированной. Придерживаться просто принципа "вижу стат. значимость - останавливаю" очень пагубно.
То есть нельзя взять так просто и ему следовать. Для этого надо идти в Мордор, на скользкую дорожку очередного современного (но вполне работающего) хайпа, Sequential Testing (я бы рекомендовал ознакомится прежде всего с тестом Wald'a).



tgoop.com/abba_testing/21
Create:
Last Update:

Подглянем за подглядывающими. О проблеме подглядывания в экспериментах.

Если мы с вами возьмем из любой генеральной (в рамках симуляции для t-test'a - нормальной, раз выборки малые) две выборки А и А', то мы знаем, что хотя между ними и нет разницы, но в заданным уровнем значимости альфа = 0.05 в среднем 5 тестов из 100 у нас будут давать ложноположительный результат (обнаруживать эффект там, где его нет).

Давай понаблюдаем за тестом и его значением p-value 20 дней. На нулевой день в в группу A и A' у нас по 1-ом наблюдению. Каждый день у нас в группу A и A' будет добавляться по также 1-ому наблюдению: на 1-ый день будет у группах по 2 наблюдения, на 2-ой по 3 и т. д.

Красная линия - это альфа = 0.05, от нее и ниже это стат. значимость.

Experiment №1: p-value к уровню значимости за все время и не приблизился.

Experiment №9: к 20-му дню p-value ниже уровня значимости - ложноположительный результат. Штош, бывает.

Давайте посмотрим 100 тестов одновременно: посмотрите, день ото дня какая-то доля тестов ложноположительная. Это - нормально, так и должно быть, это доля в среднем будет 5% (может быть ниже, может быть выше, но ожидаемо - 5%, то есть 5 из 100).

Рассмотрим Experiment №2: именно на 10-ый день он стал ложноположительным. Пробыл там еще денек, а потом снова стал не стат. значимым.

Но что будет, если мы будем останавливать тест ровно тогда, когда он стал стат. значимым?
На графике красными точками обозначено то, когда какой-либо из 100 тестов стал впервые стат. значимым (может быть и повторно, как с Experiment №2, как видите). Сколько раз мы совершим тогда ошибку 1-го рода?

В данной симуляции 21 раз!
В этом и есть проблема поглядывания в тест и остановка его раньше запланированной. Придерживаться просто принципа "вижу стат. значимость - останавливаю" очень пагубно.
То есть нельзя взять так просто и ему следовать. Для этого надо идти в Мордор, на скользкую дорожку очередного современного (но вполне работающего) хайпа, Sequential Testing (я бы рекомендовал ознакомится прежде всего с тестом Wald'a).

BY Не AБы какие тесты








Share with your friend now:
tgoop.com/abba_testing/21

View MORE
Open in Telegram


Telegram News

Date: |

To view your bio, click the Menu icon and select “View channel info.” Click “Save” ; So far, more than a dozen different members have contributed to the group, posting voice notes of themselves screaming, yelling, groaning, and wailing in various pitches and rhythms. Channel login must contain 5-32 characters To edit your name or bio, click the Menu icon and select “Manage Channel.”
from us


Telegram Не AБы какие тесты
FROM American