Подглянем за подглядывающими. О проблеме подглядывания в экспериментах.
Если мы с вами возьмем из любой генеральной (в рамках симуляции для t-test'a - нормальной, раз выборки малые) две выборки А и А', то мы знаем, что хотя между ними и нет разницы, но в заданным уровнем значимости альфа = 0.05 в среднем 5 тестов из 100 у нас будут давать ложноположительный результат (обнаруживать эффект там, где его нет).
Давай понаблюдаем за тестом и его значением p-value 20 дней. На нулевой день в в группу A и A' у нас по 1-ом наблюдению. Каждый день у нас в группу A и A' будет добавляться по также 1-ому наблюдению: на 1-ый день будет у группах по 2 наблюдения, на 2-ой по 3 и т. д.
Красная линия - это альфа = 0.05, от нее и ниже это стат. значимость.
Experiment №1: p-value к уровню значимости за все время и не приблизился.
Experiment №9: к 20-му дню p-value ниже уровня значимости - ложноположительный результат. Штош, бывает.
Давайте посмотрим 100 тестов одновременно: посмотрите, день ото дня какая-то доля тестов ложноположительная. Это - нормально, так и должно быть, это доля в среднем будет 5% (может быть ниже, может быть выше, но ожидаемо - 5%, то есть 5 из 100).
Рассмотрим Experiment №2: именно на 10-ый день он стал ложноположительным. Пробыл там еще денек, а потом снова стал не стат. значимым.
Но что будет, если мы будем останавливать тест ровно тогда, когда он стал стат. значимым?
На графике красными точками обозначено то, когда какой-либо из 100 тестов стал впервые стат. значимым (может быть и повторно, как с Experiment №2, как видите). Сколько раз мы совершим тогда ошибку 1-го рода?
В данной симуляции 21 раз!
В этом и есть проблема поглядывания в тест и остановка его раньше запланированной. Придерживаться просто принципа "вижу стат. значимость - останавливаю" очень пагубно.
То есть нельзя взять так просто и ему следовать. Для этого надо идтив Мордор, на скользкую дорожку очередного современного (но вполне работающего) хайпа, Sequential Testing (я бы рекомендовал ознакомится прежде всего с тестом Wald'a).
Если мы с вами возьмем из любой генеральной (в рамках симуляции для t-test'a - нормальной, раз выборки малые) две выборки А и А', то мы знаем, что хотя между ними и нет разницы, но в заданным уровнем значимости альфа = 0.05 в среднем 5 тестов из 100 у нас будут давать ложноположительный результат (обнаруживать эффект там, где его нет).
Давай понаблюдаем за тестом и его значением p-value 20 дней. На нулевой день в в группу A и A' у нас по 1-ом наблюдению. Каждый день у нас в группу A и A' будет добавляться по также 1-ому наблюдению: на 1-ый день будет у группах по 2 наблюдения, на 2-ой по 3 и т. д.
Красная линия - это альфа = 0.05, от нее и ниже это стат. значимость.
Experiment №1: p-value к уровню значимости за все время и не приблизился.
Experiment №9: к 20-му дню p-value ниже уровня значимости - ложноположительный результат. Штош, бывает.
Давайте посмотрим 100 тестов одновременно: посмотрите, день ото дня какая-то доля тестов ложноположительная. Это - нормально, так и должно быть, это доля в среднем будет 5% (может быть ниже, может быть выше, но ожидаемо - 5%, то есть 5 из 100).
Рассмотрим Experiment №2: именно на 10-ый день он стал ложноположительным. Пробыл там еще денек, а потом снова стал не стат. значимым.
Но что будет, если мы будем останавливать тест ровно тогда, когда он стал стат. значимым?
На графике красными точками обозначено то, когда какой-либо из 100 тестов стал впервые стат. значимым (может быть и повторно, как с Experiment №2, как видите). Сколько раз мы совершим тогда ошибку 1-го рода?
В данной симуляции 21 раз!
В этом и есть проблема поглядывания в тест и остановка его раньше запланированной. Придерживаться просто принципа "вижу стат. значимость - останавливаю" очень пагубно.
То есть нельзя взять так просто и ему следовать. Для этого надо идти
tgoop.com/abba_testing/21
Create:
Last Update:
Last Update:
Подглянем за подглядывающими. О проблеме подглядывания в экспериментах.
Если мы с вами возьмем из любой генеральной (в рамках симуляции для t-test'a - нормальной, раз выборки малые) две выборки А и А', то мы знаем, что хотя между ними и нет разницы, но в заданным уровнем значимости альфа = 0.05 в среднем 5 тестов из 100 у нас будут давать ложноположительный результат (обнаруживать эффект там, где его нет).
Давай понаблюдаем за тестом и его значением p-value 20 дней. На нулевой день в в группу A и A' у нас по 1-ом наблюдению. Каждый день у нас в группу A и A' будет добавляться по также 1-ому наблюдению: на 1-ый день будет у группах по 2 наблюдения, на 2-ой по 3 и т. д.
Красная линия - это альфа = 0.05, от нее и ниже это стат. значимость.
Experiment №1: p-value к уровню значимости за все время и не приблизился.
Experiment №9: к 20-му дню p-value ниже уровня значимости - ложноположительный результат. Штош, бывает.
Давайте посмотрим 100 тестов одновременно: посмотрите, день ото дня какая-то доля тестов ложноположительная. Это - нормально, так и должно быть, это доля в среднем будет 5% (может быть ниже, может быть выше, но ожидаемо - 5%, то есть 5 из 100).
Рассмотрим Experiment №2: именно на 10-ый день он стал ложноположительным. Пробыл там еще денек, а потом снова стал не стат. значимым.
Но что будет, если мы будем останавливать тест ровно тогда, когда он стал стат. значимым?
На графике красными точками обозначено то, когда какой-либо из 100 тестов стал впервые стат. значимым (может быть и повторно, как с Experiment №2, как видите). Сколько раз мы совершим тогда ошибку 1-го рода?
В данной симуляции 21 раз!
В этом и есть проблема поглядывания в тест и остановка его раньше запланированной. Придерживаться просто принципа "вижу стат. значимость - останавливаю" очень пагубно.
То есть нельзя взять так просто и ему следовать. Для этого надо идтив Мордор, на скользкую дорожку очередного современного (но вполне работающего) хайпа, Sequential Testing (я бы рекомендовал ознакомится прежде всего с тестом Wald'a).
Если мы с вами возьмем из любой генеральной (в рамках симуляции для t-test'a - нормальной, раз выборки малые) две выборки А и А', то мы знаем, что хотя между ними и нет разницы, но в заданным уровнем значимости альфа = 0.05 в среднем 5 тестов из 100 у нас будут давать ложноположительный результат (обнаруживать эффект там, где его нет).
Давай понаблюдаем за тестом и его значением p-value 20 дней. На нулевой день в в группу A и A' у нас по 1-ом наблюдению. Каждый день у нас в группу A и A' будет добавляться по также 1-ому наблюдению: на 1-ый день будет у группах по 2 наблюдения, на 2-ой по 3 и т. д.
Красная линия - это альфа = 0.05, от нее и ниже это стат. значимость.
Experiment №1: p-value к уровню значимости за все время и не приблизился.
Experiment №9: к 20-му дню p-value ниже уровня значимости - ложноположительный результат. Штош, бывает.
Давайте посмотрим 100 тестов одновременно: посмотрите, день ото дня какая-то доля тестов ложноположительная. Это - нормально, так и должно быть, это доля в среднем будет 5% (может быть ниже, может быть выше, но ожидаемо - 5%, то есть 5 из 100).
Рассмотрим Experiment №2: именно на 10-ый день он стал ложноположительным. Пробыл там еще денек, а потом снова стал не стат. значимым.
Но что будет, если мы будем останавливать тест ровно тогда, когда он стал стат. значимым?
На графике красными точками обозначено то, когда какой-либо из 100 тестов стал впервые стат. значимым (может быть и повторно, как с Experiment №2, как видите). Сколько раз мы совершим тогда ошибку 1-го рода?
В данной симуляции 21 раз!
В этом и есть проблема поглядывания в тест и остановка его раньше запланированной. Придерживаться просто принципа "вижу стат. значимость - останавливаю" очень пагубно.
То есть нельзя взять так просто и ему следовать. Для этого надо идти
BY Не AБы какие тесты
Share with your friend now:
tgoop.com/abba_testing/21