STATS_FOR_SCIENCE Telegram 9
Методы ресемплинга как альтернатива методам классической статистики.

Изначально я хотела назвать материал примерно так: "Смерть классической статистики? Правда ли что бутстреп заменит t-test?".
Однако после изучения материалов на эту тему пришла к выводу, что простые методы, основанные на априорных знаниях о распределении останутся актуальными, пока выполняются предположения, лежащие в основе критериев: нормальность распределения, гомогенность дисперсий и тп. Так что конкретно t-test методы ресемплинга не заменят, однако что насчет более сложных данных? Давайте разбираться.

Небольшой экскурс в историю развития статистической мысли.
Большинство "классических" методов статистики разработаны в 60-80х годах прошлого века или даже еще раньше. Тест Стьюдента, например, был разработан вообще в начале 20 века, а теорема Байеса была опубликована в 1761 году.
Для того времени была характерна полная или сравнительная недоступность к вычислительным ресурсам, следовательно, исследователи старались сделать достоверные выводы о различиях в выборках на основе относительно просто расчитываемых критериев. Так были разработаны критерии Фишера, Пирсона, Спирмена и ряд других.
Для того чтобы с помощью относительно небольшого числа вычислений получить достоверные результаты, были сформулированы определенные требования к исходным выборкам: например уже упомянутое нормальное распределение и равенство дисперсий. Следовательно, параллельно были разработаны методы, позволяющие оценить соответствие наборов данных желаемому распределению. Сюда относятся критерии проверки на нормальность распределения, например тест Шапиро-Уилка (1965), проверка на гомогенность дисперсий тестом Левена (1960).
Тесты Стьюдента, Пирсона и другие называются параметрическими критериями, поскольку опираются на некие параметры, позволяющие аппроксимировать данные известными теоретическими распределениями: нормальным, лог-нормальным, биномиальным и тп.

Все эти параметрические критерии работают прекрасно, пока выполняются лежащие в основе допущения, однако что делать в случае когда они нарушаются? На помощь могут прийти ранговые критерии, например всем известный критерий Манна-Уитни-Вилкоксона (1945, 1947). Однако по сравнению с параметрическими аналогами ранговые критерии обычно имеют меньшую мощность (то есть вероятность найти значимые отличия там где они действительно есть).

Но это не единственная проблема ранговых критериев. В статье Johnston and Faulkner, 2020 было показано, что критерий Манна-Уитни-Вилкоксона в ситуации сравнения двух выборок с равными медианами и дисперсиями, но разными формами распределения показывал нахождение различий, там где их нет, вплоть до 17% случаев. Это довольно значительная доля ошибки первого рода, то есть нахождения ложнопозитивных результатов (false positive rate). Для меня это оказалось неожиданным, поскольку нас всегда учили, что ранговые критерии почти ни от чего не зависят и работают стабильно. Оказалось что и для рангового критерия форма распределения оказалась важной для корректной работы.
В копилку недостатков критерия Манн-Уитни-Вилкоксона добавлю, что метод не любит повторяющиеся значения, поскольку расставляет числа в ряд по возрастанию и присваивает им ранги на основании этой позиции, соответственно, для одинаковых чисел будут либо разные ранги, что неверно, либо они будут какие-то дробные, что понижает точность анализа. В то время как во многих случах в биологии величины дискретны: например, количество клеток или слоев клеток в корнях неизбежно приведет к большому количеству одинаковых чисел.
Более того, в общем случае непараметрические критерии требуют наличия повторностей для корректной работы. Однако в некоторых дисциплинах, например в экономике и экологии принципиально невозможно повторить эксперимент в том же самом месте и в то же самое время, при этом данные не обязаны соответствовать нормальному или какому-либо еще теоретическому распределению.

Продолжение в следующем посте =>



tgoop.com/stats_for_science/9
Create:
Last Update:

Методы ресемплинга как альтернатива методам классической статистики.

Изначально я хотела назвать материал примерно так: "Смерть классической статистики? Правда ли что бутстреп заменит t-test?".
Однако после изучения материалов на эту тему пришла к выводу, что простые методы, основанные на априорных знаниях о распределении останутся актуальными, пока выполняются предположения, лежащие в основе критериев: нормальность распределения, гомогенность дисперсий и тп. Так что конкретно t-test методы ресемплинга не заменят, однако что насчет более сложных данных? Давайте разбираться.

Небольшой экскурс в историю развития статистической мысли.
Большинство "классических" методов статистики разработаны в 60-80х годах прошлого века или даже еще раньше. Тест Стьюдента, например, был разработан вообще в начале 20 века, а теорема Байеса была опубликована в 1761 году.
Для того времени была характерна полная или сравнительная недоступность к вычислительным ресурсам, следовательно, исследователи старались сделать достоверные выводы о различиях в выборках на основе относительно просто расчитываемых критериев. Так были разработаны критерии Фишера, Пирсона, Спирмена и ряд других.
Для того чтобы с помощью относительно небольшого числа вычислений получить достоверные результаты, были сформулированы определенные требования к исходным выборкам: например уже упомянутое нормальное распределение и равенство дисперсий. Следовательно, параллельно были разработаны методы, позволяющие оценить соответствие наборов данных желаемому распределению. Сюда относятся критерии проверки на нормальность распределения, например тест Шапиро-Уилка (1965), проверка на гомогенность дисперсий тестом Левена (1960).
Тесты Стьюдента, Пирсона и другие называются параметрическими критериями, поскольку опираются на некие параметры, позволяющие аппроксимировать данные известными теоретическими распределениями: нормальным, лог-нормальным, биномиальным и тп.

Все эти параметрические критерии работают прекрасно, пока выполняются лежащие в основе допущения, однако что делать в случае когда они нарушаются? На помощь могут прийти ранговые критерии, например всем известный критерий Манна-Уитни-Вилкоксона (1945, 1947). Однако по сравнению с параметрическими аналогами ранговые критерии обычно имеют меньшую мощность (то есть вероятность найти значимые отличия там где они действительно есть).

Но это не единственная проблема ранговых критериев. В статье Johnston and Faulkner, 2020 было показано, что критерий Манна-Уитни-Вилкоксона в ситуации сравнения двух выборок с равными медианами и дисперсиями, но разными формами распределения показывал нахождение различий, там где их нет, вплоть до 17% случаев. Это довольно значительная доля ошибки первого рода, то есть нахождения ложнопозитивных результатов (false positive rate). Для меня это оказалось неожиданным, поскольку нас всегда учили, что ранговые критерии почти ни от чего не зависят и работают стабильно. Оказалось что и для рангового критерия форма распределения оказалась важной для корректной работы.
В копилку недостатков критерия Манн-Уитни-Вилкоксона добавлю, что метод не любит повторяющиеся значения, поскольку расставляет числа в ряд по возрастанию и присваивает им ранги на основании этой позиции, соответственно, для одинаковых чисел будут либо разные ранги, что неверно, либо они будут какие-то дробные, что понижает точность анализа. В то время как во многих случах в биологии величины дискретны: например, количество клеток или слоев клеток в корнях неизбежно приведет к большому количеству одинаковых чисел.
Более того, в общем случае непараметрические критерии требуют наличия повторностей для корректной работы. Однако в некоторых дисциплинах, например в экономике и экологии принципиально невозможно повторить эксперимент в том же самом месте и в то же самое время, при этом данные не обязаны соответствовать нормальному или какому-либо еще теоретическому распределению.

Продолжение в следующем посте =>

BY Статистика и R в науке и аналитике


Share with your friend now:
tgoop.com/stats_for_science/9

View MORE
Open in Telegram


Telegram News

Date: |

During the meeting with TSE Minister Edson Fachin, Perekopsky also mentioned the TSE channel on the platform as one of the firm's key success stories. Launched as part of the company's commitments to tackle the spread of fake news in Brazil, the verified channel has attracted more than 184,000 members in less than a month. Members can post their voice notes of themselves screaming. Interestingly, the group doesn’t allow to post anything else which might lead to an instant ban. As of now, there are more than 330 members in the group. How to create a business channel on Telegram? (Tutorial) Telegram message that reads: "Bear Market Screaming Therapy Group. You are only allowed to send screaming voice notes. Everything else = BAN. Text pics, videos, stickers, gif = BAN. Anything other than screaming = BAN. You think you are smart = BAN. The group’s featured image is of a Pepe frog yelling, often referred to as the “REEEEEEE” meme. Pepe the Frog was created back in 2005 by Matt Furie and has since become an internet symbol for meme culture and “degen” culture.
from us


Telegram Статистика и R в науке и аналитике
FROM American