tgoop.com/stats_for_science/13
Last Update:
Кроме того, для данных с более сложной структурой, например для дисперсионного анализа с различными модификациями, существует порядка 30 именных критериев, различия между которыми не сразу очевидны для исследователя. Все эти методы, разработанные умными людьми в середине прошлого века, рассчитаны на минимальное число расчётов, поскольку еще не было компьютеров в общедоступности.
Что же делать со сложными данных, для которых не выполняются допущения, лежащие в основе параметрической статистики? На помощь приходят методы ресемплинга. Сюда относятся перестановочный тест (рандомизация, permutation), бутстреп (bootstrap), jacknife, кросс-валидация и некоторые другие. . Любопытно, что эти методы также были разработаны в середине 20 века (например, Efron, 1979), однако они ждали своего часа с развитием компьютерных технологий. Разберем подробнее, как работают и в каких случаях актуальны методы ресемплинга.
1) Основным преимуществом, как мне кажется, является отсутствие необходимости обладать априорными знаниями о соответствии нашей генеральной совокупности какому-то теоретическому распределению. Мы можем вычислить распределение генеральной совокупности на основе наших данных, без необходимости аппроксимировать данные теоретическими распределениями и переживать о соответствии им (нашим данных теоретическому распределению). Этот принцип здорово отражен в названии одного из методов - bootstrap, что буквально означает пряжку ботинка, и принцип метода - грубо говоря вытянуть самого себя из болота за ботинок как в небезысвестной истории о бароне Мюнхгаузене (правда там кажется было за волосы).
2) Данный метод имеет ограничение на размер выборки. При выборке меньше 10 образцов доля ложноположительных результатов возрастает и превышает допустимое значение 0.05 (Johnston and Faulkner, 2020), поэтому на малых выборках ресемплинг методы не имеют смысла.
3) Принцип действия постаралась изложить в картинках без формул (похоже их удастся прикрепить только к следующему посту). В целом, ресемплинг методы выступают как альтернатива классической статистике в любых ее проявлениях - от простого сравнения двух выборок (то есть условно говоря, замена тесту Стьюдента и Манн-Уитни-Вилкоксону) до многофакторной ановы, линейной регрессии, методам понижения размерности, анализу временных рядов, и это я нашла только при поверхностном чтении книги (Шитиков и Розенберг, 2013). Вообще похоже что для всех возможных методов и подходов классической статистике есть аналог в пространстве перестановочных (ресемплинг) методов.
Вопрос - когда отправляем всеми любимую (особенно мной) классическую статистику на свалку истории, раз появился такой замечательный аналог?
Ответ - ни на какую свалку не отправляем, поскольку для большинства боевых задач стандартные методы не утратили своей актуальности и рекомендованы к применению.
Могу посоветовать обратить внимание на новый подход, в случае, если ваши данные плохо соответствуют теоретическому распределению, невозможно сделать повторности, наблюдается неравная форма распределений у выборок и в целом попадают в "серые зоны" классических методов.
По своему опыту скажу, что при оценке количества слоев клеток у корней, с которыми я работаю, действительно лучше сработал метод бутстрепинга, с помощью него не было обнаружено различий в выборках, в то время как и Манн-Уитни и тест Стьюдента их находили. Но у нас есть серьезные основания доверять скорее бутстрепу, поскольку похоже что мы столкнулись с неравной формой распределения, в случае которых Манн-Уитни начинает давать ложноположительные результаты, что по-видимому и произошло в моем случае.
А что вы думаете о способе считать описательные статистики с помощью ресемплинга? Если есть интерес к этой теме, в следующий раз попробую разобрать более прицельно эти методы и применение в реальных боевых задачах.
Пишите комментарии, понравился ли материал, что осталось непонятным, что стоит раскрыть более подробно.
BY Статистика и R в науке и аналитике
Share with your friend now:
tgoop.com/stats_for_science/13