tgoop.com/WazowskiRecommends/6
Last Update:
Месяц назад читал статью про Power Law (также известный как закон Ципфа или распределение Парето — известный принцип “80 на 20”). Не поверите — эту статью мне тоже порекомендовал ТикТок!
Помимо свойств этого вероятностного распределения, в статье описываются разные его примеры и механизмы, откуда оно может возникать. Но это мне интуиции не добавило, честно говоря. Зато вот что занятного я запомнил:
- Для многих распространенных показателей степени (< 2) в этом распределении бесконечное матожидание. Т.е. в любой конечной выборке среднее будет, конечно, конечным (🙂). Но ни к чему сходиться оно не будет, закон больших чисел для такого не работает. И даже когда матожидание конечно, практически у всех примеров бесконечная дисперсия. В частности, это всё означает, что не надо, например, для измерения использовать метрики, которые распределены по power law. Впрочем, про этот факт я уже более-менее знал раньше.
- Когда-то я пытался проверить, как распределена одна важная метрика в сервисе, над которым работал, — не power law ли. Ну я помнил, что плотность распределения нужно построить в логарифмической шкале, и, если это действительно power law, то там будет видна прямая. Ну а как нарисовать плотность? Через гистограмму. Ну и дальше надо подбирать размеры бинов (например, тоже геометрически), чтобы красиво получилось. А дальше оказалось, что в том SQL-подобном инструменте, которым я тогда пользовался, гистограммы для плотностей строились неправильно (не нормировались на размер бина). Так вот, всё это было зря. В статье приведён простой факт, что нужно перейти от плотности распределения (или PMF для дискретного случая) к его функции распределения (CDF), и уже 1 – CDF нарисовать в логарифмическом масштабе, там-то и будет прямая. И никаких гистограмм, бинов и т.п., это всё будет и проще, и менее шумным.
- А ещё, чтобы оценить показатель распределения, хочется в том логарифмическом масштабе найти угол наклона прямой, приближающей плотность или 1 – CDF. И интуитивно тут сразу начинаешь пользоваться методом наименьших квадратов, т.к. он очень простой. Так вот, оказывается, он даёт в этом случае смещенный показатель распределения. (Минимизация суммы квадратов в логарифмической шкале закономерно влечёт за собой какое-то смещение.) А вместо этого надо просто воспользоваться формулой с Википедии (а для оценки погрешности — (alpha – 1) / sqrt(n)
).
BY Wazowski Recommends
Share with your friend now:
tgoop.com/WazowskiRecommends/6