WAZOWSKIRECOMMENDS Telegram 6
Месяц назад читал статью про Power Law (также известный как закон Ципфа или распределение Парето — известный принцип “80 на 20”). Не поверите — эту статью мне тоже порекомендовал ТикТок!

Помимо свойств этого вероятностного распределения, в статье описываются разные его примеры и механизмы, откуда оно может возникать. Но это мне интуиции не добавило, честно говоря. Зато вот что занятного я запомнил:

- Для многих распространенных показателей степени (< 2) в этом распределении бесконечное матожидание. Т.е. в любой конечной выборке среднее будет, конечно, конечным (🙂). Но ни к чему сходиться оно не будет, закон больших чисел для такого не работает. И даже когда матожидание конечно, практически у всех примеров бесконечная дисперсия. В частности, это всё означает, что не надо, например, для измерения использовать метрики, которые распределены по power law. Впрочем, про этот факт я уже более-менее знал раньше.

- Когда-то я пытался проверить, как распределена одна важная метрика в сервисе, над которым работал, — не power law ли. Ну я помнил, что плотность распределения нужно построить в логарифмической шкале, и, если это действительно power law, то там будет видна прямая. Ну а как нарисовать плотность? Через гистограмму. Ну и дальше надо подбирать размеры бинов (например, тоже геометрически), чтобы красиво получилось. А дальше оказалось, что в том SQL-подобном инструменте, которым я тогда пользовался, гистограммы для плотностей строились неправильно (не нормировались на размер бина). Так вот, всё это было зря. В статье приведён простой факт, что нужно перейти от плотности распределения (или PMF для дискретного случая) к его функции распределения (CDF), и уже 1 – CDF нарисовать в логарифмическом масштабе, там-то и будет прямая. И никаких гистограмм, бинов и т.п., это всё будет и проще, и менее шумным.

- А ещё, чтобы оценить показатель распределения, хочется в том логарифмическом масштабе найти угол наклона прямой, приближающей плотность или 1 – CDF. И интуитивно тут сразу начинаешь пользоваться методом наименьших квадратов, т.к. он очень простой. Так вот, оказывается, он даёт в этом случае смещенный показатель распределения. (Минимизация суммы квадратов в логарифмической шкале закономерно влечёт за собой какое-то смещение.) А вместо этого надо просто воспользоваться формулой с Википедии (а для оценки погрешности — (alpha – 1) / sqrt(n) ).



tgoop.com/WazowskiRecommends/6
Create:
Last Update:

Месяц назад читал статью про Power Law (также известный как закон Ципфа или распределение Парето — известный принцип “80 на 20”). Не поверите — эту статью мне тоже порекомендовал ТикТок!

Помимо свойств этого вероятностного распределения, в статье описываются разные его примеры и механизмы, откуда оно может возникать. Но это мне интуиции не добавило, честно говоря. Зато вот что занятного я запомнил:

- Для многих распространенных показателей степени (< 2) в этом распределении бесконечное матожидание. Т.е. в любой конечной выборке среднее будет, конечно, конечным (🙂). Но ни к чему сходиться оно не будет, закон больших чисел для такого не работает. И даже когда матожидание конечно, практически у всех примеров бесконечная дисперсия. В частности, это всё означает, что не надо, например, для измерения использовать метрики, которые распределены по power law. Впрочем, про этот факт я уже более-менее знал раньше.

- Когда-то я пытался проверить, как распределена одна важная метрика в сервисе, над которым работал, — не power law ли. Ну я помнил, что плотность распределения нужно построить в логарифмической шкале, и, если это действительно power law, то там будет видна прямая. Ну а как нарисовать плотность? Через гистограмму. Ну и дальше надо подбирать размеры бинов (например, тоже геометрически), чтобы красиво получилось. А дальше оказалось, что в том SQL-подобном инструменте, которым я тогда пользовался, гистограммы для плотностей строились неправильно (не нормировались на размер бина). Так вот, всё это было зря. В статье приведён простой факт, что нужно перейти от плотности распределения (или PMF для дискретного случая) к его функции распределения (CDF), и уже 1 – CDF нарисовать в логарифмическом масштабе, там-то и будет прямая. И никаких гистограмм, бинов и т.п., это всё будет и проще, и менее шумным.

- А ещё, чтобы оценить показатель распределения, хочется в том логарифмическом масштабе найти угол наклона прямой, приближающей плотность или 1 – CDF. И интуитивно тут сразу начинаешь пользоваться методом наименьших квадратов, т.к. он очень простой. Так вот, оказывается, он даёт в этом случае смещенный показатель распределения. (Минимизация суммы квадратов в логарифмической шкале закономерно влечёт за собой какое-то смещение.) А вместо этого надо просто воспользоваться формулой с Википедии (а для оценки погрешности — (alpha – 1) / sqrt(n) ).

BY Wazowski Recommends


Share with your friend now:
tgoop.com/WazowskiRecommends/6

View MORE
Open in Telegram


Telegram News

Date: |

Just at this time, Bitcoin and the broader crypto market have dropped to new 2022 lows. The Bitcoin price has tanked 10 percent dropping to $20,000. On the other hand, the altcoin space is witnessing even more brutal correction. Bitcoin has dropped nearly 60 percent year-to-date and more than 70 percent since its all-time high in November 2021. Telegram desktop app: In the upper left corner, click the Menu icon (the one with three lines). Select “New Channel” from the drop-down menu. “[The defendant] could not shift his criminal liability,” Hui said. The group also hosted discussions on committing arson, Judge Hui said, including setting roadblocks on fire, hurling petrol bombs at police stations and teaching people to make such weapons. The conversation linked to arson went on for two to three months, Hui said. “Hey degen, are you stressed? Just let it all out,” he wrote, along with a link to join the group.
from us


Telegram Wazowski Recommends
FROM American