tgoop.com/hse_cs_opensource/61
Last Update:
Indecies-kmeans
Репозиторий содержит код для поиска оптимального количества кластеров К для алгоритма кластеризации k-средних. В своей работе авторы исследуют метод инерции, основанным на новом Elbow индексе для определения числа кластеров, валидируя результат по метрике Силуэт. Исследователи отмечают, что инерциальные индексы работают лучше всего при усреднении результатов нескольких запусков кластеризации, а не при выборе лучшего, как считалось ранее. В конце авторы замечают, что однозначно лучшего индекса для определения количества кластеров выявить не удалось. Индекс SW (ширина силуэта) обычно приводит к наиболее сбалансированным решениям. Тем не менее, индекс XU превосходит SW на синтетических данных с большими кластерными смесями, особенно для данных меньшей размерности. Код может быть полезен дата аналитикам и DS-специалистам, а так же исследователям в области машинного обучения.
статья | код
BY Открытый код ФКН ВШЭ
Share with your friend now:
tgoop.com/hse_cs_opensource/61