Распределение буквы по позициям в слове
Сегодня расскажу про поиск способа подсчета распределения буквы "ё" в слове.
Этап 1
При визуализации сведенных исходных данных по позиции не учитывается то, что, например, в одном слове "ё" на пятой позиции находится в конце, а в другом — посередине.
Переведем абсолютное место "ё" в относительное — проценты от длины слова. График получается шумным, тенденцию уловить сложно.
Можно измерить удаленность позиции "ё" от середины или конца слова, но при таком подходе снова не учитывается разница длины слов.
Этап 2
На помощь пришла статья про метод разделения слова (binning). Концептуально не отличается от процентов: делим длину на части и считаем, сколько таких частей "занимает" позиция буквы (только частей меньше ста). Этот подход помогает контролировать детальность данных и шум.
Для более точного определения центра слова нужно нечетное число частей. Остается выбрать наименее шумный вариант (в нашем случае — 3 части) и посчитать коэффициент.
#датавиз #рабочее
Сегодня расскажу про поиск способа подсчета распределения буквы "ё" в слове.
Этап 1
При визуализации сведенных исходных данных по позиции не учитывается то, что, например, в одном слове "ё" на пятой позиции находится в конце, а в другом — посередине.
Переведем абсолютное место "ё" в относительное — проценты от длины слова. График получается шумным, тенденцию уловить сложно.
Можно измерить удаленность позиции "ё" от середины или конца слова, но при таком подходе снова не учитывается разница длины слов.
Этап 2
На помощь пришла статья про метод разделения слова (binning). Концептуально не отличается от процентов: делим длину на части и считаем, сколько таких частей "занимает" позиция буквы (только частей меньше ста). Этот подход помогает контролировать детальность данных и шум.
Для более точного определения центра слова нужно нечетное число частей. Остается выбрать наименее шумный вариант (в нашем случае — 3 части) и посчитать коэффициент.
#датавиз #рабочее
tgoop.com/dataviz_addict/28
Create:
Last Update:
Last Update:
Распределение буквы по позициям в слове
Сегодня расскажу про поиск способа подсчета распределения буквы "ё" в слове.
Этап 1
При визуализации сведенных исходных данных по позиции не учитывается то, что, например, в одном слове "ё" на пятой позиции находится в конце, а в другом — посередине.
Переведем абсолютное место "ё" в относительное — проценты от длины слова. График получается шумным, тенденцию уловить сложно.
Можно измерить удаленность позиции "ё" от середины или конца слова, но при таком подходе снова не учитывается разница длины слов.
Этап 2
На помощь пришла статья про метод разделения слова (binning). Концептуально не отличается от процентов: делим длину на части и считаем, сколько таких частей "занимает" позиция буквы (только частей меньше ста). Этот подход помогает контролировать детальность данных и шум.
Для более точного определения центра слова нужно нечетное число частей. Остается выбрать наименее шумный вариант (в нашем случае — 3 части) и посчитать коэффициент.
#датавиз #рабочее
Сегодня расскажу про поиск способа подсчета распределения буквы "ё" в слове.
Этап 1
При визуализации сведенных исходных данных по позиции не учитывается то, что, например, в одном слове "ё" на пятой позиции находится в конце, а в другом — посередине.
Переведем абсолютное место "ё" в относительное — проценты от длины слова. График получается шумным, тенденцию уловить сложно.
Можно измерить удаленность позиции "ё" от середины или конца слова, но при таком подходе снова не учитывается разница длины слов.
Этап 2
На помощь пришла статья про метод разделения слова (binning). Концептуально не отличается от процентов: делим длину на части и считаем, сколько таких частей "занимает" позиция буквы (только частей меньше ста). Этот подход помогает контролировать детальность данных и шум.
Для более точного определения центра слова нужно нечетное число частей. Остается выбрать наименее шумный вариант (в нашем случае — 3 части) и посчитать коэффициент.
#датавиз #рабочее
BY Датавизнутая
Share with your friend now:
tgoop.com/dataviz_addict/28