20 лет назад я начал работать в системах MatLab и OriginLab c данными физических экспериментов, и это было начало пути анализа и визуализации данных. Рад, что работал, продолжаю работать и общаться с крутыми и максимально недушными командами в классных компаниях и как BI разработчик, и как независимый консультант, и как менеджер. Много драйва было в сообществе Tableau, что сильно увлекло, кардинально утащило в датавиз и изменило карьерный трек. Были блоги, статьи, конкурсы и много общения с аналитиками из разных стран.
Удивительно, но самые ценные вещи в аналитике узнаешь не на официальных мероприятиях и конференциях, а в неформальном общении и различных дата-активностях. Особенно интересные мысли приходят в кафе и барах. За пределами Слака и Джиры тоже есть жизнь, ну и такие вещи особенно запоминаются.
Накопилось много работ и мыслей, которые просто по времени не успеваю упаковывать в полноценные визы и статьи. Поэтому в Телеграме запускаю канал ‘Data Bar’, где буду писать про анализ данных и визуализацию максимально неформально.
Буду рад всем. Вэлкам:
https://www.tgoop.com/data_bar
Александр Варламов
Удивительно, но самые ценные вещи в аналитике узнаешь не на официальных мероприятиях и конференциях, а в неформальном общении и различных дата-активностях. Особенно интересные мысли приходят в кафе и барах. За пределами Слака и Джиры тоже есть жизнь, ну и такие вещи особенно запоминаются.
Накопилось много работ и мыслей, которые просто по времени не успеваю упаковывать в полноценные визы и статьи. Поэтому в Телеграме запускаю канал ‘Data Bar’, где буду писать про анализ данных и визуализацию максимально неформально.
Буду рад всем. Вэлкам:
https://www.tgoop.com/data_bar
Александр Варламов
NBA и скользящее среднее
NBA - потому что нравится, и вообще, баскетбол – лучшая игра с мячом, а на дворе плейофф. На Каггле периодически вываливают датасеты по NBA, и есть статистика по всем матчам с 1947 года. За 75 лет игра кардинально поменялась, поэтому прикольно поисследовать исторические данные.
Сумма очков за матч каждой команды и общий тотал используются в спортивной аналитике как описательные метрики матчей. Для начала анализа можно взять их, чтобы определить низовые и верховые матчи. Довольно интересно посмотреть средние за период и динамику.
На графике – очки за каждый матч каждой команды. Только матчи NBA без дополнительного времени. Дни без матчей исключены, чтобы не было пробелов. Цвета – команды.
Если построить среднюю за все время, то получим 103,6 – среднее число очков команды за матч на всем интервале времени. Просто среднее ничего не говорит о характере изменения характеристики. Попробуем посмотреть на скользящее среднее, которое работает как фильтр низких частот и убирает шумы. Усредним значения в окне -90; +90 дней для каждого дня, и получим красную линию на графике. Она показывает нелинейный тренд изменения. В Таблошечке это делается за 5-10 минут.
Итого: видим, области выше и ниже среднего, видим как изменялась игра, а по причинам – смотрим изменения правил в моменты изменения метрики.
В бизнесе и не только скользящее средние используем для:
- Сглаживания колебаний/шумов на графике
- Выделения трендов сезонности или событийности
Из веселого: слева снизу на графике есть точки матча ‘Fort Wayne Pistons’ и ‘Minneapolis Lakers’. Они сыграли со счетом (19:18) в ноябре 1950го.
В 50е была уникальная техника выполнения штрафных. Ютуб помнит.
Еще можно посмотреть скользящие средние по командам, по домашним и гостевым встречам, c разным размахом окон и много другого интересного. Ну и историю франшиз, до кучи, можно трекать. NBA – это вообще целая культура, которая драйвила даже наши уроки физры.
Датасет здесь: https://www.kaggle.com/datasets/gonzalogigena/nba-all-time-stats
NBA - потому что нравится, и вообще, баскетбол – лучшая игра с мячом, а на дворе плейофф. На Каггле периодически вываливают датасеты по NBA, и есть статистика по всем матчам с 1947 года. За 75 лет игра кардинально поменялась, поэтому прикольно поисследовать исторические данные.
Сумма очков за матч каждой команды и общий тотал используются в спортивной аналитике как описательные метрики матчей. Для начала анализа можно взять их, чтобы определить низовые и верховые матчи. Довольно интересно посмотреть средние за период и динамику.
На графике – очки за каждый матч каждой команды. Только матчи NBA без дополнительного времени. Дни без матчей исключены, чтобы не было пробелов. Цвета – команды.
Если построить среднюю за все время, то получим 103,6 – среднее число очков команды за матч на всем интервале времени. Просто среднее ничего не говорит о характере изменения характеристики. Попробуем посмотреть на скользящее среднее, которое работает как фильтр низких частот и убирает шумы. Усредним значения в окне -90; +90 дней для каждого дня, и получим красную линию на графике. Она показывает нелинейный тренд изменения. В Таблошечке это делается за 5-10 минут.
Итого: видим, области выше и ниже среднего, видим как изменялась игра, а по причинам – смотрим изменения правил в моменты изменения метрики.
В бизнесе и не только скользящее средние используем для:
- Сглаживания колебаний/шумов на графике
- Выделения трендов сезонности или событийности
Из веселого: слева снизу на графике есть точки матча ‘Fort Wayne Pistons’ и ‘Minneapolis Lakers’. Они сыграли со счетом (19:18) в ноябре 1950го.
В 50е была уникальная техника выполнения штрафных. Ютуб помнит.
Еще можно посмотреть скользящие средние по командам, по домашним и гостевым встречам, c разным размахом окон и много другого интересного. Ну и историю франшиз, до кучи, можно трекать. NBA – это вообще целая культура, которая драйвила даже наши уроки физры.
Датасет здесь: https://www.kaggle.com/datasets/gonzalogigena/nba-all-time-stats
This media is not supported in your browser
VIEW IN TELEGRAM
Small Multiples и адаптивная сетка
#tableautips
Small Multiples – это набор диаграмм одного типа и одного датасета. На русский Small Multiples хз как перевести.
Этот тип диаграмм очень помогает в адхоках для поиска аномалий или трендов в данных. На общей диаграмме/графике данные обычно агрегированы, поэтому с виду все ок, но проблемы могут быть в разных разрезах, на разных уровнях грануляции данных.
При построении пространство одной диаграммы разбивают на несколько подпространств, внутри каждого из которых существует свое подмножество данных, на них строятся свои диаграммы. Простыми словами, рисуем табличку X на Y, в каждой ячейке рисуем диаграмму.
В эдхоках исследований разбивают одну диаграмму на несколько по X и по Y и отдельно исследуют каждый сегмент.
Например, при анализе эффективности каналов привлечения трафика можно смотреть метрику ROAS (возврат на рекламу) в разрезах каналов (Google, Facebook…) и платформ (iOS, Android…). Так можно найти проблемные каналы.
В Tableau такое разбиение делается перетаскиванием категорий Channel и Platform на полки Columns и Rows. Это быстро и просто. А вот с одним разрезом возникают проблемы – его надо отобразить и по X и по Y.
В примере собраны цвета флагов всех стран и проценты каждого цвета на своем флаге. Параметр Columns задает число колонок. Тип диаграммы – Stacked Bar Chart. Можно поиграться с фильтрами, параметрами и сортировкой.
Как это работает:
- Нумеруем каждую диаграмму функцией INDEX().
- Строим таблицу с адресом первой ячейки (0, 0).
Ниже – вычисления, формирующие сетку визуализации. % в вычислении X возвращает остаток от деления (оч полезная функция, но ее мало используют в BI). INT – в данным случае аналог округления вниз, но FLOOR не работает с индексом.
X = (INDEX() - 1) % [Columns]
Y = INT((INDEX() - 1) / [Columns])
Итого: нашли функцию разбиения пространства, представили ее в параметрическом виде X=f(p), Y=f(p), можем кастомизировать сетку. Прелесть в том, что здесь простые арифметические функции: остаток от деления и округление вниз.
#tableautips
Small Multiples – это набор диаграмм одного типа и одного датасета. На русский Small Multiples хз как перевести.
Этот тип диаграмм очень помогает в адхоках для поиска аномалий или трендов в данных. На общей диаграмме/графике данные обычно агрегированы, поэтому с виду все ок, но проблемы могут быть в разных разрезах, на разных уровнях грануляции данных.
При построении пространство одной диаграммы разбивают на несколько подпространств, внутри каждого из которых существует свое подмножество данных, на них строятся свои диаграммы. Простыми словами, рисуем табличку X на Y, в каждой ячейке рисуем диаграмму.
В эдхоках исследований разбивают одну диаграмму на несколько по X и по Y и отдельно исследуют каждый сегмент.
Например, при анализе эффективности каналов привлечения трафика можно смотреть метрику ROAS (возврат на рекламу) в разрезах каналов (Google, Facebook…) и платформ (iOS, Android…). Так можно найти проблемные каналы.
В Tableau такое разбиение делается перетаскиванием категорий Channel и Platform на полки Columns и Rows. Это быстро и просто. А вот с одним разрезом возникают проблемы – его надо отобразить и по X и по Y.
В примере собраны цвета флагов всех стран и проценты каждого цвета на своем флаге. Параметр Columns задает число колонок. Тип диаграммы – Stacked Bar Chart. Можно поиграться с фильтрами, параметрами и сортировкой.
Как это работает:
- Нумеруем каждую диаграмму функцией INDEX().
- Строим таблицу с адресом первой ячейки (0, 0).
Ниже – вычисления, формирующие сетку визуализации. % в вычислении X возвращает остаток от деления (оч полезная функция, но ее мало используют в BI). INT – в данным случае аналог округления вниз, но FLOOR не работает с индексом.
X = (INDEX() - 1) % [Columns]
Y = INT((INDEX() - 1) / [Columns])
Итого: нашли функцию разбиения пространства, представили ее в параметрическом виде X=f(p), Y=f(p), можем кастомизировать сетку. Прелесть в том, что здесь простые арифметические функции: остаток от деления и округление вниз.
Contour Plot и плотность событий в Seaborn
Contour Plot - подходящий тип диаграммы, когда надо анализировать результаты множества событий на плоскости или карте. Используется при большом числе событий, когда при отображении точек не получается адекватно оценить плотность. Встречается в научных статьях, есть в пакетах Matlab, Origin Pro. В питоне для построения можно использовать библиотеку Seaborn.
Под капотом Seaborn при построении Contour Plot ищется функция 3d поверхности, где ось Z отвечает за плотность распределения событий на участке площади X x Y. Используется способ оценки плотности случайной величины KDE (Kernel Density Estimation) или Ядерная оценка плотности.
На выходе получаем 2d диаграмму, где отображаются контуры срезов 3d поверхности. Естественно, есть параметры построения, например, число контуров.
Полную логику построения и питон код я описывал в своем блоге.
На заглавном скриншоте - плотность преступлений в Лондоне по категориям. Категории разделены по логике Small Multiple (прошлый пост), где для каждой категории строим свой виз.
Полная интерактивная версия на Tableau Public.
Можно переключать на другие типы визуализаций, например, сравнить с dot plot, когда каждое событие отображается точкой на карте. Подложка карт - кастомная от mapbox.com.
Интересно сравнить кражи велосипедов и кражи автомобилей. Еще в категории Other crime есть ярко выраженный максимум, и он на окраине Лондона. Попробуйте догадаться что там.
Contour Plot - подходящий тип диаграммы, когда надо анализировать результаты множества событий на плоскости или карте. Используется при большом числе событий, когда при отображении точек не получается адекватно оценить плотность. Встречается в научных статьях, есть в пакетах Matlab, Origin Pro. В питоне для построения можно использовать библиотеку Seaborn.
Под капотом Seaborn при построении Contour Plot ищется функция 3d поверхности, где ось Z отвечает за плотность распределения событий на участке площади X x Y. Используется способ оценки плотности случайной величины KDE (Kernel Density Estimation) или Ядерная оценка плотности.
На выходе получаем 2d диаграмму, где отображаются контуры срезов 3d поверхности. Естественно, есть параметры построения, например, число контуров.
Полную логику построения и питон код я описывал в своем блоге.
На заглавном скриншоте - плотность преступлений в Лондоне по категориям. Категории разделены по логике Small Multiple (прошлый пост), где для каждой категории строим свой виз.
Полная интерактивная версия на Tableau Public.
Можно переключать на другие типы визуализаций, например, сравнить с dot plot, когда каждое событие отображается точкой на карте. Подложка карт - кастомная от mapbox.com.
Интересно сравнить кражи велосипедов и кражи автомобилей. Еще в категории Other crime есть ярко выраженный максимум, и он на окраине Лондона. Попробуйте догадаться что там.
Ternary Plot и Игра престолов
Немного экзотики датавиза. Ternary Plot – диаграмма нестандартная, ее встретишь редко. Но интересна тем, что показывает 3D данные на плоскости. На ней можно увидеть соотношение 3х компонент или метрик, в сумме дающих 100%.
1ая диаграмма на примере показывает содержание глины, песка и ила для произвольных образцов почв. Диаграмма – это треугольник, каждая вершина которого отвечает за 100% одной компоненты. В примере: сверху – глина, слева – песок, справа – ил. Соответственно, для каждого образца почвы будет своя точка внутри треугольника, определяющая соотношение компонент. Для нескольких образцов почв будет семейство точек.
Но не только почвоведам это интересно. Во втором примере визуализируется частота определенных слов в диалогах персонажей ‘Игры престолов’. Наиболее уникальные для персонажа слова (редко используемые другими) приближены к вершинам треугольника, обозначающим этих персонажей. Это делал Adam McCann.
У меня вот идея есть как-нибудь собрать предвыборные обещания политиков и визуализировать это.
Если совместить Ternary Plot и плотность точек, то получим интересные паттерны. Я делал такое для топовых игроков NBA. Диаграммы на скриншоте снизу. Вершины треугольника здесь – 3х очковые, 2х очковые и штрафные (1 очко). Диаграммы игроков сильно различаются, и это отражает различия в стиле игры.
Этот виз выбрали the Viz of the Day на Tableau Public. Знаю, что в Китае разбирали на практических занятиях.
По построению – формулы школьной геометрии, можно здесь почитать как делать.
Немного экзотики датавиза. Ternary Plot – диаграмма нестандартная, ее встретишь редко. Но интересна тем, что показывает 3D данные на плоскости. На ней можно увидеть соотношение 3х компонент или метрик, в сумме дающих 100%.
1ая диаграмма на примере показывает содержание глины, песка и ила для произвольных образцов почв. Диаграмма – это треугольник, каждая вершина которого отвечает за 100% одной компоненты. В примере: сверху – глина, слева – песок, справа – ил. Соответственно, для каждого образца почвы будет своя точка внутри треугольника, определяющая соотношение компонент. Для нескольких образцов почв будет семейство точек.
Но не только почвоведам это интересно. Во втором примере визуализируется частота определенных слов в диалогах персонажей ‘Игры престолов’. Наиболее уникальные для персонажа слова (редко используемые другими) приближены к вершинам треугольника, обозначающим этих персонажей. Это делал Adam McCann.
У меня вот идея есть как-нибудь собрать предвыборные обещания политиков и визуализировать это.
Если совместить Ternary Plot и плотность точек, то получим интересные паттерны. Я делал такое для топовых игроков NBA. Диаграммы на скриншоте снизу. Вершины треугольника здесь – 3х очковые, 2х очковые и штрафные (1 очко). Диаграммы игроков сильно различаются, и это отражает различия в стиле игры.
Этот виз выбрали the Viz of the Day на Tableau Public. Знаю, что в Китае разбирали на практических занятиях.
По построению – формулы школьной геометрии, можно здесь почитать как делать.
Спортивная аналитика и портреты игроков NBA
В спортивной аналитике много специфических метрик, а для конкретных видов спорта - свои обозначения. espn.com - топ спортивных сайтов по посещаемости. Там много статей, но информация обычно дается в виде таблиц, где метрики - аббревиатуры, в которых ничего не понятно без расшифровки. В баскетболе NBA, например, 3PM (3-Point Field Goal Made) - забитые трехочковые.
Еще считают различные индексы, например, NFL FPI - Football Power Index в американском футболе для каждой команды. Для NFL FPI рассчитывают 3 направления (Атака, Защита, Стратегия). ESPN использует для этого свою предиктивную систему. На выходе имеем коэффициенты атаки (OFF), защиты (DEF), стратегии (ST) и сам индекс мощности команды (FPI).
Такие таблицы в разных спортах мозг категорически отказывается воспринимать.
Cтало интересно взять метрики NBA за почти 30 лет (на Kaggle такой датасет есть) по каждому игроку и сделать виз с портретами игроков в разрезе трех направлений (атака, защита, стратегия). Была гипотеза, что паттерны игроков с разными стилями игры будут сильно различаться.
В итоге от процесса кайфанул, поработал с метриками NBA и результат получился классный.
Для направлений атаки взял очки(PTS), защиты - перехваты (STL), подборы в защите (DREB) и блокшоты (BLK), стратегии - передачи (AST) и подборы в атаке (OREB). В данных оставил регулярные матчи (их в сезоне 82 у каждой команды) и плейофф. Убрал игроков с менее 40 игр в сезоне.
Для каждого игрока строится Ternary Plot (из прошлого поста), где направления Атака, Защита и Стратегия нормируются. Каждая точка - матч игрока, а в тултипах много информации об игроке и его метриках в матче. Получаются "портреты" игроков, и классно сравнивать диаграммы игроков которых знаешь. Все игроки сортируются по метрикам, получаются топы. Например, можно посмотреть топ по проценту попаданий штрафных.
Их прикольного - в Tableau получилось для плотности точек (Density) сделать нативно контуры. Часто получается структура агата, поэтому, назвал виз 'NBA Gems'.
В спортивной аналитике много специфических метрик, а для конкретных видов спорта - свои обозначения. espn.com - топ спортивных сайтов по посещаемости. Там много статей, но информация обычно дается в виде таблиц, где метрики - аббревиатуры, в которых ничего не понятно без расшифровки. В баскетболе NBA, например, 3PM (3-Point Field Goal Made) - забитые трехочковые.
Еще считают различные индексы, например, NFL FPI - Football Power Index в американском футболе для каждой команды. Для NFL FPI рассчитывают 3 направления (Атака, Защита, Стратегия). ESPN использует для этого свою предиктивную систему. На выходе имеем коэффициенты атаки (OFF), защиты (DEF), стратегии (ST) и сам индекс мощности команды (FPI).
Такие таблицы в разных спортах мозг категорически отказывается воспринимать.
Cтало интересно взять метрики NBA за почти 30 лет (на Kaggle такой датасет есть) по каждому игроку и сделать виз с портретами игроков в разрезе трех направлений (атака, защита, стратегия). Была гипотеза, что паттерны игроков с разными стилями игры будут сильно различаться.
В итоге от процесса кайфанул, поработал с метриками NBA и результат получился классный.
Для направлений атаки взял очки(PTS), защиты - перехваты (STL), подборы в защите (DREB) и блокшоты (BLK), стратегии - передачи (AST) и подборы в атаке (OREB). В данных оставил регулярные матчи (их в сезоне 82 у каждой команды) и плейофф. Убрал игроков с менее 40 игр в сезоне.
Для каждого игрока строится Ternary Plot (из прошлого поста), где направления Атака, Защита и Стратегия нормируются. Каждая точка - матч игрока, а в тултипах много информации об игроке и его метриках в матче. Получаются "портреты" игроков, и классно сравнивать диаграммы игроков которых знаешь. Все игроки сортируются по метрикам, получаются топы. Например, можно посмотреть топ по проценту попаданий штрафных.
Их прикольного - в Tableau получилось для плотности точек (Density) сделать нативно контуры. Часто получается структура агата, поэтому, назвал виз 'NBA Gems'.
История одного аналитика и
Реддит эффект
Наверное, большинство в курсе, что такое Reddit. Главную страницу реддита раньше называли 'Главной страницей интернета'. Реддит - это, конечно же, контент и комментарии.
Сегодня будет реальная история одного аналитика, на которого внезапно обрушилась популярность.
Это парень, зовут его Bo McCready. Живет в Остине, Техас. Мы знакомы по дата комьюнити #datafam, где учились и делали визы.
Это было 5 лет назад. Ему было 30, и он работал консультантом в какой-то компании. Как-то раз, Бо взял датасет по фильмам и жанрам и построил простую и понятную визуализацию (первая на скриншоте). Там все просто - графики количества фильмов по жанрам и годам за 100 лет, никакой ракетной науки. Дата комьюнити тогда сидело в Твиттере, поэтому он сделал твит с визом и заодно закинул его в Реддит, в r/dataisbeautiful. А это самый большой сабреддит по датавизу, сейчас там 21М юзеров. Ну закинул и закинул.
В Реддите самое классное - это комментарии, именно ради них надо публиковать свои работы - получите поистине офигенный фидбек и позитивный и негативный. Пользователи голосуют за посты, чем больше апвотов (Upvotes), тем выше в топе пост.
На следующее утро Бо проснулся и офигел - его работа была на главной Реддита, которую часто называют "главная страница интернета". Оригинальный пост
Оригинальный виз на Tableau Public
И понеслось. Работу впоследствии перевели на несколько языков, публиковали в изданиях, у Бо брали интервью. Он еще много визов сделал, и некоторые из них стали успешнее.
Его интервью Forbes
Самое сладкое - Эппл предложил ему работу. Он там до сих пор работает в Data Science.
Вот такая история со счастливым концом.
(Свой же собес в Эппл я благополучно провалил)
Это Reddit-effect, и что такое оказаться на главной странице интернета.
Еще посты Бо:
От том, как его работу опубликовали в New York Post (75k Upvotes)
Hey Jude Lyrical Composition (58k Upvotes). Зацените пайчарт
Рейтинги сериалов (92k Upvotes)
Твиттер Бо
Реддит эффект
Наверное, большинство в курсе, что такое Reddit. Главную страницу реддита раньше называли 'Главной страницей интернета'. Реддит - это, конечно же, контент и комментарии.
Сегодня будет реальная история одного аналитика, на которого внезапно обрушилась популярность.
Это парень, зовут его Bo McCready. Живет в Остине, Техас. Мы знакомы по дата комьюнити #datafam, где учились и делали визы.
Это было 5 лет назад. Ему было 30, и он работал консультантом в какой-то компании. Как-то раз, Бо взял датасет по фильмам и жанрам и построил простую и понятную визуализацию (первая на скриншоте). Там все просто - графики количества фильмов по жанрам и годам за 100 лет, никакой ракетной науки. Дата комьюнити тогда сидело в Твиттере, поэтому он сделал твит с визом и заодно закинул его в Реддит, в r/dataisbeautiful. А это самый большой сабреддит по датавизу, сейчас там 21М юзеров. Ну закинул и закинул.
В Реддите самое классное - это комментарии, именно ради них надо публиковать свои работы - получите поистине офигенный фидбек и позитивный и негативный. Пользователи голосуют за посты, чем больше апвотов (Upvotes), тем выше в топе пост.
На следующее утро Бо проснулся и офигел - его работа была на главной Реддита, которую часто называют "главная страница интернета". Оригинальный пост
Оригинальный виз на Tableau Public
И понеслось. Работу впоследствии перевели на несколько языков, публиковали в изданиях, у Бо брали интервью. Он еще много визов сделал, и некоторые из них стали успешнее.
Его интервью Forbes
Самое сладкое - Эппл предложил ему работу. Он там до сих пор работает в Data Science.
Вот такая история со счастливым концом.
(Свой же собес в Эппл я благополучно провалил)
Это Reddit-effect, и что такое оказаться на главной странице интернета.
Еще посты Бо:
От том, как его работу опубликовали в New York Post (75k Upvotes)
Hey Jude Lyrical Composition (58k Upvotes). Зацените пайчарт
Рейтинги сериалов (92k Upvotes)
Твиттер Бо
Инсайты в данных и индийский крикет
Аналитики превращают хаос данных в инсайты. Они часто видят то, что не видят остальные. Для этого они, в общем то и нужны.
В рамках очередного #makeovermonday мне как-то стало интересно сделать визуализацию, которая и существует и не существует одновременно. В качестве заглавной картинка моего виза об индийском крикете и его звездах. Текстура травы тоже неслучайна. Здесь используется стереограмма - штука довольно популярная в недалеком прошлом. Книжки еще были такие: "Magic Eye".
Люди, знакомые с подобными картинками, быстро находят то, что изображено. Для тех же, кто не знаком, или по каким-то причинам не видят 3D изображения, это просто набор точек.
Виз исключительно экспериментальный - в нем индийский крикет, псевдо 3D c переключениями и минимальным интерактивом. До этого я не видел таких случаев использования стереограмм, поэтому было интересно попробовать.
В самой визуализации есть переключение глубины текста и типов диаграмм. Еще работают тултипы при наведении.
Этот виз не все увидели и поняли, но тот факт, что в комментарии к твиту пришел Andy Kirk, который много сделал для датавиза, и оставил положительный коммент, - это более чем достаточно.
Посыл всей этой истории: одно и то же может быть очевидным и неочевидным для разных групп людей.
Так же и в бизнесе с дашбордами. Одни видят в них инсайты, другие - нет. Искусству поиска инсайтов на дашбордах, и что с ними делать дальше, практически не учат. Хотя бизнесу нужны именно выводы из данных, а дашборды вторичны, и это просто инструмент.
В команде делаем еженедельный обзор дашей для бизнеса с инсайтами. Очень крутая история, мало где практикуется, но BI становится ближе к бизнесу и пониманию процессов, а бизнес - ближе к данным.
Аналитики превращают хаос данных в инсайты. Они часто видят то, что не видят остальные. Для этого они, в общем то и нужны.
В рамках очередного #makeovermonday мне как-то стало интересно сделать визуализацию, которая и существует и не существует одновременно. В качестве заглавной картинка моего виза об индийском крикете и его звездах. Текстура травы тоже неслучайна. Здесь используется стереограмма - штука довольно популярная в недалеком прошлом. Книжки еще были такие: "Magic Eye".
Люди, знакомые с подобными картинками, быстро находят то, что изображено. Для тех же, кто не знаком, или по каким-то причинам не видят 3D изображения, это просто набор точек.
Виз исключительно экспериментальный - в нем индийский крикет, псевдо 3D c переключениями и минимальным интерактивом. До этого я не видел таких случаев использования стереограмм, поэтому было интересно попробовать.
В самой визуализации есть переключение глубины текста и типов диаграмм. Еще работают тултипы при наведении.
Этот виз не все увидели и поняли, но тот факт, что в комментарии к твиту пришел Andy Kirk, который много сделал для датавиза, и оставил положительный коммент, - это более чем достаточно.
Посыл всей этой истории: одно и то же может быть очевидным и неочевидным для разных групп людей.
Так же и в бизнесе с дашбордами. Одни видят в них инсайты, другие - нет. Искусству поиска инсайтов на дашбордах, и что с ними делать дальше, практически не учат. Хотя бизнесу нужны именно выводы из данных, а дашборды вторичны, и это просто инструмент.
В команде делаем еженедельный обзор дашей для бизнеса с инсайтами. Очень крутая история, мало где практикуется, но BI становится ближе к бизнесу и пониманию процессов, а бизнес - ближе к данным.
В подготовке данных часто используют понятия Wide Data и Narrow Data. Этими двумя понятиями обозначают типы представления табличных данных. Первый тип Wide (широкая таблица) содержит метрики в виде полей (столбцов), а Narrow (узкая таблица) - в виде строк. Понятия эти базовые, их спрашивают на собесах, поэтому знать надо.
Широкая таблица (первая на скриншоте) в каждой строке содержит значение всех метрик за месяц, а узкая таблица (вторая на скриншоте) - значение только одной метрики за месяц в строке. Данные одни и те же, но по-разному представлены. В узком варианте число строк увеличивается в X раз, где X - число метрик, поэтому такие таблицы еще называют длинными. И узкие таблицы содержат избыточные данные (месяцы повторяются в примере).
Широкие таблицы привычнее и используются чаще (сводные таблицы). Преобразование широкой формы в узкую в Tableau производим операцией PIVOT. В базах данных (не во всех есть), например, BigQuery - UNPIVOT; python pandas - melt.
Здесь покажу как сделать фильтр метрик в Tableau не преобразовывая широкую таблицу. Недавно про это задавали вопрос в чате Tableau, и есть мнение, что невозможно сделать такой фильтр только по выбранным метрикам. Я давно пользуюсь на проде, поэтому делюсь.
Узкие таблицы для Tableau более универсальны, если нужны фильтры метрик, и делаете сложные дашборды. Но придется повозиться с единицами измерения метрик.
Если же нужен 1 фильтр метрик для одной визуализации, широкую таблицу можно не изменять - не хочется для большого количества данных кратно увеличивать число строк.
Основная проблема с фильтром метрик в Tableau - в фильтр Measure Names берутся все метрики из панели Data - Measures. 12 лет идее настройки быстрого фильтра метрик. Но это не в тренде, и в приоритете у компании эйай, табло пульс, Эйшштейн и другие невероятно полезные фичи. Пользователи же пока размножают данные юнионами.
Чтобы не ждать еще 12 лет и сейчас убрать ненужные метрики из фильтра можно:
1. Перетащить ненужные метрики в раздел Dimensions. Не со всеми вычислениями работает, напр. WINDOW_STDEV, COUNTD, MEDIAN и некоторыми другими.
2. Использовать расчеты ненужных в фильтре метрик прямо на полках (shelves), а не делать вычисляемые поля.
3. Скрыть в панели Data неиспользуемые поля. Если поля или вычисления используются на визуализациях, они не скроются.
4. Если три метода выше не работают, применяем микрохирургию и редактируем файл воркбука .twb. Воркбук - это .xml файл, поэтому редактируем в любом текстовом редакторе.
Файл .twbx - это zip архив с файлом .twb и экстрактом.
- Ищем вычисление по названию, вставляем 'hidden = true' (кусок кода на скриншоте)
- Сохраняем и открываем в Tableau. Это поле будет скрыто
Так показываем в фильтре только нужные метрики.
Please open Telegram to view this post
VIEW IN TELEGRAM
Анализ временных рядов в бизнесе и 25 полезных фич
Временной анализ в бизнесе интересен всем, поскольку бизнес должен расти; и, соответственно, следят за ростом метрик. Должны расти пользователи, заказы, продажи и так далее. Ключевые метрики выводят на некий царь-дашборд компании, где можно отслеживать динамику, например, по месяцам. Это высокоуровневые дашборды, - они не подразумевают какого-то интерактива, а предоставляют обзор данных (Overview). При падении какой-то метрики сложно понять причины, поэтому приходится опускаться на уровни ниже, другие грануляции данных, чтобы обнаружить проблемы.
Само понятие ‘Анализ’ подразумевает разложение большого на малые части. При проектировании аналитических дашбордов с возможностями переключения на разные уровни грануляции, возможностью исследовать выбросы, сравнивать периоды, работать с прогнозами, возникают типовые задачи.
Сегодня я возвращаюсь на пару месяцев назад, когда выступал на русскоязычной Tableau User Group и рассказывал про временной анализ в бизнесе.
Спасибо организаторам: Егору Ларину, Роме Бунину, и Саше Баракову. Запись TUG здесь.
По временному анализу собрал около 25 методов и фич именно для бизнеса, которые работали и работают именно в аналитических бизнеc-бордах разных компаний.
Все, что есть в дашборде, делал в разных компаниях и командах. Фичи и методы описаны при наведении на заголовки, также там есть частота использования на дашбордах. Можно скачивать, смотреть вычисления и разбираться как работает. Комбо таких фич дают классные инструменты анализа.
Собирал и оформлял все вместе еще с зимы. Основная идея – охватить все (или почти все) методы временного анализа в различных бизнес-кейсах. На таких графиках принимались решения иногда на десятки миллионов долларов. Даш завершен и работает, но это только первая часть по временному анализу. Будет 2я с выбросами, трендами и т.д.
Временной анализ в бизнесе интересен всем, поскольку бизнес должен расти; и, соответственно, следят за ростом метрик. Должны расти пользователи, заказы, продажи и так далее. Ключевые метрики выводят на некий царь-дашборд компании, где можно отслеживать динамику, например, по месяцам. Это высокоуровневые дашборды, - они не подразумевают какого-то интерактива, а предоставляют обзор данных (Overview). При падении какой-то метрики сложно понять причины, поэтому приходится опускаться на уровни ниже, другие грануляции данных, чтобы обнаружить проблемы.
Само понятие ‘Анализ’ подразумевает разложение большого на малые части. При проектировании аналитических дашбордов с возможностями переключения на разные уровни грануляции, возможностью исследовать выбросы, сравнивать периоды, работать с прогнозами, возникают типовые задачи.
Сегодня я возвращаюсь на пару месяцев назад, когда выступал на русскоязычной Tableau User Group и рассказывал про временной анализ в бизнесе.
Спасибо организаторам: Егору Ларину, Роме Бунину, и Саше Баракову. Запись TUG здесь.
По временному анализу собрал около 25 методов и фич именно для бизнеса, которые работали и работают именно в аналитических бизнеc-бордах разных компаний.
Все, что есть в дашборде, делал в разных компаниях и командах. Фичи и методы описаны при наведении на заголовки, также там есть частота использования на дашбордах. Можно скачивать, смотреть вычисления и разбираться как работает. Комбо таких фич дают классные инструменты анализа.
Собирал и оформлял все вместе еще с зимы. Основная идея – охватить все (или почти все) методы временного анализа в различных бизнес-кейсах. На таких графиках принимались решения иногда на десятки миллионов долларов. Даш завершен и работает, но это только первая часть по временному анализу. Будет 2я с выбросами, трендами и т.д.
Viz of the Day
и как его получить
Три для назад я получил 10й 'Viz of the Day’ на Tableau Public. Это виз одефрагментации диска кино ‘Cast & Crew IMDb Trends’. Технически он несложный. Делал для поиска наиболее продуктивных и рейтинговых актрис, актеров и режиссеров. С дизайном не заморачивался – там его просто нет 😀. Сделал примерно за час-полтора на датасете IMDb.
Периодически спрашивают как получить #VOTD. Сегодня расскажу, что этот такое, и как можно получить такую ачивку.
Tableau Public – это самый большой публичный архив визуализаций в среде инструментов BI и источник вдохновения. Там уже более 8 млн пользователей. Оттуда черпаются идеи для визуализаций других направлений: js, Power BI, Qlik и пр.
‘The Viz of the Day’ – это статус, который присваивается визам на Tableau Public каждый день кроме выходных. Такие визы попадают на главную страницу Tableau Public, про них пишут в соцсетях.
Аналитики, работающие c Tableau, приходят на паблик за идеями и фичами. Большинство авторов не закрывают свои работы, и можно посмотреть, как они сделаны. Работы с паблика разбираются на лабах, встречах аналитиков, иногда выигрывают различные премии по визуализации.
Если работаете с Tableau, получить такую ачивку прикольно и полезно. Tableau бустит ваш профиль в соцсетях, появляются новые контакты, люди подписываются на ваш контент. Это может положительно повлиять на ваш профиль на паблике и сыграть роль в дальнейшей карьере. Andy Kriebel нанимал людей в Facebook в 2012 году и рассказывал про то, что смотрел на внешние работы претендентов. В топовых вакансиях со знанием Tableau тоже просят ссылки на паблик.
Итак, 'Viz of the Day', на мой взгляд, дают визуализациям по следующим критериям:
1️⃣ . Актуальность. То есть, если к определенный дате вы делаете интересный виз. Например, к 4 мая, сделали визуализацию о ‘Звездных войнах.’
2️⃣ . Массовость аудитории. Делайте виз на данных, понятных большинству пользователей. Например, на данных фильмов. Фильмы и сериалы смотрят все, поэтому это максимизирует охваты.
3️⃣ . Дизайн. Интересный и нетривиальный дизайн приковывает внимание. И даже с минимумом калькуляций можно сделать красивый виз. Здесь большую роль играют кастомные палитры, шрифты, шейпы. Много дополнительной работы в фотошопе или иллюстраторе.
4️⃣ . Нетривиальные визуализации. Нестандартные визуализации и приемы, раскрывающие по-новому возможности инструмента, привлекают пользователей. Им интересно как сделать подобный виз, они стараются разобраться в устройстве воркбука. Но здесь желательно знать что уже сделано с технической точки зрения на Tableau Public.
5️⃣ . Бизнес-дашборды. В последние пару лет на паблике стали популярны секси бизнес-дашборды. Надо сказать, что со здоровым продом они мало чего общего имеют. Но на просторах паблика можно поэкспериментировать с закругленными барами, переключениями фонов и другими фичами. Такие дашборды популярны у начинающих пользователей в бизнес среде.
6️⃣ . Визуализации для различных активностей и проектов Tableau. Комьюнити Tableau проводит много разных #MakeoverMonday, #SportsVizSunday, #WorkoutWednesday и ряд других. За тредами таких визуализаций следит много людей, и у вас есть шанс научиться чему-то новому.
Бывают очень хорошие работы, но их не видят. И здесь продвижение играет не последнюю роль. Для того, чтобы команда Tableau и пользователи увидели вашу работу нужно:
1️⃣ . Делать теги на паблике. В свойствах виза можно добавлять описание, там же добавить теги, напр. #business
2️⃣ . Шарить работы в соцсетях. Сейчас это Линкедин и Твиттер. Обязательно тегать #tableau и #datafam (data family).
Есть еще сезон отпусков и праздники, когда в принципе меньше делают на паблике.
А вообще, делайте то что нравится и делитесь этим. Прямо задачу получить #VOTD лучше не ставить – просто кайфуйте от процесса.
и как его получить
Три для назад я получил 10й 'Viz of the Day’ на Tableau Public. Это виз о
Периодически спрашивают как получить #VOTD. Сегодня расскажу, что этот такое, и как можно получить такую ачивку.
Tableau Public – это самый большой публичный архив визуализаций в среде инструментов BI и источник вдохновения. Там уже более 8 млн пользователей. Оттуда черпаются идеи для визуализаций других направлений: js, Power BI, Qlik и пр.
‘The Viz of the Day’ – это статус, который присваивается визам на Tableau Public каждый день кроме выходных. Такие визы попадают на главную страницу Tableau Public, про них пишут в соцсетях.
Аналитики, работающие c Tableau, приходят на паблик за идеями и фичами. Большинство авторов не закрывают свои работы, и можно посмотреть, как они сделаны. Работы с паблика разбираются на лабах, встречах аналитиков, иногда выигрывают различные премии по визуализации.
Если работаете с Tableau, получить такую ачивку прикольно и полезно. Tableau бустит ваш профиль в соцсетях, появляются новые контакты, люди подписываются на ваш контент. Это может положительно повлиять на ваш профиль на паблике и сыграть роль в дальнейшей карьере. Andy Kriebel нанимал людей в Facebook в 2012 году и рассказывал про то, что смотрел на внешние работы претендентов. В топовых вакансиях со знанием Tableau тоже просят ссылки на паблик.
Итак, 'Viz of the Day', на мой взгляд, дают визуализациям по следующим критериям:
Бывают очень хорошие работы, но их не видят. И здесь продвижение играет не последнюю роль. Для того, чтобы команда Tableau и пользователи увидели вашу работу нужно:
Есть еще сезон отпусков и праздники, когда в принципе меньше делают на паблике.
А вообще, делайте то что нравится и делитесь этим. Прямо задачу получить #VOTD лучше не ставить – просто кайфуйте от процесса.
Please open Telegram to view this post
VIEW IN TELEGRAM
Гармонизация хаоса и футбол
Стартовал ЕВРО-2024. Поэтому сегодня про самый популярный вид спорта.
Когда смотришь футбол, не всегда задумываешься, что есть какие-то паттерны в поведении игроков и в матчах в целом.
Можно нарисовать футбольное поле и представить все передачи (passes) в виде линий. Такие диаграммы можно найти в сети. Для разных матчей они отличаются.
А что, если взять большой объем данных по сотням матчей и представить все передачи в виде линий? Прикольно было сделать такое. Взял данные 890 матчей, где есть координаты начала и конца каждой передачи. Разбил футбольное поле по квадратам 1 метр и все линии передач из одного квадрата заменял одной линией, которой показывал среднее направление всех передач. Получилась интересная картина пасов, которые можно фильтровать по типам.
Весь процесс описал в статье: 'Упорядочивая хаос. Поиск инсайтов в данных'
На визуализации видны паттерны атаки, и это производит сильный эффект на зрителя, который раньше не задумывался о том, что можно футбол описать графически.
В Реддите пост с видео набрал 11k Upvotes
На видео из хаоса линий рождается упорядоченная картина. Это отличный пример того, что на большом объеме данных можно увидеть паттены, которые не видны на малом.
Еще делал настраиваемое векторное поле по этим данным.
Вообще, представление данных различных видов спорта в виде векторных полей довольно неспецифично, но визуализации получаются крутые. Сделаю по EURO-24 как только выйдут новые данные.
Еще сравнил женский и мужской футбол. Там тоже можно найти много интересных паттернов
Всегда классно, когда идеи передаются другим людям через посты, и ребята совершенствуют визуализации. Пост выше вдохновил Karim Douieb сделать крутой виз
Он потом еще делал визуализацию "Football Wind" . И выставлял работу на DataViz выставке в Париже
Стартовал ЕВРО-2024. Поэтому сегодня про самый популярный вид спорта.
Когда смотришь футбол, не всегда задумываешься, что есть какие-то паттерны в поведении игроков и в матчах в целом.
Можно нарисовать футбольное поле и представить все передачи (passes) в виде линий. Такие диаграммы можно найти в сети. Для разных матчей они отличаются.
А что, если взять большой объем данных по сотням матчей и представить все передачи в виде линий? Прикольно было сделать такое. Взял данные 890 матчей, где есть координаты начала и конца каждой передачи. Разбил футбольное поле по квадратам 1 метр и все линии передач из одного квадрата заменял одной линией, которой показывал среднее направление всех передач. Получилась интересная картина пасов, которые можно фильтровать по типам.
Весь процесс описал в статье: 'Упорядочивая хаос. Поиск инсайтов в данных'
На визуализации видны паттерны атаки, и это производит сильный эффект на зрителя, который раньше не задумывался о том, что можно футбол описать графически.
В Реддите пост с видео набрал 11k Upvotes
На видео из хаоса линий рождается упорядоченная картина. Это отличный пример того, что на большом объеме данных можно увидеть паттены, которые не видны на малом.
Еще делал настраиваемое векторное поле по этим данным.
Вообще, представление данных различных видов спорта в виде векторных полей довольно неспецифично, но визуализации получаются крутые. Сделаю по EURO-24 как только выйдут новые данные.
Еще сравнил женский и мужской футбол. Там тоже можно найти много интересных паттернов
Всегда классно, когда идеи передаются другим людям через посты, и ребята совершенствуют визуализации. Пост выше вдохновил Karim Douieb сделать крутой виз
Он потом еще делал визуализацию "Football Wind" . И выставлял работу на DataViz выставке в Париже
Раньше мало интересовался работами художников, но так случилось, что интерес к картинам и абстрактному искусству, в частности, пришел через NFT и генеративное искусство. В среде NFT и генеративного искусства можно существовать и работать анонимно - это огромный плюс.
Картины и визуализации данных преследуют одну цель: передать зрителю информацию.
📈 Графики и диаграммы максимально логичны, их задача - понятно отобразить данные. Все зрители должны одинаково воспринимать графики. Излишества здесь не нужны.
🔳 Абстрактные картины - это визуализация эмоций человека, их однозначно не изобразишь. Поэтому каждый зритель в картинах видит что-то своё.
Если представить отрезок с двумя точками-крайностями (логика и эмоции) на концах (как на скриншоте), то все стандартные графики и диаграммы будут со стороны логики, а картины - со стороны эмоций.
В бизнес-анализе все строится в рамках логики, в искусстве же лидирует эмоциональная составляющая. За логику и эмоции отвечают разные полушария головного мозга. Левое и правое полушарие мозга отвечают за логику и эмоции соответственно. Про это много написано, повторять здесь нет смысла. Насколько это доказано, затрудняюсь ответить, но давайте поверим.
Когда работаешь с анализом данных бизнеса постоянно, при построении визуализаций, приходится держать себя в рамках. Для творчества места мало. Левое полушарие вкалывает (алгоритмы, запросы, скрипты), а правое простаивает (графики, диаграммы и то по шаблонам). Поэтому на правое полушарие тоже желательно переключаться и дать отдыхать левому. Это понял сравнительно недавно. Для меня отлично работают природа, музеи, книги, статьи и дата арт. В моем случае, Tableau Public и генеративное искусство - это смещение фокуса с чистой логики в сторону эмоций. И здесь нет границ, можно делать что хочешь - это и есть творчество, пространство для созидания и отдыха.
В прошлом году стало интересно взять самые известные картины и по их основным цветам сделать палитры для диаграмм. По сути, хотел ответить на вопрос "Если бы художники были аналитиками, какие диаграммы у них бы получились?". Нашел алгоритм выборки цветов из изображений в статье Kyler Mintah, немного изменил его и сделал палитры из цветов 50и наиболее известных картин. В алгоритме есть параметры: количество цветов и уровень 'толерантности' к цветам. Последний параметр определяет насколько близко к цветам картины надо создавать палитры. В датавиз сообществах показал визуализацию и спросил какие еще картины можно включить. В итоге добавил еще 50. Итоговая визуализация "Palettes of famous Paintings"
В процессе создания таких визуализаций узнаешь много нового, и то, какие картины и художники драйвят дата сообщество.
Сейчас в Табло у меня около 3000 палитр, включая палитры из картин и палитры всех популярных библиотек R, js, Python. Этим буду делиться как только приведу в человеческий вид.
Картины и визуализации данных преследуют одну цель: передать зрителю информацию.
🔳 Абстрактные картины - это визуализация эмоций человека, их однозначно не изобразишь. Поэтому каждый зритель в картинах видит что-то своё.
Если представить отрезок с двумя точками-крайностями (логика и эмоции) на концах (как на скриншоте), то все стандартные графики и диаграммы будут со стороны логики, а картины - со стороны эмоций.
В бизнес-анализе все строится в рамках логики, в искусстве же лидирует эмоциональная составляющая. За логику и эмоции отвечают разные полушария головного мозга. Левое и правое полушарие мозга отвечают за логику и эмоции соответственно. Про это много написано, повторять здесь нет смысла. Насколько это доказано, затрудняюсь ответить, но давайте поверим.
Когда работаешь с анализом данных бизнеса постоянно, при построении визуализаций, приходится держать себя в рамках. Для творчества места мало. Левое полушарие вкалывает (алгоритмы, запросы, скрипты), а правое простаивает (графики, диаграммы и то по шаблонам). Поэтому на правое полушарие тоже желательно переключаться и дать отдыхать левому. Это понял сравнительно недавно. Для меня отлично работают природа, музеи, книги, статьи и дата арт. В моем случае, Tableau Public и генеративное искусство - это смещение фокуса с чистой логики в сторону эмоций. И здесь нет границ, можно делать что хочешь - это и есть творчество, пространство для созидания и отдыха.
В прошлом году стало интересно взять самые известные картины и по их основным цветам сделать палитры для диаграмм. По сути, хотел ответить на вопрос "Если бы художники были аналитиками, какие диаграммы у них бы получились?". Нашел алгоритм выборки цветов из изображений в статье Kyler Mintah, немного изменил его и сделал палитры из цветов 50и наиболее известных картин. В алгоритме есть параметры: количество цветов и уровень 'толерантности' к цветам. Последний параметр определяет насколько близко к цветам картины надо создавать палитры. В датавиз сообществах показал визуализацию и спросил какие еще картины можно включить. В итоге добавил еще 50. Итоговая визуализация "Palettes of famous Paintings"
В процессе создания таких визуализаций узнаешь много нового, и то, какие картины и художники драйвят дата сообщество.
Сейчас в Табло у меня около 3000 палитр, включая палитры из картин и палитры всех популярных библиотек R, js, Python. Этим буду делиться как только приведу в человеческий вид.
Please open Telegram to view this post
VIEW IN TELEGRAM
2700 палитр для диаграмм и графиков
При работе с диаграммами и графиками иногда недостает цветовых палитр. При кастомизации визуализаций дефолтных палитр в Tableau вообще не хватает.
В Tableau палитры прописываются в файле preferences.tps. Это xml файл, можно открыть текстовым редактором.
Сегодня делюсь файлом (сам делал), в котором 2700 цветовых палитр. Скачать можно по ссылке.
Прелесть этих палитр в том, что они используются в популярных библиотеках для визуализации (seaborn, matplotlib, библиотеки R) и различных сервисах визуализации данных. То есть, они именно для графиков и диаграмм. Цвета брал отсюда. Их собрал Joseph Barbier. Все палитры можно использовать в питоне.
Я просто перевел палитры из .csv в.xml формат, чтобы они работали в Tableau.
Есть еще классный сервис с этими палитрами. Там можно питон код для Matplotlib копировать.
Есть 3 типа палитр:
- Categorical. Используется для обозначения категорий (dimensions), напр. города, страны и т.п.
- Sequential. Применяем для значений Continious. Hапример, для количества заказов или суммы продаж.
- Diverging. Используем для метрик, где надо показать переход через 0 например. Это может быть прибыль.
Чтобы палитры по ссылке работали в Tableau на вашем компе, замените файл preferences.tps на новый. Или, если у вас уже есть свои палитры в preferences, добавьте новые палитры из файла просто копированием.
При работе с диаграммами и графиками иногда недостает цветовых палитр. При кастомизации визуализаций дефолтных палитр в Tableau вообще не хватает.
В Tableau палитры прописываются в файле preferences.tps. Это xml файл, можно открыть текстовым редактором.
Сегодня делюсь файлом (сам делал), в котором 2700 цветовых палитр. Скачать можно по ссылке.
Прелесть этих палитр в том, что они используются в популярных библиотеках для визуализации (seaborn, matplotlib, библиотеки R) и различных сервисах визуализации данных. То есть, они именно для графиков и диаграмм. Цвета брал отсюда. Их собрал Joseph Barbier. Все палитры можно использовать в питоне.
Я просто перевел палитры из .csv в.xml формат, чтобы они работали в Tableau.
Есть еще классный сервис с этими палитрами. Там можно питон код для Matplotlib копировать.
Есть 3 типа палитр:
- Categorical. Используется для обозначения категорий (dimensions), напр. города, страны и т.п.
- Sequential. Применяем для значений Continious. Hапример, для количества заказов или суммы продаж.
- Diverging. Используем для метрик, где надо показать переход через 0 например. Это может быть прибыль.
Чтобы палитры по ссылке работали в Tableau на вашем компе, замените файл preferences.tps на новый. Или, если у вас уже есть свои палитры в preferences, добавьте новые палитры из файла просто копированием.
Кино и пузыри
Недавно пригласили выступить на Tableau Public User Group. Tableau совместно с imdb.com обновили данные в публичных датасетах о фильмах, поэтому говорили о визуализациях про фильмы и сериалы.
Запись мероприятия 'Data+TV'
Хост - Eric Howard.
Tracy Wong, инженер Salesforce рассказала о новой фиче Tableau Public 'Organize your Vizzes'
David Kelly показал как работать со слоями в своей визуализации о культовом 'Doctor Who'. Я рассказывал о том как делал 'IMDb Top Movies'
Хороший датавиз - тот, который хочешь повесить на стену. Это правило классно работает для датаарта и небизнесовых визуализаций. Пузыри (bubbles) в визуализациях нередко можно увидеть, и это, в общем, выигрышный вариант.
Люди любят круги/пузыри/шары больше чем фигуры с углами (просто наблюдение). Сложилось несколько гипотез по этому поводу. Наверное, это объясняется тем, что в природе нет идеальных квадратов, треугольников и прямоугольников, а круги и шары - есть. Круг - это первое, что видит человек в своей жизни. То есть, круги и скругленные формы естественнее для человека.
Интересно, что есть тренд на скругление баров и графиков, хотя это считается плохой практикой, в публичных системах таких топов как Google (посмотрите просто на лого Google Analytics), Xiaomi и др.. Наверное, все эти закругления лучше продаются. Эти ребята без AB тестирования вряд ли выкатывают свой дизайн в массы.
Работаем сейчас с UI/UX дизайнерами по бизнес визуализациям для массового пользователя, и они тоже топят за закругления. Вайбы Эппла, не иначе.
В моей визуализации 1000+ самых высокорейтинговых фильмов (7,5+ рейтинг) по версии IMDb, и ее можно использовать как рекомендательную систему, выбирая фильмы по любимым актерам, режиссерам, жанрам или стране. Была проблема с тем, что у одного фильма может быть несколько жанров и стран производителей, поэтому приводил все к одному жанру и одной стране. Прикольно, что в ковидные годы много рейтинговых индийских фильмов.
Еще интересно, что самый высокорейтинговый фильм "The Showshank Redemption" ("Побег из Шоушенка") даже не намекает на побег в английской версии. Выходит, что спойлер в переводе названия.
Недавно пригласили выступить на Tableau Public User Group. Tableau совместно с imdb.com обновили данные в публичных датасетах о фильмах, поэтому говорили о визуализациях про фильмы и сериалы.
Запись мероприятия 'Data+TV'
Хост - Eric Howard.
Tracy Wong, инженер Salesforce рассказала о новой фиче Tableau Public 'Organize your Vizzes'
David Kelly показал как работать со слоями в своей визуализации о культовом 'Doctor Who'. Я рассказывал о том как делал 'IMDb Top Movies'
Хороший датавиз - тот, который хочешь повесить на стену. Это правило классно работает для датаарта и небизнесовых визуализаций. Пузыри (bubbles) в визуализациях нередко можно увидеть, и это, в общем, выигрышный вариант.
Люди любят круги/пузыри/шары больше чем фигуры с углами (просто наблюдение). Сложилось несколько гипотез по этому поводу. Наверное, это объясняется тем, что в природе нет идеальных квадратов, треугольников и прямоугольников, а круги и шары - есть. Круг - это первое, что видит человек в своей жизни. То есть, круги и скругленные формы естественнее для человека.
Интересно, что есть тренд на скругление баров и графиков, хотя это считается плохой практикой, в публичных системах таких топов как Google (посмотрите просто на лого Google Analytics), Xiaomi и др.. Наверное, все эти закругления лучше продаются. Эти ребята без AB тестирования вряд ли выкатывают свой дизайн в массы.
Работаем сейчас с UI/UX дизайнерами по бизнес визуализациям для массового пользователя, и они тоже топят за закругления. Вайбы Эппла, не иначе.
В моей визуализации 1000+ самых высокорейтинговых фильмов (7,5+ рейтинг) по версии IMDb, и ее можно использовать как рекомендательную систему, выбирая фильмы по любимым актерам, режиссерам, жанрам или стране. Была проблема с тем, что у одного фильма может быть несколько жанров и стран производителей, поэтому приводил все к одному жанру и одной стране. Прикольно, что в ковидные годы много рейтинговых индийских фильмов.
Еще интересно, что самый высокорейтинговый фильм "The Showshank Redemption" ("Побег из Шоушенка") даже не намекает на побег в английской версии. Выходит, что спойлер в переводе названия.
Pixar, анимация и Business Intelligence
В инструментах BI не так много внимания уделяется анимации. Для большинства задач она и не нужна - достаточно базовых графиков. Если же посмотреть на визуализацию данных в вебе на js (d3js.org, например, или p5js.org), там часто встречаются анимированные визы. Можно еще Ханса Рослинга вспомнить c базовой базой.
Как-то стало интересно сделать анимацию в Tableau, когда ее не было. 5 лет уже прошло. Получилась такая визуализация о местах в Палате представителей. Там параметром можно управлять номером кадра. При смене визуализации группа точек должна переместиться на новые позиции, соответственно, надо знать начальные координаты, конечные координаты точек, построить прямые между ними и разделить прямые на n-1 отрезков, где n-количество кадров. Подробно я писал про это в статье "Tableau in Motion" у Ken Flerlage.
Визуализация и статья тогда вызвали довольно много внимания у Tableau сообщества; к обсуждению подключились инженеры Tableau. Оказалось что в Tableau уже долго (4 года к тому моменту) работают над анимацией, но это не афишировали. Так мы познакомились с Полом Айзексом (Paul Isaacs).
Пол руководил разработкой анимации в Tableau. До этого он работал в Pixar 8 лет, работал с 3D графикой и делал спецэффекты для фильмов в 80х. Опыт общения с ребятами, которые раньше рисовали космические корабли для Голливуда ('Последний звездный боец' 1984 года и др.), а сейчас перешли в данные, был неоценим. Тогда погрузился в принципы анимации диаграмм, узнал про z-order, перекрытие полигонов и про то, о чем BI инженеры обычно не задумываются. Интересно было то, что в направлении анимации BI работали именно люди с опытом в 3D, 2D моделировании и анимации.
Немного позднее вышла бета, и ее можно было тестировать. Анимация работала. Для ее тестирования попросили сделать несложные 3D модели - получились вертолет и корабль.
Примерно год мы развлекались с особенностями анимации в BI, и с проблемами ее реализации. Через пару версий команда Tableau вывела анимацию на хороший уровень.
К сожалению, в итоге, большой проблемой анимации стало то, что конечным пользователям она не особо была нужна. Salesforce поглотил Tableau, и c каждой следующей версией анимацию урезали. А Пол ушел в Roblox.
Процессы и люди из Pixar оказали огромное влияние на разные бизнесы по всему миру. Про Pixar есть книга "Корпорация гениев". Ее рекомендовали Дима и Игорь Бухманы из Playrix, где я когда-то работал. Их интервью Тинькову в Бизнес-секретах.
В инструментах BI не так много внимания уделяется анимации. Для большинства задач она и не нужна - достаточно базовых графиков. Если же посмотреть на визуализацию данных в вебе на js (d3js.org, например, или p5js.org), там часто встречаются анимированные визы. Можно еще Ханса Рослинга вспомнить c базовой базой.
Как-то стало интересно сделать анимацию в Tableau, когда ее не было. 5 лет уже прошло. Получилась такая визуализация о местах в Палате представителей. Там параметром можно управлять номером кадра. При смене визуализации группа точек должна переместиться на новые позиции, соответственно, надо знать начальные координаты, конечные координаты точек, построить прямые между ними и разделить прямые на n-1 отрезков, где n-количество кадров. Подробно я писал про это в статье "Tableau in Motion" у Ken Flerlage.
Визуализация и статья тогда вызвали довольно много внимания у Tableau сообщества; к обсуждению подключились инженеры Tableau. Оказалось что в Tableau уже долго (4 года к тому моменту) работают над анимацией, но это не афишировали. Так мы познакомились с Полом Айзексом (Paul Isaacs).
Пол руководил разработкой анимации в Tableau. До этого он работал в Pixar 8 лет, работал с 3D графикой и делал спецэффекты для фильмов в 80х. Опыт общения с ребятами, которые раньше рисовали космические корабли для Голливуда ('Последний звездный боец' 1984 года и др.), а сейчас перешли в данные, был неоценим. Тогда погрузился в принципы анимации диаграмм, узнал про z-order, перекрытие полигонов и про то, о чем BI инженеры обычно не задумываются. Интересно было то, что в направлении анимации BI работали именно люди с опытом в 3D, 2D моделировании и анимации.
Немного позднее вышла бета, и ее можно было тестировать. Анимация работала. Для ее тестирования попросили сделать несложные 3D модели - получились вертолет и корабль.
Примерно год мы развлекались с особенностями анимации в BI, и с проблемами ее реализации. Через пару версий команда Tableau вывела анимацию на хороший уровень.
К сожалению, в итоге, большой проблемой анимации стало то, что конечным пользователям она не особо была нужна. Salesforce поглотил Tableau, и c каждой следующей версией анимацию урезали. А Пол ушел в Roblox.
Процессы и люди из Pixar оказали огромное влияние на разные бизнесы по всему миру. Про Pixar есть книга "Корпорация гениев". Ее рекомендовали Дима и Игорь Бухманы из Playrix, где я когда-то работал. Их интервью Тинькову в Бизнес-секретах.
Хоккей и призрачное сердце
Меньше чем через месяц стартует сезон КХЛ, а через полтора месяца - сезон NHL. Для командного спорта интересно искать паттерны на большом объеме данных. Интересно, что хоккейная площадка в Северной Америке уже на 4 метра и длиннее на метр, чем в Европе, что сыграло существенную роль на манере игры.
Виз 'When the Ice Melts' делал давно. Там собраны данные за 9 сезонов по регулярным матчам NHL и плейофф. Данные с kaggle, собраны с espn.com.
В датасете более 1 800 000 действий (actions) на площадке с их координатами X и Y. Например, в категории 'Goals' каждая точка - координата точки на площадке, с которой был забит гол. Цвет показывает количество действий с одной пары координат. Получаются тепловые карты (хитмапы), отображающие интенсивность действий на площадке. На визуализациях хитмапов слева - ворота команды, справа - ворота противника.
Если взять одну команду в одном сезоне, то событий не хватает до полноценного хитмапа действий на площадке. Поэтому, лучше брать весь сезон или одну команду на протяжении нескольких сезонов.
На хитмапах четко рисуется силуэт сердца у ворот противника. При небольшом количестве данных его не видно, а при увеличении количества данных, силуэт постепенно проступает. Интересно это наблюдать. Наверное, сердце символизирует любовь к игре на льду.
С этим визом связаны две небольшие истории:
История 1. По этой визуализации как-то написал фан 'Toronto Maple Leafs'. Он из Канады, живет в штатах, болеет за Торонто. Каждый год они устраивают мероприятие по поводу старта турнира юниоров. Интересен был его пойнт о том, что такие визуализации можно показывать детям, занимающимся хоккеем, для обучения.
История 2. Есть небольшая команда Vizlib, они делают аддоны и плагины для Qlik. Визуализацию об NHL для Qlik адаптировал Joe Warbington из Vizlib.
Такое нередко случается в дата комьюнити.
С классическими командными спортами вроде понятно как и что трекать и как визуализировать. А вот что с киберспортом? Интересно что-то подобное сделать для Dota 2 или CS 2, пока не понимаю где взять данные.
Еще посетила мысль, что хоккей существует, в том числе, благодаря обратному фазовому переходу первого рода.
Меньше чем через месяц стартует сезон КХЛ, а через полтора месяца - сезон NHL. Для командного спорта интересно искать паттерны на большом объеме данных. Интересно, что хоккейная площадка в Северной Америке уже на 4 метра и длиннее на метр, чем в Европе, что сыграло существенную роль на манере игры.
Виз 'When the Ice Melts' делал давно. Там собраны данные за 9 сезонов по регулярным матчам NHL и плейофф. Данные с kaggle, собраны с espn.com.
В датасете более 1 800 000 действий (actions) на площадке с их координатами X и Y. Например, в категории 'Goals' каждая точка - координата точки на площадке, с которой был забит гол. Цвет показывает количество действий с одной пары координат. Получаются тепловые карты (хитмапы), отображающие интенсивность действий на площадке. На визуализациях хитмапов слева - ворота команды, справа - ворота противника.
Если взять одну команду в одном сезоне, то событий не хватает до полноценного хитмапа действий на площадке. Поэтому, лучше брать весь сезон или одну команду на протяжении нескольких сезонов.
На хитмапах четко рисуется силуэт сердца у ворот противника. При небольшом количестве данных его не видно, а при увеличении количества данных, силуэт постепенно проступает. Интересно это наблюдать. Наверное, сердце символизирует любовь к игре на льду.
С этим визом связаны две небольшие истории:
История 1. По этой визуализации как-то написал фан 'Toronto Maple Leafs'. Он из Канады, живет в штатах, болеет за Торонто. Каждый год они устраивают мероприятие по поводу старта турнира юниоров. Интересен был его пойнт о том, что такие визуализации можно показывать детям, занимающимся хоккеем, для обучения.
История 2. Есть небольшая команда Vizlib, они делают аддоны и плагины для Qlik. Визуализацию об NHL для Qlik адаптировал Joe Warbington из Vizlib.
Такое нередко случается в дата комьюнити.
С классическими командными спортами вроде понятно как и что трекать и как визуализировать. А вот что с киберспортом? Интересно что-то подобное сделать для Dota 2 или CS 2, пока не понимаю где взять данные.
Еще посетила мысль, что хоккей существует, в том числе, благодаря обратному фазовому переходу первого рода.