- Telegram Web

Data Bar | Data проекты и истории

Слив личного расписания Трампа и визуализация плюс нейросети

Ещё в первое президентство Дональда Трампа в сеть слили приватные данные о рабочем расписании президента. Я визуализировал это и сделал рабочий график Трампа по типам активности. Визуализировал сливы, выходит.

Был очередной MakeoverMonday (https://makeovermonday.co.uk/ - там много ссылок на датасеты) - челлендж по построению визуализаций. Взяли данные слива, построили датасет и предложили по ним датавиз челлендж. Данные интересные - надо было пробовать.

📃 Сама статья по сливам данных на Axios.

В статье писали что инсайдер из Белого Дома раскрыл личное расписание Трампа. Слив в виде документа ещё остался в сети.
Там данные с ноября 2018 по февраль 2019г. А вот датасет с сайта data.world почему-то удалили.

Слив личного расписания Трампа в виде pdf (95 страниц) прикладываю в комментарии. Для экспериментов.

📊 Визуализацию можно посмотреть здесь.
В датавизе - диаграмма Ганта, стандартный тип диаграммы для расписаний. Но диаграмма нестандартная, сделана на полигонах.

Итак, что же делал Трамп в первое президентство.
Первая встреча в рабочий день обычно 11:30 на полчаса. Это встреча с главой администрации Белого Дома или брифинг. Очень много звонков и встреч. Встречи названиями и локациями, допускали прессу или нет. Обед обычно в 12:30, можно поискать в pdf по слову "Lunch".

60% времени - Executive Time. В это время ~~играет в гольф~~ что-то делает в овальном кабинете или резиденции. В Рождественские праздники Трамп не работал.

Сама визуализация - пример того как pdf на 95 листов умещается на одной диаграмме.

Скормите pdf нейросетям - пусть поищут инсайты. Я пробовал - классно получается. Можно позадавать вопросы сколько времени из какого места работал, кому давал интервью, где зажигал рождественскую елку и т.д..

Результаты прикладывать не буду - экспериментируйте сами. Но удивительно, конечно, что анализ документов дошёл до такого уровня.

Ждём новых сливов!

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9😱3🔥2

1.49K viewsAlexander Varlamov, edited 06:07

Data Bar | Data проекты и истории

2 300 000 вакансий Finder.work и геоанализ данных

Finder.work, а раньше - Finder.vc - сервис поиска работы и сотрудников. Задумывался как сервис размещения вакансий с удалёнкой, но сейчас там не только удалёнка. Говорят что все вакансии проходят модерацию, и как-будто мусора не должно быть. У сервиса есть свои блоги о работе и вакансиях на vc.ru, на самом сайте Finder и каналы в Телеграм, самый большой на 300 000 подписчиков. То есть, сервис довольно популярен. Число активных айтишных вакансий более 8000, это примерно 3% всех активных.

Всего 36 отраслей. Топ 3 отрасли:
- Розничная торговля (14% вакансий
- Производство (13% вакансий)
- Продажи (10% вакансий)

На сайте более 2 300 000 вакансий с 2020 года, и они уже есть в базе данных нашего пет-проекта VILKY. Собрали вообще все вакансии с описаниями. В проекте VILKY исследуем только IT вакансии, там сделаем пост по IT.

Из 2х млн вакансий можно вытащить много интересного. Сегодня расскажу про Spatial анализ.

Сервис Finder отдаёт широту и долготу для ряда вакансий, а также адреса, регионы и страны. Будем выбирать города и смотреть где плотность вакансий выше. Для этого разобьём каждый город на квадраты со стороной N, где N можно задавать вручную. Получим сетку, разбивающую город на кластеры. Внутри каждого кластера будем считать вакансии и закрашивать всю сетку по градиенту. Где квадрат ярче, там вакансий больше. Смысл в том, чтобы найти места максимального сосредоточения открытых вакансий и посмотреть как такие сетки будут выглядеть для разных отраслей. Также кластеры можно закрашивать по средней зарплате - увидим места с максимальной ЗП.

Есть опенсорсный инструмент от Uber, в котором можно строить визуализации на картах. Инструмент называется kepler.gl. Взял 3 города: Питер, Казань, Ростов-на-Дону и для каждого построил по 2 виза: 3D и 2D. Высота столбцов пропорцианальна количеству вакансий, а цвет - средней зарплате.

Заглавная картинка сделаны в Keppler. Все 6 визуализаций прикладываю в комменты.

- Питер - 125 000 вакансий. Длина стороны кластера - 200 метров.
- Казань - 30 000 вакансий. Радиус кластера - 100 метров.
- Ростов-на-Дону - 18 000 вакансий. Длина стороны кластера - 150 метров.

В Табло тоже сделал, не выкладывал ещё. Весь способ разбиения на кластеры описывать не буду (делал для данных AirBnB раньше), он работает на принципах математического округления координат и компенсации долготы на карте. Использовал полигоны для визуализации. Для каждого города построил сетку и посчитал число вакансий в кластерах. Кроме этого, можно закрашивать кластеры по средней зарплате - сразу выделяются деловые центры городов. Если переключать категории: "Производство", "Юриспрудсенция" и другие, то картинки сильно меняются.

Не решил ещё куда дальше двигаться. Могу или дашборд сделать с несколькими городами или интерактивную карту в Mapbox и статью написать про это. Либо конкретные города и острассли исследовать. Пишите в комменты и ставьте реакции, если интересно видеть данные в интерактиве.

❤9🔥9

1.6K viewsAlexander Varlamov, 11:38

Data Bar | Data проекты и истории

May the 4th be with you и Звёздные Войны в датавизе

4е мая - день Звёздных Войн. Просто потому что самая известная фраза "May the Force be with you" созвучна "May the fourth be with you", поэтому фанаты и выбрали этот день. Введите "May the 4th be with you" в гугле сегодня и посмотрите что произойдёт.

В день "Звёздных войн" по миру происходят всякие движухи. В датавиз сообществе делают визуализации на данных "Звёздных войн".

Я сделал датавиз "Star Bars" ещё в 2019 году в Tableau. Тогда вышла фича density marks, она визуализирует плотность точек. У меня случайно получилось так, что прямая линия из точек, с density marks и градиентом от белого до синего выглядит как световой меч (lightsabre). В итоге получился барчарт из световых мечей, где длина лезвия меча - это сборы в кинотеатрах по каждому фильму. Можно переключать на значение с приведением к инфляции, тогда клинки красные. Позже добавил анимацию.

В общем, дата сообщество веселится как может. Вот визуализации, ставшие классикой в комьюнити, эпичны как сами "Звёздные войны":

🌟 Star Wars - Screen Time Analysis by Jacob Olsufka.
🌟 Starwars screen time by Varun Varma
🌟 Star Wars Films by George Koursaros
🌟 Star Wars Characters Screen Time Analysis by Filippo Mastroianni
🌟 Star Wars by Adam E McCann

Визуализируйте, и да пребудет с вами 4е Мая! 💫

Please open Telegram to view this post

VIEW IN TELEGRAM

❤18😁2

1.24K viewsAlexander Varlamov, 06:40

Data Bar | Data проекты и истории

Что происходит на рынке труда и Indeed Job Posting Index

Вчера большие телеграм каналы копипастили одну и ту же новость "Айтишники всё!" с графиком падения некой величины Index во времени. График по данным Indeed и только для Software Development в США. Ссылок нет, но если поискать, то можно найти что данные отсюда. Это ссылка на сайт Федерального Резервного банка. Там много разных данных.

Первоисточник этих данных - Indeed (indeed.com). Это мировой хедхантер, только в несколько раз больше hh.ru и на 28и языках.

Давайте разберёмся что значит метрика Indeed Job Postings Index. Это ежедневный индикатор рынка труда, предложенный компанией Indeed. Точка отсчета 1е февраля 2022 года, начало COVID, берется за дату отсчёта и индекс приравнивается к 100 (это все опубликованные вакансии на indeed.com). В следующие даты индекс меняется; он показывает изменение в процентах относительно точки старта. То есть, если число вакансий увеличилось на 40%, индекс будет 140. Исследуют только 9 стран. Вот описание в статье "Introducing the Indeed Job Postings Index" от декабря 2022г.

У трекера вакансий Indeed есть аккаунт на GitHub "job_posting_tracker". Там можно забрать данные по 9и странам в разных разрезах. Для исследования данных у Indeed есть раздел на сайте . И есть целый сайт hiringlab.org где их команда Hiring Lab делится своими исследованиями рынка труда.

Самое интересное - строить графики у них на сайте (https://data.indeed.com/). Там есть динамика вакансий, зарплат, удаленки и актуалочка - динамика вакансий с требованиями AI. Можно смотреть по штатам и отраслям, убирать сезонность, смотреть скользящие средние, сравнивать по годам и т.д.. Посмотрите как графике делает мировой топ.

На заглавной картинке - графики четырёх отраслей. Можно сравнить что происходило с IT, спортом и туризмом. Разработка ПО стремительно росла в COVID, и с 2022го года постепенно снижается.

Что не учитывают кликбейтные посты в телеграм:
- Постепенно, с середины 2022 года снижается весь рынок в США со 160 до 106. Практически пришёл в доковидному уровню.
- Нет сравнения с данными до 2022 года. Просто нет данных.
- IT - это не только Software Development.

Итого: снижается весь рынок труда, но IT интенсивнее. Число вакансий с AI переживает второе рождение с 2021 года, и сейчас тренд восходящий.

В рамках проекта анализа IT вакансий и зарплат VILKY мы собрали статистику по РФ и сопоставили с данными Indeed. Получилось интересно и неожиданно. Скоро опубликуем в канале проекта @vilky_it.

🤝14🔥4

1.38K viewsAlexander Varlamov, 05:24

Data Bar | Data проекты и истории

Пет-проект VILKY. Архитектура, исследования, дизайн.

Продолжаю рассказывать о нашем пет-проекте анализа зарплатных вилок в IT. Команда (Саша, Рома, Никита), ещё подключилась Снежана. Она занимается дизайном.

Месячный апдейт по проекту анализа IT зарплат:

1. Стали собирать исторические данные по ЗП за всё время.
2. Собираем вакансии сервиса vseti.app
3. Создали репозиторий на GitHub, появились первые пулл-реквесты.
4. Перенесли Airflow на Timeweb.
5. Дизайн. Сделали гайдбук.
6. Сделали первые исследования на данных.
7. Сделали лендинг и запустили рекламу канала.
8. Сделали манифест проекта.

1️⃣. Сбор исторических данных.
Стало понятно, что снепшоты, которые делаем каждый день, не решают ряд задач анализа, а хочется именно историю смотреть. Поэтому, собрали все доступные вакансии с Habr career и Finder.work. Finder.work - большой ресурс вакансий, там их более 2х млн, не только IT, а вообще все по отраслям. Это моя часть работы, сейчас собраны все возможные поля. Выше писал пост о геоанализе данных с Finder. В итоге, переходим от снепшотов к историческим данным и инкрементальному обновлению - каждый день смотрим какие вакансии появились, открыты и добавляем статусы на текущий день в базу. Проблема с нормализацией LLM - слишком дорого получается нормализовать исторические объёмы через YandexGPT или ChatGPT, поэтому, будем делать свою модель.

2️⃣. vseti.app - агрегатор IT вакансий. Постепенно подключаем другие сервисы. Парсер делал Рома, о том как работает, написал в своём канале.

Пункты 3️⃣ и 4️⃣ связаны с архитектурой и совместной разработкой. Всё делал Никита и написал об этом в своём канале. Здесь напишу, что это была большая архитектурная задача. Сейчас все можем пушить на гитхаб и работать с Airflow.

5️⃣. Дизайн. Это тоже очень большой шаг вперёд. Давно хотелось его сделать, но сами в дизайн мы не умеем. С этим помогла Снежана. Очень круто получился гайдбук, было переработано лого и выбраны основные цвета. Экспериментируем с подачей информации в канале: делали неделю Звёздных войн. Профиль Снежаны на Behance.

6️⃣. Исследования данных. Можно вытащить много интересного. Сделали несколько постов: "Как изменился найм в IT за 10 лет и что произошло с зарплатами?", "О падении числа вакансий на Habr", "Геоанализ вакансий по городам". Исследование и пост могут занимать несколько часов. Пока я делаю, но времени не хватает на глубокий анализ, стараемся раз в неделю публиковать.

7️⃣. Реклама сервиса и канала. Это задача у Ромы - он раньше много работал с рекламной сетью Яндекса и Директом. Всё настаивал Рома и написал у себя в канале. Запускали для теста посмотреть конверсии. Сейчас пересматриваем стратегию.

8️⃣. Манифест проекта. Обозначили цели, позиции и принципы проекта, прикрепили в канале.

Уникальных данных у нас сейчас много - можно делать детализированные отчёты и исследования, подключать LLM. Это всё в планах.

В канале @vilky_it сейчас 400+ подписчиков. Более 150 пришли после постов Димы Аношина о проекте в его канале "Инжиниринг данных". Спасибо ему огромное! 🎆

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥13❤5

1.35K viewsAlexander Varlamov, 07:01

Data Bar | Data проекты и истории

VILKY в IT пабликах и эффект Telegram

Вчера о нашем пет-проекте анализа зарплат VILKY написали телеграм каналы с подписчиками от сотен тысяч до 1,7 миллиона. Это удивительно, но факт. Сначала про проект написал журнал о программировании XOR (170k), через несколько минут пост появился в милионнике Бэкдор (1,7М), потом - в канале "Не баг, а фича" (650k), CodeCamp (250k), "GeekNeural: IT & Нейросети" (88k) и ряде других. Более 350 000 просмотров суммарно в каналах. Это дало просто сумасшедшие охваты.

Началось всё с редакции XOR - они нашли нашу статью о сервисе на vc.ru и сделали пост про сервис. Огромное спасибо ребятам!

Через 6 часов после публикации, 📊 дашборд по вакансиям просмотрели 5000 раз (это в 300 раз больше чем раньше). В субботу, до публикации, у двшборда было 25 000 просмотров за полгода, а сейчас - уже 43 000. То есть, с момента создания даша в ноябре прошлого года, и до публикации постов, просмотров столько же сколько за последние 2 дня (сегодня пробьём 50 000). Это что-то невероятное.

У себя в канале я писал про эффект Реддита - о том, что такое оказаться на главной странице reddit.com. И рассказывал о знакомом аналитике из США - он через месяц устроился в Apple после его публикации на главной. В русскоязычном пространстве подобный эффект наш сервис ощутил на себе в эти выходные.

Я, Никита и Рома получили в лички и комменты тонны фидбека. От предложений до багов и опечаток.

Главное из фидбека пользователей:
1️⃣. Нравится суть проекта - сбор открытых данных и понятные алгоритмы анализа.
2️⃣. Нравится работа с инструментом анализа данных (дашбордом).
3️⃣. Нравится открытость проекта - рассказываем о том как всё устроено. Попросили подробную статью на Habr.
4️⃣. Нравится что ежедневно есть свежие данные.
5️⃣. Понимают что сбор и обработка данных - это сложно.
6️⃣. Понимают что в проекте могут быть баги, и это нормально.
7️⃣. Понимают что LLM могут ошибаться.
8️⃣. Хотят исследовать данные.
9️⃣. Нет подобных сервисов.

1️⃣

0️⃣. Это бесплатно!!!

Посты были в айтишных каналах, и точно попали в нашу целевую аудиторию. Проект назвали "лютейшей годнотой" - это вдохновляет.

В выходные мы фиксили критические вещи, оптимизировали даш - он работает в 2 раза быстрее сейчас. Но ещё есть простор для оптимизации. Фидбек от пользователей разберём, пофиксим баги и прислушается к тому что хотят люди.

Вы можете проследить по постам в этом канале как всё начиналось: дашборд 27го ноября прошлого года, полгода назад; автоматизация с начала февраля, запуск телеграм канала и т.д. Вчера, благодаря пабликам, проект вышел на новую орбиту. Главное, что мы делаем нужный продукт.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥29👍11

1.44K viewsAlexander Varlamov, 08:17

Data Bar | Data проекты и истории

Forwarded from Бэкдор

Анализируем вилки зарплат на ЛЮБЫХ айтишных вакансиях — сервис VILKY предоставит подробнейшую инфу по деньгам с открытых русскоязычных позиций и поможет вам найти работу мечты.

• Парсит данные со ВСЕХ открытых вакансий России и СНГ.
• База обновляется РЕГУЛЯРНО.
• Конкретно показывает, сколько стоит каждая позиция, грейд и навык на рынке труда — это поможет вам собрать идеальный набор знаний и квалификаций.
• БЕСПЛАТНО.

Сохраняем себе и узнаем все подводные камни рынка — тут.

👍

Бэкдор

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥11

1.55K viewsAlexander Varlamov, 06:57

Data Bar | Data проекты и истории

Весь SQL в одном месте и стартап Sherloq

Пару недель назад мне в личку написал один из основателей стартапа Sherloq. Его зовут Nadav. Он назвал свой продукт "Cursor for Data" и попросил мнение о продукте. Меньше месяца назад выпустили бету с AI поддержкой, можно бесплатно тестить. Бегло посмотрел - идея нравится, поэтому рассказываю.

Стартапу 3 года, более подробно о нем на "Y Combinator", "Crunchbase" и "Product Hunt".

"Y Combinator" или YC - известный акселератор стартапов. Стартап Sherloq привлёк $500 000 на Pre-seed. Это самая ранняя стадия инвестиций, и деньги дают на MVP. Но не просто так, а за долю в компании обычно. В этом году попали в Топ-10 челленджа от Snowflake, и там до $1 млн могут дать каждому из 2х финалистов.

Идея стартапа - "One place for all your SQL queries". Они хотят решить проблему разрозненных SQL запросов в компаниях. Проблема - в компаниях SQL запросы могут храниться в Confluence, GitHub, Jupyter ноутбуках, BI инструментах, во внутренних документах, в переписках, в головах сотрудников и т. д.. Одна метрика может считаться по-разному в разных отделах, в разное время и в разных инструментах. Проблема действительно серьёзная. Я не знаю компании, которые её полностью решили. Поэтому есть чаты где друг у друга спрашивают как считать метрики.

Надо сказать, что первую версию продукта ребята сделали и даже продали компании AppsFlyer (не нуждается в представлении), у которой более 10000 таблиц и 2 млн запросов в день. Подробно кейс здесь.

По-сути стартап сделал что-то вроде GitHub для SQL, с версионированием, но без усложнений в виде ревью, пулл-реквестов, веток и т.д.. Запросы шарятся через экстеншны и плагины к Chrome, VsCode, Cursor, DataGrip, PyCharm и др.. То есть, открываешь инструмент, запускаешь плагин и ищешь нужный запрос в окне Sherloq, а потом обновляешь в SQL репозиторий там же. В заглавной картинке пример на BigQuery.

Основатели стартапа описывают свою систему как "collaborative platform for managing and documenting data analytics workflows". Кроме collaborative SQL repo, есть встроенные инструменты: линтер, поиск и фикс ошибок, AI агент (пишет запросы, исходя из названий метрик), ERD Visualizer. Ещё может вытаскивать Custom SQL запросы из Tableau по API токену и пушить в репозиторий.

Обозначенные выше проблемы тратят много времени пользователей и бизнеса. Это прям боль компаний в data направлениях для менеджмента.

По стоимости - 16$ в мес. за 250 SQL фиксов, 200 вопросов к AI, неограниченный объём хранимых запросов. Дорого это или нет - непонятно, пока не сравнить с потерями времени на SQL в конкретной компании.

Попробовал пока форматирование запросов, посохранял запросы, ещё на VsCode плагин надо поставить и подключить к простой БД, помучаю AI агентов, построю ERD диаграммы и напишу отзыв. Интересно как у стартапа дальше пойдёт. Идея интересная, но как на уровне компаний внедрять новый на рынке инструмент - не очень понятно, надо ждать больших кейсов внедрения.

🔥14🥱5👎2

1.26K viewsAlexander Varlamov, 06:27

Data Bar | Data проекты и истории

Tableau Lego и невозможные визуализации.

В BI и датавиз пространстве большинство пользователей работают со стандартными визуализациями. Естественно, в любом инструменте визуализации данных есть свои ограничения - они и определяют сложность визуализаций. Эксперты могут посмотреть на любую работу и примерно рассказать как она сделана. В периметре Tableau существуют "невозможные визуализации" - такие, которые мало кто может повторить без мануала, и до их создания построение считалось невозможным. Обычно на скриншот с такой визуализацией говорят что "это сделано не в Табло".

Сегодня расскажу о своей визуализации Tableau Lego. Ей 5 лет, она стала классикой в своём сегменте, но не каждый Tableau эксперт понимает как она построена. Я консультировал несколько инженеров и сейлзов внутри компании Tableau по принципам её построения. То есть, инженеры, создающие продукт, хотели понять на что способен продукт, и что можно ещё создать. И внутри компании создают 3D проекты чтобы расширить понимание возможностей продукта.

Сама визуализация "Tableau Lego" - это эмулятор конструктора, где можно по шагам эмулировать сборку лего домика, а также смотреть на него под разными углами. Всё работает на чистой математике, без внешних модулей.

Когда-то для меня 3D в Tableau казалось космосом. Но надо было разобраться и добавить что-то своё. Месяца на 4 погружался в 3D, принципы, что было сделано и что можно сделать. Сверхсложного ничего нет - просто нужно время. Из своего - добавил работу с OBJ файлами - это сильно изменило картинку. До этого 3D модели описывались форматом стереолитографии, и полигоны делились на треугольники. С моим подходом можно работать с любым числом вершин в полигоне.

Самое сложное - создать датасет, остальное - дело техники. Визуализация - это набор полигонов с заданными координатами вершин и формулы проекции на плоскость плюс алгоритм сортировки полигонов. Максимально подробно всё описал в статье "3D модели в Tableau". Её до сих пор читают и делают 3D. Мы даже конкурс один раз проводили на индийском TUG с призами.

Мне нравится концепция Лего, когда из базовых кубиков создаёшь примитивные конструкции, а и из примитивных конструкций создаёшь сложные сооружения. Как в жизни.

После создания таких визуализаций мне посчасливилось сотрудничать с людьми из Pixar, они создавали ещё первую "Историю игрушек". Про это рассказывал в одном из постов.

Зачем всё это? В русскоязычном пространстве такой вопрос возникает часто, а в англоязычном - нет. В англоязычном комьюнити просят статьи, вебинары и объяснения. Мне просто интересно делать то, что считают невозможным. Это классно, когда ты ограничен инструментом (нет циклов, скриптов и т.п.), и приходится придумывать вычисления для реализации идеи.
В СНГ такие вещи никому не нужны, и это печально. А в англоязычном пространстве всегда ищут что-то необычное и тех кто это делает. В твиттере (благодаря таким работам) на мой профиль подписаны CEO Salesforce, CEO Tableau, CTO Twitter/Facebook (сейчас - Sierra AI) - это люди, определяющие куда пойдёт мировое IT. И им это надо.

❤33🔥27😱4

9.21K viewsAlexander Varlamov, 07:33

Data Bar | Data проекты и истории

Самый сложный вид спорта и рейтинг ESPN

Какой вид спорта самый сложный?
На этот вопрос однозначного ответа нет, поскольку нет объективных критериев оценки.

Но в 2004 году группа экспертов из ESPN (espn.com - самый посещаемый сайт о спорте на тот момент) взялась ответить на этот вопрос. Для этого они взяли 10 ключевых навыков или способностей:

1️⃣. Выносливость (Endurance): Способность долго выполнять физическую или умственную работу.
2️⃣. Сила (Strength): Насколько мощное усилие может приложить человек.
3️⃣. Мощность (Power): Комбинация силы и скорости — способность быстро приложить усилие.
4️⃣. Скорость (Speed): Насколько быстро человек может двигаться или реагировать на что-то.
5️⃣. Ловкость (Agility): Способность быстро и точно менять направление движения.
6️⃣. Гибкость (Flexibility): Способность суставов и мышц растягиваться без травм.
7️⃣. Хладнокровие (Nerve): Умение сохранять спокойствие в стрессовых или опасных ситуациях.
8️⃣. Устойчивость (Durability): Устойчивость к травмам, нагрузке или усталости.
9️⃣. Координация рук и глаз (Hand-Eye Coordination): Способность синхронизировать зрение и движение рук.

1️⃣

0️⃣. Аналитические способности (Analytic Aptitude): Способность быстро и эффективно анализировать информацию.

Каждый навык оценивался по шкале от 0 до 10 для каждого вида спорта, где 10 - максимальный навык, необходимый в конкретном спорте (напр, для гимнастики гибкость = 10) После чего оценки всех 10и навыков суммировались и получалась одна общая оценка. Всего оценили 60 спортов. Таблица с оценками каждого вида спорта есть по ссылке. А экспертов с их биографиями можно найти здесь.

Надо сразу заметить, что оценки субъективные, а получившийся рейтинг - также субъективная история, и ближе американскому майндсету. У меня тоже есть вопросы к оценке. Но остановимся на том, что есть, тем более, что на протяжении 20и лет на эти оценки периодически ссылаются (Статья 1, Статья 2). Есть и другие рейтинги.

Итак, топ 5 спортов с оценками:
1️⃣ Бокс (72.4)
2️⃣ Хоккей (71,8)
3️⃣ Американский футбол (68,4)
4️⃣ Баскетбол (67,9)
5️⃣ Борьба (63,5)

Антитоп (самые ненапряжные виды спорта):

5️⃣

6️⃣Кёрлинг (27,5)

5️⃣

7️⃣ Боулинг (25,4)

5️⃣

8️⃣ Стрельба (24,9)

5️⃣

9️⃣ Бильярд (21,5)

6️⃣

0️⃣ Рыбалка (14,5)

Этот датасет мы визуализировали на MakeoverMonday в 2018 году. Мне тогда было интересно попробовать что-то нестандартное. Выбрал диаграмму Coxcomb ("Петушиный гребень"), она же - Nightingale’s rose. Надо отметить, что диаграмму такого типа использовала Флоренс Найтингейл - одна из пионеров визуализации, для отображения смертности солдат, почти 2 века назад. Диаграмма читерская (как и все круговые), поскольку визуально считывается площадь. Алексей Смагин писал про неоднозначность круговых диаграмм в TJ.

В моём случае каждый сектор со своим цветом отвечает за свой навык, а радиус сектора - за оценку навыка. На визуализации 60 диаграмм, своя для каждого вида спорта и одна общая, где дугами отмечаются оценки всех навыков во всех видах спорта. Получилось нетривиально. Работа называется 📊 "What's the toughest sport of all?". Не на всех браузерах нормально отрабатывают шрифты.

Реализация непростая - в Табло используется денсификация и по 6 табличных вычислений для X и Y. Тогда делал такое первый раз, полдня просидел, но получил что хотел. Всего на визуализации 122 500 точек. У Bora Beran есть статья по созданию таких диаграмм.

На общей диаграмме интересно поизучать крайности - самые высокие и самые низкие оценки каждого навыка. Или найти диаграммы с резко выраженными различиями в навыках (напр., автогонки - максимум Analytical Aptitude и минимум Flexibility). На этой же диаграмме интересно сравнить одни вид спорта с остальными.

Если досконально разбираться в данных и визуализации, то данные - читерские (сами придумали методику, сами проставили баллы), и диаграмма не самая ясная (по-разному может восприниматься человеком). Но это пример попытки оцифровать то, что оцифровать нельзя. И таких примеров много.

А вот интересно, где в этом рейтинге будет киберспорт? 🎮

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10❤1😁1

873 viewsAlexander Varlamov, 04:56

Data Bar | Data проекты и истории

Конкурс авторских Telegram-каналов

Подал заявку на участие в конкурсе авторских Telegram - каналов. И её приняли 🎆. Интересно принять участие в такой движухе, я не помню чего-то подобного.

Подробнее о конкурсе - на странице: https://tg-contest.tilda.ws
Главный канал конкурса: @tg_contest_main

Заявки можно подавать до 6 июля. Если у вас небольшой авторский канал, пишете сами, а не копируете другие посты, и ERR более 200, смело подавайтесь в своей номинации. Заявок уже более 500.

Главный приз - шаринг ваших постов на аудиторию 250k и новые подписчики.

Мне интересен нетворкинг, просто пообсуждать, чем живёт сообщество в TG.

Голосование за каналы - с 7 по 14 июля.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥10👍4

815 viewsAlexander Varlamov, 05:40

Data Bar | Data проекты и истории

О чём пишут телеграм-каналы и морфологическая нормализация

В каждом авторском телеграм канале - своя тема, своя стилистика, свои обороты, свои слова. Посты в канале - лицо автора. Поэтому придумал концепцию портретов авторов из слов постов их каналов. По словам сразу понятно, о чем пишет автор.

О чём же пишут авторы?
Можно сразу перейти в комментарии и найти портреты в хайрезе:
1️⃣Павел Дуров и канал @durov_russia
2️⃣ Артемий Лебедев и канал @temalebedev
3️⃣ Максим Спиридонов и канал @mspiridonov
4️⃣ Мой портрет и канал @data_bar

Сделал скрипт, который формирует облако слов из всех постов канала. Вкратце:
1. Выгружается json из канала
2. Забирается только текст из постов
3. Из текста убираются стоп-слова (предлоги, наречия и т.п.)
4. Проводится морфологическая нормализация (об этом ниже)
5. Считается частотность каждого слова
6. Строится облако слов по маске. Маска - черно-белое изображение.

Чем больше размер шрифта, тем частотнее слово. Сразу видно наиболее употребляемые слова. Одна картинка 5120x5120 считается и формируется 10 минут.

Делал раньше такое, и написал статью как это работает. В новой версии хотел добавить морфологическую нормализацию LLM. Но, в итоге, использую библиотеку pymorphy2. Пробовал документ отдавать ChatGPT, но он не смог нормально сделать и сам предложил использовать pymorphy2. Эта библиотека справляется в 95%, но всё-таки есть проблемки.

Морфологическая нормализация - это приведение всех существительных к единственному числу в именительном падеже. Прилагательные - единственное число, мужской род. Давно хотел реализовать и думал применить LLM, но получил неплохой результат с pymorphy2. А вот глаголы в совершенной форме к несовершенной приводить получается только при помощи словаря (это другая морфологическая операция).

Маска - это портрет автора канала. Исходный портрет преобразуется в grayscale и сильно выкручивается яркость с контрастностью, потом изображение инвертируется. Cловами заполняются все тёмные участки. По-хорошему, надо допиливать портреты вручную в фотошопе, но я этого не делал.

Получилось прикольно: слова и портрет автора на одной картинке. Ведь в каком-то смысле, слова автора являются его лицом.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥24❤4👍1👎1

751 viewsAlexander Varlamov, 06:19

Data Bar | Data проекты и истории

Трамп говорит и соцсеть Truth

Трампа когда-то забанили в Твиттере, после чего он создал свою соцсеть c блэкджеком "Truth Social", где с завидной регулярностью выкладывает посты. Эти посты потом разносятся по X (Twitter) и в разных СМИ, включая телеграм-каналы.

А я продолжаю экспериментировать с анализом текстов и облаками слов. В этот раз взял все посты Дональда Трампа с момента его вступления в президентскую должность 20 января 2025г (а их более 1300) и построил облако слов на базе известного портрета Трампа. Здесь можно видеть какие слова чаще употребляются в сообщениях.

Публичного API у TRUTH нет, но есть сайт https://trumpstruth.org, где хранится архив всех сообщений. Оттуда можно тащить весь текст. Используется библиотека feedparser, и скрипт по дням вытаскивает всё, что писал Трамп. После этого удаляются чужие сообщения (ретвиты) и сообщения с видео. Остаётся только текст. Далее, как в посте выше, работает морфологическая нормализация и удаляется всякий мусор. Нормализация английского языка отличается от нормализации русского, она реализована по-другому. После чего строится облако слов.

Цвет слова формируется на базе картинки-подоложки. Выбирается квадрат 5x5 пикселей в центре слова, и цвета всех пикселей приводятся к одному. Размер слова пропорционален частоте его употребления.

В итоге, получился такой портрет из слов. Концепция этого дата-арта: "Человек - то, что он говорит". Хотя с конкретным персонажем это не всегда так 🙂.

Можно взять любую картинку, любой текст и сделать то же самое. Шекспира, например. Или героев фильмов.

👍15❤6🔥3👏1😁1🤩1

802 viewsAlexander Varlamov, 06:03

Data Bar | Data проекты и истории

Channel name was changed to «Data Bar | Data проекты и истории»

13:44

Data Bar | Data проекты и истории

Forwarded from VILKY. Зарплаты в IT

Инсайты. AI инструменты разработчика.
Большой опрос Stack Overflow 2024.

А вы же знаете про Stack Overflow?
Конечно! Это же самый большой в мире форум программистов с вопросами и ответами. Одно из самых авторитетных сообществ в IT. Этот ламповый ресурс постепенно каннибализируют нейросети. Но он легендарен.

Так вот. Stack Overflow с 2011го раз в год проводит грандиозный опрос. Отвечают пользователи на платформе. А пользователи там - ребята скилловые и активно встречают все новые технологии. В мае 2024 года был последний опрос, его прошли более 65 000 разработчиков. В 2025м ещё не было, а может и не будет.

Давайте вернёмся на год назад (свежее данных пока нет) и посмотрим на ответы юзеров с текущей позицией - разработчик.

59% используют AI инструменты для разработки. 22% не планируют использовать.

Самый популярный AI инструмент - ChatGPT. Остальные можно видеть на диаграмме. На вопрос об инструментах AI можно было написать несколько. Часть из них уже обязательные скиллы в ряде вакансий.
А вы все AI инструменты знаете из списка? Мы - нет.

У нас традиционно внедрение любых инструментов запаздывает. Но каждый может прикинуть что он использует сейчас и что планирует.

В опросах Stack Overflow ещё много всего интересного. Мы продолжим исследовать данные в рубрике "Инсайты" и рассказывать про изменения рынка IT вакансий.

#инсайты

👍9

626 viewsAlexander Varlamov, 06:04

Data Bar | Data проекты и истории

1000 самых известных людей и выставка в Вегасе

На картинке выше моя работа "Pantheon" на выставке визуализаций Tableau Public Gallery в Лас-Вегасе. Всё проходило в рамках конференции "Tableau Conference" в ноябре 2019 года. В одну рамку работа не влезла поэтому получится диптих. Потом работа поехала в Сан-Франциско на большую конфу "Salesforce" и ещё куда-то. Через год её отправили в Россию, но получить не смог - был COVID и проблемы с оформлением документов на получение.

Работа о 1000 самых популярных людей. Делал на английском и русском языках. На русский переводил для OpenDataDay 2020 в Москве. Саша Богачёв приглашал, было круто.

Датасет очень интересный, нашёл его у Andy Cotgrave "Chart of Biography".

Сайт проекта "Pantheon" здесь. MIT (Массачусетский Технологический Институт) придумал методику измерения популярности всех людей на планете по статьям и проанализировал всё что доступно в интернете. Получились ранги известности. Самые известные люди:

1️⃣. Аристотель
2️⃣. Платон
3️⃣. Иисус Христос
4️⃣. Сократ
5️⃣. Александр Великий

Теперь о визуализации. Меня как-то посетила мысль, что разные диаграммы можно попробовать соединить. Просто для того чтобы понять получится ли логично или нет. Первый раз реализовал эту мысль в работе "Freedom of the Press", и её приняли очень хорошо.

А в Пантеоне эта мысль продолжилась, и в ней соединяются несколько визуализаций. Долго не мог найти датасет, а потом увидел проект "Пантеон" и понял что это то что надо. Нравится аналогия, что жизни людей - это нити, пронизывающие пространство. В визуализации соединяются: таймлайн, ранги, категории и карта (откуда родом человек). Сам виз - интерактивный дата-арт.

Визуализация была экспериментом - хотелось посмотреть что получится. А получилось так, что эксперимент отобрали на выставку работ.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤16🔥10👏4😱3👻1

597 viewsAlexander Varlamov, 06:01

Data Bar | Data проекты и истории

Пятничный мемопад от команды авторских каналов.

Эстафету принял от
@gisgoo - крутой канал о ГИС аналитике

Эстафету передал
@hrekbdrive - канал "HR на драйве"

👍9😁8🔥4

472 viewsAlexander Varlamov, 06:01

Data Bar | Data проекты и истории

Дашборды и японская кухня

На просторах интернета можно найти примеры интерфейсов и дашбордов с закруглениями сетки. Надо так делать в дашбордах или нет? Биайщики обычно выбирают классику - прямоугольники.

Сейчас закругления сетки можно нативно регулировать в некоторых BI инструментах. То есть, добавляют эту функцию специально. Для Tableau анонсировали в этом году, а раньше приходилось серьёзно потратить времени и нервов. Как делать сетку с закруглениями.

Делал такой дизайн в дашборде "Glassdoor US Data Analyst Jobs" и в "IT Vacancies"

Тип дизайна называетcя "Bento". Слово пришло из японской кухни, где Bento (Бэнто) называют порцию упакованной еды. Бэнто с японского переводится как "обед на одного". Еда находится в контейнере с ячейками с закруглёнными углами (один из типов). Бэнто широко распространены среди школьников как обед, который можно нести с собой.

Искусство подбора продуктов и изготовления бэнто занимает почётное место в жизни японцев. Тщательно выбираются продукты, чтобы пища была сбалансированной ,вкусной и соблазнительной, ведь намного приятней есть красиво оформленную еду.

Прослеживается аналогия с дашбордами. Готовить дашборды, которые каждый день хочется открывать и исследовать, довольно сложно. Начиная от концепта, подбора метрик и смыслов графиков, дизайна, серьёзной разработки до поддержки. Каждая ячейка - свой смысл. Можно потратить месяцы только дизайна, разработки и поиска оптимальной концепции. Далеко не всякая компания инвестирует ресурсы в такие задачи. Но если вы делаете дашборды, котрые хочется съесть, и они работают на проде - это серьёзный уровень и вас, как специалиста, и компании, инвестирующей время и ресурсы.

🔥10👍3❤2

283 viewsAlexander Varlamov, 09:12

2025/07/13 01:44:26
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>