Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
- Telegram Web
Telegram Web
Forwarded from Reveal the Data
Лучшее с Табло Паблик 2024
Собрал работы с Табло Паблик, которые запомнились мне больше всего в прошлом году. Получилось четырые категории: инфографика, карты, дашборды и технические трюки. Если знаете ещё крутые работы — кидайте в комментарии.

Отдельно хочу подсветить наших Табло гуру и джедаев: Настя Кузнецова, Саша Варламов, Лиза Горяйнова, Маша Мазюк, Аня Просветова. Вы просто огонь, очень классные работы!

Для затравки несколько картинок выше, а полная подборка с ссылками:
👉 в блоге 👈

Предыдущие: 2023 | 2022 | 2021 | 2020
#подборка
12 работ в лонглисте премии "Information is beautiful Awards 2024"

В январе писал о премии в области визуализации данных "Information is Beautiful Awards", и как подавал 15 своих работ за прошлый год. Прошли 12 - считаю это успехом. Всего в лонглисте 876 работ.

📊 Дашборд по вилкам зарплат тоже вошел в лонглист. На момент подачи он был статичным, а позже мы автоматизировали процесс сбора данных с Никитой.

Приятно, что много работ от ребят из русскоязычного сообщества датавиза. Полный список составим совместно с сообществом, добавлю его сюда.

Есть сырой парсер, который собирает работы премии за всё время. Пока плохо работает, есть ошибки в данных. Нужно время чтобы проверить всё и сделать нормальный. После сбора всех данных, на таком датасете можно будет построить крутые датавизы.

🎆 Далее - этап шортлиста, на нём очень много работ отсеивается. Болеем за наших!

Все 12 работ в лонглисте 2024:

1. IT Jobs Dashboard
2. Global Flag Colors
3. Public Telegram Channels
4. NBA Gems
5. NBA Scorigami
6. Telegram Tech Channels
7. Glassdoor Data Analyst Jobs
8. The Tree of Life by AI
9. Cast & Crew IMDb Trends
10. Formula 1. World Constructors'
11. International Football Results
12. IMDB Top Movies
Please open Telegram to view this post
VIEW IN TELEGRAM
Проект VILKY. LLM, телеграм канал и дайджесты

Давно не писал про проект VILKY и анализ IT вакансий. Мы дошли до самого интересного: LLM и нормализации данных. Над этим работаем несколько месяцев, но не писали ещё.

К нам с Никитой присоединился Рома, и мы продолжаем развивать пет-проект. Рома занимается Data Quality, пишет и проводит тесты. И у него есть канал Котолитик - там подробнее про это.

🪄 Три больших новых этапа к этому моменту:
1. LLM и нормализация данных
2. Тесты качества нормализации и усложнение промптов.
3. TG канал со статистикой по вакансиям

Подключение дополнительных платформ пока было в меньшем приоритете, но забираем с HH по API для тестов.

🎆 Самая крутая фича, которая сейчас работает с данными - это комплексный анализ данных различных полей и их нормализация. Что это означает? Например, в вакансиях есть навыки, и в сервисе они складываются в отдельную таблицу БД. Навыки в вакансиях могут быть указаны как попало: "Python 3.8", "Python 2", "PYTHON", "Питон" и т.п.. В данных они должны быть в одном виде, то есть, их надо нормализовать. С этим у нас отлично справляется LLM (YandexGPT): она приводит одинаковые навыки к одному написанию по шаблонам LinkedIn и StackOverflow. Если в навыках указана ерунда - это убирается из данных. И, самое интересное, модель изучает полное описание вакансии и добавляет навыки, которые прямо или косвенно есть в тексте вакансии, но их не указали явно в категории скиллов. Мы стремились минимизировать число навыков, но LLM нагенерировала новые. Поэтому, сделаем справочник и по нему нормализуем.

Также мы нормализовали поля грейда и вилок зарплат. По описанию вакансии LLM может определить грейд (senior, middle и т.д.). Зарплатные вилки тоже указываются по-разному, бывают ошибки. Поэтому, нормализуем данные по ЗП до трёх полей: min ЗП, max ЗП, валюта.

В процессе и планах нормализации: локации, net или gross в указании зарплат, плюшки каждой вакансии и др..

Про техническую реализацию нормализации читайте в канале у Никиты, а Рома написал про создание, запуск тестов проверки корректности работы LLM и про картинки для постов.

Такую красоту данных нет смысла прятать, поэтому сделали TG канал 'VILKY', куда ежедневно автоматически публикуются прикольные рубрики с топами вакансий, компаний и всему что придумаем. Дизайн картинок и весь концепт придумывали и делали вместе. Я реализовал на Tableau Public. Кроме этого, ежедневно публикуются дайджесты по вчерашним данным и недельные дайджесты.

Ежедневный дайджест - набор из 5и визуализаций:
1️⃣ Метрики по всем подключенным платформам вакансий за вчера
2️⃣ Средняя ЗП и число вакансий по направлениям IT
3️⃣ Топ навыков в вакансиях
4️⃣ Топ новых вакансий по направлениям IT
5️⃣ Топ закрытых вакансий по направлениям IT

Дайджест сделали в виде слайдов. У Тиньков инвестиций примерно так же - понравилась эта концепция. Были другие варианты, но остановились на этом.

🥁 Сам телеграм канал 'VILKY. Вилки зарплат в IT' 🥁

Каждый день автоматически скидывается статистика вакансий IT. Добавим постепенно месячный и дайджесты по всем IT направлениям. Можно просто заходить и смотреть статистику.

Фидбек очень важен, будем прислушиваться и формировать роадмап. Комментарии и эмоджи открыты - можно писать в комменты что добавить, улучшить или убрать.

Все сообщения в канале автоматические, но, пока обкатываем, сделали себе в тестовый канал те же публикации, но на час раньше. Баги возможны, будем смотреть и фиксить.

📊 Детально можно смотреть вакансии в дашборде 📊

Его оптимизировали немного. В дашборд добавили статистику просмотров за последние 7 дней. Автоматически забирается по API Tableau Public. В дашборде сейчас 3 нормализованных поля, про которые писал выше. Поэтому, можно считать его AI powered.

Итого, мы построили систему, которая:
1️⃣. Автоматически собирает данные
2️⃣. Автоматически записывает всё в базу данных
3️⃣. Автоматически нормализует данные
4️⃣. Автоматически тестирует данные
5️⃣. Автоматически генерирует визуализации
6️⃣. Автоматически генерирует сообщения
7️⃣. Автоматически отправляет сообщения в канал
Please open Telegram to view this post
VIEW IN TELEGRAM
Visual Capitalist и Voronoi App как среда сторителлинга

Сегодня пост о большом известном СМИ графиков и диаграмм. Visual Capitalist позиционирует себя как СМИ, создающее и продвигающее Data-driven visual content. Компания находится в Ванкувере. В X (твиттере) сейчас больше 300k подписчиков. Сайт работает давно, там постоянно выходят статьи про визуализации и данные. Используют как свои визуализации, так и из сети.

Про мои работы они делали 2 статьи:
- Visualizing the Depth of the Great Lakes
- Animated Map: The History of U.S. Counties
Это статьи про Великие озера и таймлайн создания США. Текст их, оригинальный. Публикации привели на мой сайт несколько тысяч юзеров.

Чем же хорош Visual Capitalist как СМИ?

1️⃣. Они очень давно двигают подход визуализаций данных в СМИ.
2️⃣. Визуализации рассчитаны на широкую публику: простые и понятные.
3️⃣. Визуализации на небольшом объёме данных, буквально, несколько строк.
4️⃣. Чуть больше года назад они запустили Voronoi App. Более подробнее будет ниже.

Почти за 15 лет ребята собрали огромное сообщество, интересующихся визуализацией данных и инфографикой. Их аккаунты есть почти во всех соцсетях, инфографику используют "The Wall Street Journal", "The New York Times" и множество других известных изданий.

Мне Visual Capitalist нравится тем, что использует простые и понятные широкому кругу визуализации. Их инфографика далеко не всегда академична, какие-то работы вызывают осуждение т.н. "дата экспертов". Но целевая аудитория - точно не академики.

Теперь про проект Voronoi. Думаю что немногие про него знают, поэтому и сделал этот пост. Это приложение, в котором публикуются и обсуждаются визуализации. Там можно создавать аккаунты и публиковать свои визы. Но работы не интерактивны в самом приложении - это картинки, которые лучше отнести к инфографике.

Каждый пост содержит:
1️⃣. Сам виз
2️⃣. Описание визуализации
3️⃣. Датасет
4️⃣. Ссылки на источники данных

Это очень удобно, когда вся эта инфа, включая авторов, есть на экране телефона.

В Voronoi App есть аккаунты СМИ и дата-агентств, специализирующихся на инфографике и дата-журналистике. Это Statista, Econovis и др. А ещё можете найти аккаунты известных специалистов в области инфографики и дата-журналистики.

Приложение нишевое (в сторах 100+k инсталлов, зимой было 50k), но зато там нет скама, как в X, и только по делу общаются в комментариях. Выбирают виз недели, есть рубрика "Выбор редакции". То есть, это огромный архив инфографики с описанием и комментариями, где можно смотреть чужие работы и публиковать свои. Публикации могут набирать десятки тысяч просмотров.

Можно присоединиться к комьюнити и стать data-driven storyteller, публикуя свои работы. Получите и просмотры и фидбек. На мой взгляд, это хорошая возможность и показать свои работы и поучиться у других.
Please open Telegram to view this post
VIEW IN TELEGRAM
Проекты, продукты
и продуктовый подход в пет-проекте


Сегодня расскажу как мы подходим к планированию и задачам в нашем пет-проекте анализа зарплатных вилок в IT. Команда: Саша, Рома, Никита.

Мы написали статью на vc.ru, где рассказали о процессе работы над проектом. Отдельно подсветили сколько стоят облачные мощности и LLM модели. Сам проект VILKY начинался с идеи актуального открытого анализа зарплат в IT. Есть дашборд 📊 с зарплатами и канал TG 🛫 со статистикой и отчётами.
В канале @vilky_it сейчас 143 человека. Запустили дайджесты по IT направлениям, начали публиковать исследования.

В посте затрону тему продуктов и проектов, расскажу как планируем и разрабатываем.

Любой проект всегда имеет сроки, фиксированный объём работ и ресурсы для его реализации. Проект может перерасти в продукт либо просто завершиться. Продукт же ориентируется на создание ценности для конечного пользователя, которая достигается за счёт непрерывного улучшения.

В нашем случае, на момент старта проекта был готов дашборд и скрипты парсинга. В проекте нужно было автоматизировать сбор данных, сделать проверки, алертинг и допилить сам дашборд. На выходе видели дашборд с ежедневным автообновлением и одним источником данных. Мы взяли на это 4 недели.

MVP был готов через 3 недели, и проект трансформировался в продукт. Продукт - это инструмент анализа "Дашборд VILKY". Продукт мы описали метриками. Главная метрика - число просмотров дашборда, её вывели в сам даш. Есть ещё метрики быстродействия, качества и количества данных, а также финансовые. Получилось небольшое дерево метрик, за которыми следим.

Про продуктовый подход много всего написано, отдельно про это не буду. Смысл в том, что выбираем метрики и растим их, непрерывно улучшая продукт.

Следующим проектом, переросшим в продукт, стал телеграм канал "Vilky_it". Он вырос из служебного канала, куда скидывали статистику по вакансиям. Этот продукт также имеет своё дерево метрик. Вот здесь с ценностью для пользователя пока не до конца ясно. Кажется, что ценность - это актуальная статистика по рынку вакансий в разных разрезах. Но может, и трансформируется во что-то другое.

Итого, внутри одного пет-проекта VILKY сейчас существуют несколько проектов и продуктов.

Все планы делаем на одной доске Miro 💨, где ведём диаграмму Ганта с задачами. Кусок доски - на заглавной картинке. Это помогает планировать, увидеть прогресс, понять кто и что делает. Также интересно посмотреть историю задач. Времени не так много - это всё-таки пет-проект, поэтому активно используем нейронки, и жёстких сроков не ставим. Выглядит лайтово, но движемся вперёд небольшими шагами.

На данный момент у нас в базе пара миллионов (!) вакансий (не только айтишных) с описаниями и параметрами за приличный срок. И здесь открывается колоссальный объём работ для нейросетей 🧬, но облачными нейронками всё это обрабатывать дорого, поэтому, придумываем как их разбирать подешевле.

Кроме этого, на таком объёме данных можно увидеть много интересного. Под исследования ресурсов пока маловато - нужно просто время. В канале начали вести рубрику "Инсайды", где рассказываем про какие-то неочевидные и нетривиальные вещи, делимся результатами исследований. В первом посте на эту тему рассказывали про мексиканский банк 'Plata Card' - это стартап который через 3 года существования стоит $1,5 млрд.. Корни российские, банк основан бывшими менеджерами Тинькофф, русскоязычная команда, есть открытые вакансии на удалёнку или в Мексику.

Исследованиями ходим проверять гипотезы на данных рынка вакансий. В сети очень часто встречаются "экспертные мнения" о рынке труда, где нет никаких данных - просто эксперт так видит. Мы хотим видеть доказательства. Доказательства без данных невозможны, поэтому в исследованиях будем прикладывать графики и диаграммы, ссылки на данные. Это обеспечит прозрачность анализа.

📊 Данные по зарплатам в вакансиях за последние 7 дней - в дашборде.

🛫 Канал со статистикой и отчётами @vilky_it
Please open Telegram to view this post
VIEW IN TELEGRAM
Истории из геймдева и недооценённые возможности

В геймдеве работал 3,5 года - одна из ярких полос в трудовой биографии. Сегодня расскажу свои истории из геймдева, и о том, как сильно недооценил проекты. Примечательны они тем, что 2 продукта, про которые пойдет речь, сейчас очень известны в мире, а на момент этих историй про них почти никто не знал. Попробуйте догадаться о чём идёт речь. Названия проектов буду закрывать спойлерами.

История 1. Год 2021, май.
Мне в LinkedIn пришло письмо о позиции дата-аналитика на одном гейминг-проекте. Писал рекрутёр из Ирландии, часть команды была в Питере, а студия бельгийская. В письме он рассказывал о разработке RPG проекта. Название игры я знал - её сделали ещё в 90х. Права на следующую часть купила другая студия, и под проект искали людей. Сама игра из 90х уже была классикой, её выпустила BioWare. Чтобы получился классный продукт, надо было очень постараться. Компания и команда были другие. Я скептически отнёсся к тому, что получится что-то адекватное, тем более, с замахом на классику. В общем, отказался. Но мне и так было в кайф - работал в Playrix, а это один из топов игровой индустрии.
Отказался и забыл. Через 2 года игру выпустили, и она разорвала все возможные рейтинги, став самой продаваемой игрой в Steam в день выхода. Узнал в новостях - писали почти все про успех игры.

Проект называется "Baldur's Gate 3", а студия - "Larian Studios".

История 2. Год 2019, ранняя весна.
Игровые компании тратят колоссальные деньги на рекламу. Самые большие партнеры - Facebook и Google. Однажды был на встрече по маркетингу, где рассказывали про китайские соцсети и рекламу в них. Названия сетей мне ни о чём не говорило, но маркетинг хотел часть денег отгрузить именно им, и почему-то одна сеть считалась перспективной. Посмотрел потом на контент соцсети - там была совершеннейшая дичь на китайском языке: какое-то видео, и непонятно кому вообще это надо. Подумал ещё, что деньги мы потеряем.
Через год про эту сеть знали примерно все.

Это Tik Tok, который через 2 года стал самым популярным ресурсом в сети, обогнав Facebook и Google.

Нас окружают возможности, а мы даже не придаём этому значения. Может выстрелить совершенно непонятный, на первый взгляд, проект.
Слив личного расписания Трампа и визуализация плюс нейросети

Ещё в первое президентство Дональда Трампа в сеть слили приватные данные о рабочем расписании президента. Я визуализировал это и сделал рабочий график Трампа по типам активности. Визуализировал сливы, выходит.

Был очередной MakeoverMonday (https://makeovermonday.co.uk/ - там много ссылок на датасеты) - челлендж по построению визуализаций. Взяли данные слива, построили датасет и предложили по ним датавиз челлендж. Данные интересные - надо было пробовать.

📃 Сама статья по сливам данных на Axios.

В статье писали что инсайдер из Белого Дома раскрыл личное расписание Трампа. Слив в виде документа ещё остался в сети.
Там данные с ноября 2018 по февраль 2019г. А вот датасет с сайта data.world почему-то удалили.

Слив личного расписания Трампа в виде pdf (95 страниц) прикладываю в комментарии. Для экспериментов.

📊 Визуализацию можно посмотреть здесь.
В датавизе - диаграмма Ганта, стандартный тип диаграммы для расписаний. Но диаграмма нестандартная, сделана на полигонах.

Итак, что же делал Трамп в первое президентство.
Первая встреча в рабочий день обычно 11:30 на полчаса. Это встреча с главой администрации Белого Дома или брифинг. Очень много звонков и встреч. Встречи названиями и локациями, допускали прессу или нет. Обед обычно в 12:30, можно поискать в pdf по слову "Lunch".

60% времени - Executive Time. В это время играет в гольф что-то делает в овальном кабинете или резиденции. В Рождественские праздники Трамп не работал.

Сама визуализация - пример того как pdf на 95 листов умещается на одной диаграмме.

Скормите pdf нейросетям - пусть поищут инсайты. Я пробовал - классно получается. Можно позадавать вопросы сколько времени из какого места работал, кому давал интервью, где зажигал рождественскую елку и т.д..

Результаты прикладывать не буду - экспериментируйте сами. Но удивительно, конечно, что анализ документов дошёл до такого уровня.

Ждём новых сливов!
Please open Telegram to view this post
VIEW IN TELEGRAM
2 300 000 вакансий Finder.work и геоанализ данных

Finder.work, а раньше - Finder.vc - сервис поиска работы и сотрудников. Задумывался как сервис размещения вакансий с удалёнкой, но сейчас там не только удалёнка. Говорят что все вакансии проходят модерацию, и как-будто мусора не должно быть. У сервиса есть свои блоги о работе и вакансиях на vc.ru, на самом сайте Finder и каналы в Телеграм, самый большой на 300 000 подписчиков. То есть, сервис довольно популярен. Число активных айтишных вакансий более 8000, это примерно 3% всех активных.

Всего 36 отраслей. Топ 3 отрасли:
- Розничная торговля (14% вакансий
- Производство (13% вакансий)
- Продажи (10% вакансий)

На сайте более 2 300 000 вакансий с 2020 года, и они уже есть в базе данных нашего пет-проекта VILKY. Собрали вообще все вакансии с описаниями. В проекте VILKY исследуем только IT вакансии, там сделаем пост по IT.

Из 2х млн вакансий можно вытащить много интересного. Сегодня расскажу про Spatial анализ.

Сервис Finder отдаёт широту и долготу для ряда вакансий, а также адреса, регионы и страны. Будем выбирать города и смотреть где плотность вакансий выше. Для этого разобьём каждый город на квадраты со стороной N, где N можно задавать вручную. Получим сетку, разбивающую город на кластеры. Внутри каждого кластера будем считать вакансии и закрашивать всю сетку по градиенту. Где квадрат ярче, там вакансий больше. Смысл в том, чтобы найти места максимального сосредоточения открытых вакансий и посмотреть как такие сетки будут выглядеть для разных отраслей. Также кластеры можно закрашивать по средней зарплате - увидим места с максимальной ЗП.

Есть опенсорсный инструмент от Uber, в котором можно строить визуализации на картах. Инструмент называется kepler.gl. Взял 3 города: Питер, Казань, Ростов-на-Дону и для каждого построил по 2 виза: 3D и 2D. Высота столбцов пропорцианальна количеству вакансий, а цвет - средней зарплате.

Заглавная картинка сделаны в Keppler. Все 6 визуализаций прикладываю в комменты.

- Питер - 125 000 вакансий. Длина стороны кластера - 200 метров.
- Казань - 30 000 вакансий. Радиус кластера - 100 метров.
- Ростов-на-Дону - 18 000 вакансий. Длина стороны кластера - 150 метров.

В Табло тоже сделал, не выкладывал ещё. Весь способ разбиения на кластеры описывать не буду (делал для данных AirBnB раньше), он работает на принципах математического округления координат и компенсации долготы на карте. Использовал полигоны для визуализации. Для каждого города построил сетку и посчитал число вакансий в кластерах. Кроме этого, можно закрашивать кластеры по средней зарплате - сразу выделяются деловые центры городов. Если переключать категории: "Производство", "Юриспрудсенция" и другие, то картинки сильно меняются.

Не решил ещё куда дальше двигаться. Могу или дашборд сделать с несколькими городами или интерактивную карту в Mapbox и статью написать про это. Либо конкретные города и острассли исследовать. Пишите в комменты и ставьте реакции, если интересно видеть данные в интерактиве.
May the 4th be with you и Звёздные Войны в датавизе

4е мая - день Звёздных Войн. Просто потому что самая известная фраза "May the Force be with you" созвучна "May the fourth be with you", поэтому фанаты и выбрали этот день. Введите "May the 4th be with you" в гугле сегодня и посмотрите что произойдёт.

В день "Звёздных войн" по миру происходят всякие движухи. В датавиз сообществе делают визуализации на данных "Звёздных войн".

Я сделал датавиз "Star Bars" ещё в 2019 году в Tableau. Тогда вышла фича density marks, она визуализирует плотность точек. У меня случайно получилось так, что прямая линия из точек, с density marks и градиентом от белого до синего выглядит как световой меч (lightsabre). В итоге получился барчарт из световых мечей, где длина лезвия меча - это сборы в кинотеатрах по каждому фильму. Можно переключать на значение с приведением к инфляции, тогда клинки красные. Позже добавил анимацию.

В общем, дата сообщество веселится как может. Вот визуализации, ставшие классикой в комьюнити, эпичны как сами "Звёздные войны":

🌟 Star Wars - Screen Time Analysis by Jacob Olsufka.
🌟 Starwars screen time by Varun Varma
🌟 Star Wars Films by George Koursaros
🌟 Star Wars Characters Screen Time Analysis by Filippo Mastroianni
🌟 Star Wars by Adam E McCann

Визуализируйте, и да пребудет с вами 4е Мая! 💫
Please open Telegram to view this post
VIEW IN TELEGRAM
Что происходит на рынке труда и Indeed Job Posting Index

Вчера большие телеграм каналы копипастили одну и ту же новость "Айтишники всё!" с графиком падения некой величины Index во времени. График по данным Indeed и только для Software Development в США. Ссылок нет, но если поискать, то можно найти что данные отсюда. Это ссылка на сайт Федерального Резервного банка. Там много разных данных.

Первоисточник этих данных - Indeed (indeed.com). Это мировой хедхантер, только в несколько раз больше hh.ru и на 28и языках.

Давайте разберёмся что значит метрика Indeed Job Postings Index. Это ежедневный индикатор рынка труда, предложенный компанией Indeed. Точка отсчета 1е февраля 2022 года, начало COVID, берется за дату отсчёта и индекс приравнивается к 100 (это все опубликованные вакансии на indeed.com). В следующие даты индекс меняется; он показывает изменение в процентах относительно точки старта. То есть, если число вакансий увеличилось на 40%, индекс будет 140. Исследуют только 9 стран. Вот описание в статье "Introducing the Indeed Job Postings Index" от декабря 2022г.

У трекера вакансий Indeed есть аккаунт на GitHub "job_posting_tracker". Там можно забрать данные по 9и странам в разных разрезах. Для исследования данных у Indeed есть раздел на сайте . И есть целый сайт hiringlab.org где их команда Hiring Lab делится своими исследованиями рынка труда.

Самое интересное - строить графики у них на сайте (https://data.indeed.com/). Там есть динамика вакансий, зарплат, удаленки и актуалочка - динамика вакансий с требованиями AI. Можно смотреть по штатам и отраслям, убирать сезонность, смотреть скользящие средние, сравнивать по годам и т.д.. Посмотрите как графике делает мировой топ.

На заглавной картинке - графики четырёх отраслей. Можно сравнить что происходило с IT, спортом и туризмом. Разработка ПО стремительно росла в COVID, и с 2022го года постепенно снижается.

Что не учитывают кликбейтные посты в телеграм:
- Постепенно, с середины 2022 года снижается весь рынок в США со 160 до 106. Практически пришёл в доковидному уровню.
- Нет сравнения с данными до 2022 года. Просто нет данных.
- IT - это не только Software Development.

Итого: снижается весь рынок труда, но IT интенсивнее. Число вакансий с AI переживает второе рождение с 2021 года, и сейчас тренд восходящий.

В рамках проекта анализа IT вакансий и зарплат VILKY мы собрали статистику по РФ и сопоставили с данными Indeed. Получилось интересно и неожиданно. Скоро опубликуем в канале проекта @vilky_it.
Пет-проект VILKY. Архитектура, исследования, дизайн.

Продолжаю рассказывать о нашем пет-проекте анализа зарплатных вилок в IT. Команда (Саша, Рома, Никита), ещё подключилась Снежана. Она занимается дизайном.

Месячный апдейт по проекту анализа IT зарплат:

1. Стали собирать исторические данные по ЗП за всё время.
2. Собираем вакансии сервиса vseti.app
3. Создали репозиторий на GitHub, появились первые пулл-реквесты.
4. Перенесли Airflow на Timeweb.
5. Дизайн. Сделали гайдбук.
6. Сделали первые исследования на данных.
7. Сделали лендинг и запустили рекламу канала.
8. Сделали манифест проекта.

1️⃣. Сбор исторических данных.
Стало понятно, что снепшоты, которые делаем каждый день, не решают ряд задач анализа, а хочется именно историю смотреть. Поэтому, собрали все доступные вакансии с Habr career и Finder.work. Finder.work - большой ресурс вакансий, там их более 2х млн, не только IT, а вообще все по отраслям. Это моя часть работы, сейчас собраны все возможные поля. Выше писал пост о геоанализе данных с Finder. В итоге, переходим от снепшотов к историческим данным и инкрементальному обновлению - каждый день смотрим какие вакансии появились, открыты и добавляем статусы на текущий день в базу. Проблема с нормализацией LLM - слишком дорого получается нормализовать исторические объёмы через YandexGPT или ChatGPT, поэтому, будем делать свою модель.

2️⃣. vseti.app - агрегатор IT вакансий. Постепенно подключаем другие сервисы. Парсер делал Рома, о том как работает, написал в своём канале.

Пункты 3️⃣ и 4️⃣ связаны с архитектурой и совместной разработкой. Всё делал Никита и написал об этом в своём канале. Здесь напишу, что это была большая архитектурная задача. Сейчас все можем пушить на гитхаб и работать с Airflow.

5️⃣. Дизайн. Это тоже очень большой шаг вперёд. Давно хотелось его сделать, но сами в дизайн мы не умеем. С этим помогла Снежана. Очень круто получился гайдбук, было переработано лого и выбраны основные цвета. Экспериментируем с подачей информации в канале: делали неделю Звёздных войн. Профиль Снежаны на Behance.

6️⃣. Исследования данных. Можно вытащить много интересного. Сделали несколько постов: "Как изменился найм в IT за 10 лет и что произошло с зарплатами?", "О падении числа вакансий на Habr", "Геоанализ вакансий по городам". Исследование и пост могут занимать несколько часов. Пока я делаю, но времени не хватает на глубокий анализ, стараемся раз в неделю публиковать.

7️⃣. Реклама сервиса и канала. Это задача у Ромы - он раньше много работал с рекламной сетью Яндекса и Директом. Всё настаивал Рома и написал у себя в канале. Запускали для теста посмотреть конверсии. Сейчас пересматриваем стратегию.

8️⃣. Манифест проекта. Обозначили цели, позиции и принципы проекта, прикрепили в канале.

Уникальных данных у нас сейчас много - можно делать детализированные отчёты и исследования, подключать LLM. Это всё в планах.

В канале @vilky_it сейчас 400+ подписчиков. Более 150 пришли после постов Димы Аношина о проекте в его канале "Инжиниринг данных". Спасибо ему огромное! 🎆
Please open Telegram to view this post
VIEW IN TELEGRAM
VILKY в IT пабликах и эффект Telegram

Вчера о нашем пет-проекте анализа зарплат VILKY написали телеграм каналы с подписчиками от сотен тысяч до 1,7 миллиона. Это удивительно, но факт. Сначала про проект написал журнал о программировании XOR (170k), через несколько минут пост появился в милионнике Бэкдор (1,7М), потом - в канале "Не баг, а фича" (650k), CodeCamp (250k), "GeekNeural: IT & Нейросети" (88k) и ряде других. Более 350 000 просмотров суммарно в каналах. Это дало просто сумасшедшие охваты.

Началось всё с редакции XOR - они нашли нашу статью о сервисе на vc.ru и сделали пост про сервис. Огромное спасибо ребятам!

Через 6 часов после публикации, 📊 дашборд по вакансиям просмотрели 5000 раз (это в 300 раз больше чем раньше). В субботу, до публикации, у двшборда было 25 000 просмотров за полгода, а сейчас - уже 43 000. То есть, с момента создания даша в ноябре прошлого года, и до публикации постов, просмотров столько же сколько за последние 2 дня (сегодня пробьём 50 000). Это что-то невероятное.

У себя в канале я писал про эффект Реддита - о том, что такое оказаться на главной странице reddit.com. И рассказывал о знакомом аналитике из США - он через месяц устроился в Apple после его публикации на главной. В русскоязычном пространстве подобный эффект наш сервис ощутил на себе в эти выходные.

Я, Никита и Рома получили в лички и комменты тонны фидбека. От предложений до багов и опечаток.

Главное из фидбека пользователей:
1️⃣. Нравится суть проекта - сбор открытых данных и понятные алгоритмы анализа.
2️⃣. Нравится работа с инструментом анализа данных (дашбордом).
3️⃣. Нравится открытость проекта - рассказываем о том как всё устроено. Попросили подробную статью на Habr.
4️⃣. Нравится что ежедневно есть свежие данные.
5️⃣. Понимают что сбор и обработка данных - это сложно.
6️⃣. Понимают что в проекте могут быть баги, и это нормально.
7️⃣. Понимают что LLM могут ошибаться.
8️⃣. Хотят исследовать данные.
9️⃣. Нет подобных сервисов.
1️⃣0️⃣. Это бесплатно!!!

Посты были в айтишных каналах, и точно попали в нашу целевую аудиторию. Проект назвали "лютейшей годнотой" - это вдохновляет.

В выходные мы фиксили критические вещи, оптимизировали даш - он работает в 2 раза быстрее сейчас. Но ещё есть простор для оптимизации. Фидбек от пользователей разберём, пофиксим баги и прислушается к тому что хотят люди.

Вы можете проследить по постам в этом канале как всё начиналось: дашборд 27го ноября прошлого года, полгода назад; автоматизация с начала февраля, запуск телеграм канала и т.д. Вчера, благодаря пабликам, проект вышел на новую орбиту. Главное, что мы делаем нужный продукт.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Бэкдор
Анализируем вилки зарплат на ЛЮБЫХ айтишных вакансиях — сервис VILKY предоставит подробнейшую инфу по деньгам с открытых русскоязычных позиций и поможет вам найти работу мечты.

• Парсит данные со ВСЕХ открытых вакансий России и СНГ.
• База обновляется РЕГУЛЯРНО.
• Конкретно показывает, сколько стоит каждая позиция, грейд и навык на рынке труда — это поможет вам собрать идеальный набор знаний и квалификаций.
• БЕСПЛАТНО.

Сохраняем себе и узнаем все подводные камни рынка — тут.

👍 Бэкдор
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Весь SQL в одном месте и стартап Sherloq

Пару недель назад мне в личку написал один из основателей стартапа Sherloq. Его зовут Nadav. Он назвал свой продукт "Cursor for Data" и попросил мнение о продукте. Меньше месяца назад выпустили бету с AI поддержкой, можно бесплатно тестить. Бегло посмотрел - идея нравится, поэтому рассказываю.

Стартапу 3 года, более подробно о нем на "Y Combinator", "Crunchbase" и "Product Hunt".

"Y Combinator" или YC - известный акселератор стартапов. Стартап Sherloq привлёк $500 000 на Pre-seed. Это самая ранняя стадия инвестиций, и деньги дают на MVP. Но не просто так, а за долю в компании обычно. В этом году попали в Топ-10 челленджа от Snowflake, и там до $1 млн могут дать каждому из 2х финалистов.

Идея стартапа - "One place for all your SQL queries". Они хотят решить проблему разрозненных SQL запросов в компаниях. Проблема - в компаниях SQL запросы могут храниться в Confluence, GitHub, Jupyter ноутбуках, BI инструментах, во внутренних документах, в переписках, в головах сотрудников и т. д.. Одна метрика может считаться по-разному в разных отделах, в разное время и в разных инструментах. Проблема действительно серьёзная. Я не знаю компании, которые её полностью решили. Поэтому есть чаты где друг у друга спрашивают как считать метрики.

Надо сказать, что первую версию продукта ребята сделали и даже продали компании AppsFlyer (не нуждается в представлении), у которой более 10000 таблиц и 2 млн запросов в день. Подробно кейс здесь.

По-сути стартап сделал что-то вроде GitHub для SQL, с версионированием, но без усложнений в виде ревью, пулл-реквестов, веток и т.д.. Запросы шарятся через экстеншны и плагины к Chrome, VsCode, Cursor, DataGrip, PyCharm и др.. То есть, открываешь инструмент, запускаешь плагин и ищешь нужный запрос в окне Sherloq, а потом обновляешь в SQL репозиторий там же. В заглавной картинке пример на BigQuery.

Основатели стартапа описывают свою систему как "collaborative platform for managing and documenting data analytics workflows". Кроме collaborative SQL repo, есть встроенные инструменты: линтер, поиск и фикс ошибок, AI агент (пишет запросы, исходя из названий метрик), ERD Visualizer. Ещё может вытаскивать Custom SQL запросы из Tableau по API токену и пушить в репозиторий.

Обозначенные выше проблемы тратят много времени пользователей и бизнеса. Это прям боль компаний в data направлениях для менеджмента.

По стоимости - 16$ в мес. за 250 SQL фиксов, 200 вопросов к AI, неограниченный объём хранимых запросов. Дорого это или нет - непонятно, пока не сравнить с потерями времени на SQL в конкретной компании.

Попробовал пока форматирование запросов, посохранял запросы, ещё на VsCode плагин надо поставить и подключить к простой БД, помучаю AI агентов, построю ERD диаграммы и напишу отзыв. Интересно как у стартапа дальше пойдёт. Идея интересная, но как на уровне компаний внедрять новый на рынке инструмент - не очень понятно, надо ждать больших кейсов внедрения.
Tableau Lego и невозможные визуализации.

В BI и датавиз пространстве большинство пользователей работают со стандартными визуализациями. Естественно, в любом инструменте визуализации данных есть свои ограничения - они и определяют сложность визуализаций. Эксперты могут посмотреть на любую работу и примерно рассказать как она сделана. В периметре Tableau существуют "невозможные визуализации" - такие, которые мало кто может повторить без мануала, и до их создания построение считалось невозможным. Обычно на скриншот с такой визуализацией говорят что "это сделано не в Табло".

Сегодня расскажу о своей визуализации Tableau Lego. Ей 5 лет, она стала классикой в своём сегменте, но не каждый Tableau эксперт понимает как она построена. Я консультировал несколько инженеров и сейлзов внутри компании Tableau по принципам её построения. То есть, инженеры, создающие продукт, хотели понять на что способен продукт, и что можно ещё создать. И внутри компании создают 3D проекты чтобы расширить понимание возможностей продукта.

Сама визуализация "Tableau Lego" - это эмулятор конструктора, где можно по шагам эмулировать сборку лего домика, а также смотреть на него под разными углами. Всё работает на чистой математике, без внешних модулей.

Когда-то для меня 3D в Tableau казалось космосом. Но надо было разобраться и добавить что-то своё. Месяца на 4 погружался в 3D, принципы, что было сделано и что можно сделать. Сверхсложного ничего нет - просто нужно время. Из своего - добавил работу с OBJ файлами - это сильно изменило картинку. До этого 3D модели описывались форматом стереолитографии, и полигоны делились на треугольники. С моим подходом можно работать с любым числом вершин в полигоне.

Самое сложное - создать датасет, остальное - дело техники. Визуализация - это набор полигонов с заданными координатами вершин и формулы проекции на плоскость плюс алгоритм сортировки полигонов. Максимально подробно всё описал в статье "3D модели в Tableau". Её до сих пор читают и делают 3D. Мы даже конкурс один раз проводили на индийском TUG с призами.

Мне нравится концепция Лего, когда из базовых кубиков создаёшь примитивные конструкции, а и из примитивных конструкций создаёшь сложные сооружения. Как в жизни.

После создания таких визуализаций мне посчасливилось сотрудничать с людьми из Pixar, они создавали ещё первую "Историю игрушек". Про это рассказывал в одном из постов.

Зачем всё это? В русскоязычном пространстве такой вопрос возникает часто, а в англоязычном - нет. В англоязычном комьюнити просят статьи, вебинары и объяснения. Мне просто интересно делать то, что считают невозможным. Это классно, когда ты ограничен инструментом (нет циклов, скриптов и т.п.), и приходится придумывать вычисления для реализации идеи.
В СНГ такие вещи никому не нужны, и это печально. А в англоязычном пространстве всегда ищут что-то необычное и тех кто это делает. В твиттере (благодаря таким работам) на мой профиль подписаны CEO Salesforce, CEO Tableau, CTO Twitter/Facebook (сейчас - Sierra AI) - это люди, определяющие куда пойдёт мировое IT. И им это надо.
Самый сложный вид спорта и рейтинг ESPN

Какой вид спорта самый сложный?
На этот вопрос однозначного ответа нет, поскольку нет объективных критериев оценки.

Но в 2004 году группа экспертов из ESPN (espn.com - самый посещаемый сайт о спорте на тот момент) взялась ответить на этот вопрос. Для этого они взяли 10 ключевых навыков или способностей:

1️⃣. Выносливость (Endurance): Способность долго выполнять физическую или умственную работу.
2️⃣. Сила (Strength): Насколько мощное усилие может приложить человек.
3️⃣. Мощность (Power): Комбинация силы и скорости — способность быстро приложить усилие.
4️⃣. Скорость (Speed): Насколько быстро человек может двигаться или реагировать на что-то.
5️⃣. Ловкость (Agility): Способность быстро и точно менять направление движения.
6️⃣. Гибкость (Flexibility): Способность суставов и мышц растягиваться без травм.
7️⃣. Хладнокровие (Nerve): Умение сохранять спокойствие в стрессовых или опасных ситуациях.
8️⃣. Устойчивость (Durability): Устойчивость к травмам, нагрузке или усталости.
9️⃣. Координация рук и глаз (Hand-Eye Coordination): Способность синхронизировать зрение и движение рук.
1️⃣0️⃣. Аналитические способности (Analytic Aptitude): Способность быстро и эффективно анализировать информацию.

Каждый навык оценивался по шкале от 0 до 10 для каждого вида спорта, где 10 - максимальный навык, необходимый в конкретном спорте (напр, для гимнастики гибкость = 10) После чего оценки всех 10и навыков суммировались и получалась одна общая оценка. Всего оценили 60 спортов. Таблица с оценками каждого вида спорта есть по ссылке. А экспертов с их биографиями можно найти здесь.

Надо сразу заметить, что оценки субъективные, а получившийся рейтинг - также субъективная история, и ближе американскому майндсету. У меня тоже есть вопросы к оценке. Но остановимся на том, что есть, тем более, что на протяжении 20и лет на эти оценки периодически ссылаются (Статья 1, Статья 2). Есть и другие рейтинги.

Итак, топ 5 спортов с оценками:
1️⃣ Бокс (72.4)
2️⃣ Хоккей (71,8)
3️⃣ Американский футбол (68,4)
4️⃣ Баскетбол (67,9)
5️⃣ Борьба (63,5)

Антитоп (самые ненапряжные виды спорта):
5️⃣6️⃣Кёрлинг (27,5)
5️⃣7️⃣ Боулинг (25,4)
5️⃣8️⃣ Стрельба (24,9)
5️⃣9️⃣ Бильярд (21,5)
6️⃣0️⃣ Рыбалка (14,5)

Этот датасет мы визуализировали на MakeoverMonday в 2018 году. Мне тогда было интересно попробовать что-то нестандартное. Выбрал диаграмму Coxcomb ("Петушиный гребень"), она же - Nightingale’s rose. Надо отметить, что диаграмму такого типа использовала Флоренс Найтингейл - одна из пионеров визуализации, для отображения смертности солдат, почти 2 века назад. Диаграмма читерская (как и все круговые), поскольку визуально считывается площадь. Алексей Смагин писал про неоднозначность круговых диаграмм в TJ.

В моём случае каждый сектор со своим цветом отвечает за свой навык, а радиус сектора - за оценку навыка. На визуализации 60 диаграмм, своя для каждого вида спорта и одна общая, где дугами отмечаются оценки всех навыков во всех видах спорта. Получилось нетривиально. Работа называется 📊 "What's the toughest sport of all?". Не на всех браузерах нормально отрабатывают шрифты.

Реализация непростая - в Табло используется денсификация и по 6 табличных вычислений для X и Y. Тогда делал такое первый раз, полдня просидел, но получил что хотел. Всего на визуализации 122 500 точек. У Bora Beran есть статья по созданию таких диаграмм.

На общей диаграмме интересно поизучать крайности - самые высокие и самые низкие оценки каждого навыка. Или найти диаграммы с резко выраженными различиями в навыках (напр., автогонки - максимум Analytical Aptitude и минимум Flexibility). На этой же диаграмме интересно сравнить одни вид спорта с остальными.

Если досконально разбираться в данных и визуализации, то данные - читерские (сами придумали методику, сами проставили баллы), и диаграмма не самая ясная (по-разному может восприниматься человеком). Но это пример попытки оцифровать то, что оцифровать нельзя. И таких примеров много.

А вот интересно, где в этом рейтинге будет киберспорт? 🎮
Please open Telegram to view this post
VIEW IN TELEGRAM
Конкурс авторских Telegram-каналов

Подал заявку на участие в конкурсе авторских Telegram - каналов. И её приняли 🎆. Интересно принять участие в такой движухе, я не помню чего-то подобного.

Подробнее о конкурсе - на странице: https://tg-contest.tilda.ws
Главный канал конкурса: @tg_contest_main

Заявки можно подавать до 6 июля. Если у вас небольшой авторский канал, пишете сами, а не копируете другие посты, и ERR более 200, смело подавайтесь в своей номинации. Заявок уже более 500.

Главный приз - шаринг ваших постов на аудиторию 250k и новые подписчики.

Мне интересен нетворкинг, просто пообсуждать, чем живёт сообщество в TG.

Голосование за каналы - с 7 по 14 июля.
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/06/30 04:51:11
Back to Top
HTML Embed Code: