Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
56 - Telegram Web
Telegram Web
Пароли в Excel или мнимая безопасность

Заглавная картинка - скрин из 'Cyberpunk 2077' с небольшими изменениями. Игра революционная в прямом и переносном смыслах. Там есть игровые моменты, в которых дешифруете файлы. Это делается несколькими кликами. Ну то есть, файлы зашифрованы, но несколько секунд достаточно для декодирования и просмотра данных.

Сегодня немного про Excel, формат xlsx и пароли.

Так сложилось что я не работал в Excel полноценно. У меня всё началось с Matlab, Matematica, потом - google sheets, SQL, БД и далее - инструменты BI. Существуют компании, где нет продуктов Microsoft. И таких компаний немало, там макбуки у всех обычно, и с экселем не работают. Но всё равно приходиться иногда разбираться с файлами эксель - от них никуда не денешься.

Несколько раз сталкивался с тем, что в задачах или wiki, на ресурсах подрядчиков или заказчиков остаются какие-то запароленные файлы Excel. Непонятно кто и когда это делал, но данные оттуда вдруг понадобились. Давайте разбираться зачем это делали, и как с этим работать.

Если кратко, то пароли в Excel обычно ставят либо на страницу, либо шифруют весь файл.

1. Если пароль на странице (Protect Current Sheet), то можно сказать что его нет, и данные можно вытащить. Есть еще вариант 'Protect Workbook Structure', но тоже отнесем сюда.
2. Если запаролен весь файл (Encrypt with Password), то забрать данные сильно сложнее - файл шифруется.

То есть,
1. 'Защита' 🛡
2. 'Шифрование'. 🔐

Чаще используют первый вариант - он проще, можно просто кликать на закладки и устанавливать пароль. Так делают или для пересылки через телегу (например), или ещё по каким-то причинам. Видел, такое с P&L делали. Мне кажется что слово 'Защита' действует магическим образом на пользователя. А шифрование для рядового юзера - что-то сложное и менее понятное.

Давайте посмотрим что можно сделать с вариантом 1.
Файл xlsx - это zip архив (это может быть откровением для многих). Расширение файла можно поменять на zip и посмотреть что внутри. Чтобы убрать пароли с конкретных листов, надо в файлах листов 'sheet 1' (как пример), а это xml файлы, удалить секцию кода <sheetProtection. Вот вы и удалили пароль.

Другой способ прочитать данные - открыть файл с паролем в Tableau или Power BI. Они игнорируют пароли, сразу показывают скрытые листы и показывают данные. C Tableau понятно, но почему Power BI игнорирует свою же майкрософтовскую защиту становится ясно, если прочитать официальную доку 'Защита листа'

Там указано что пароль ставится для защиты от изменений данных, а не от защиты чтения.

В случае 2 когда паролится весь документ через File - Info - Protect Workbook - Encrypt with Password, то zip архив шифруется и не открывается потом архиватором. Здесь все сложнее - надо расшифровать архив, но про методы подбора не пишу здесь по понятным причинам. Если надо защитить данные, то только этот способ.

Пишу всё это, потому что в моей практике было несколько случаев, когда искали пароли к листам. Многие считают что данные защищены паролем (написано же 'защитить') и пересылают в таком виде в мессенджерах. Обычные пользователи редко представляют разницу между защитой и шифрованием. Еще немногие знают что BI инструменты игнорируют такие пароли.

Такое небольшое знание может сэкономить несколько часов работы, заслужить уважение коллег и почувствовать себя на минуту героиней/героем Киберпанка.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍225
Information is beautiful Awards и работы за 2025

В визуализации данных, как и в других областях, есть свои премии и награды. Одной из знаковых является IIBA 'Information is beautiful Awards'. Работы на премию отбираются в несколько этапов. Сначала из всех заявок выбирают лонглист, где около 90% работ проходят. Потом шортлист - примерно 10% остаётся (если правильно помню), потом выбирают победителей в каждой категории и награждают в условном Лондоне.

Свою первую работу я подавал ещё в 2018 году. Это работа по истории Формулы 1. Тогда не понимал толком зачем всё это нужно, нормально не описал ничего, но отправил. В то всемя активно делал что-то в англоязычном комьюнити, люди отправляли работы на премию, я тоже решил попробовать. Работа прошла в лонглист премии. Это был личный успех.

В 2019 году отправил 6 работ, все они прошли в лонглист, где было примерно 600+ работ. То есть, 6 работ - это около 1% лонга.

Позже был COVID, и премию закрыли. В 2022м мероприятие возродилось снова.

В этот раз отправил 15 работ. Год был результативный. Премию сдвинули почти на полгода, поэтому отправил работы за последние 15 месяцев. Очень много времени заняло описание и оформление заявок.

Если вы хотите отправить свои работы, то вот ссылка. До конца января можно отправлять работы, если они были опубликованы с сентября 2023 по 31 декабря 2024го. Интересно что сейчас в заявке отдельно есть поле для AI, где надо указать какой инструмент использовали. Раньше не было. Тренды.

Зачем это нужно вам? Если занимаетесь визуализацией данных, и хотите знать и уметь больше базовых визуализаций, то обязательно нужно смотреть то что делают в мире. По ссылке все работы за всё время, смотрите и вдохновляйтесь.

Если брать бизнес и BI, то с насмотренностью там сложно всё. Мало кто смотрит и делает какие-то работы для мира. IIBA - серьёзный ресурс для вдохновения, можно много почерпнуть.

IIBA - премия о красоте визуализаций. Топовые компании: National Geographics, Reuters, когда-то TACC, делают действительно уникальные вещи, но там команды, бюджеты и ресурсы. Не у всех они есть, но обычный человек может бесплатно подать заявку и будет участвовать наравне с гигантами. Потусить в компании единомышленников всегда приятно.

У меня всё в соло, в Tableau и в свободное время, поэтому, лонглист - вполне ок. Если прям цель поставить сделать что-то топовое и монументальное, то это js, скрейпинг и парсинг данных, классный сторителлинг и дизайн. Либо команду собирать либо где-то время находить на это всё.
🔥163🆒2
Сложные функции и параметрические портреты

А помните, в школе строили параболы и гиперболы в тетради? В заглавных картинках тоже функции, только посложнее. Вот интересно, в какую сложность функций можно уйти в принципе, насколько большими функциями мы можем манипулировать. В научной фантастике встречается понятие 'Формулы всего' или уравнения вселенной. Если знаем такую функцию, можем ответить на любые вопросы вселенной. Но есть мнение, что ответ на все вопросы - 42.

Сегодня покажу примеры того как функциями можно описать сложные геометрические объекты - портреты знаменитых людей. Для каждого портрета подбирается только одна функция, но функции эти очень большие. Зная функцию y=f(x), можно, строить точки с некоторым шагом, соединять соседние точки прямыми и получать изображения. Для отображения точек на плоскости функцию преобразуют в параметрический вид: x=f(t), y=f(t). Это параметрические уравнения.

Представим что мы как-то нашли функцию, описывающую ваш портрет. Таким образом, для получения портрета вам не нужны никакие данные кроме диапазона t. В среде Wolfram Alpha функции, описывающие портреты, называются Person Curves. Процесс поиска таких функций описан в блоге Wolfram. Статья 1, Статья 2, Статья 3.

Немного про Wolfram Research и Wolfram Alpha. Wolfram Research - корпорация, созданная Стивом Вольфрамом в 1987 году. Стив Вольфрам - человек, сочетающий математика и успешного предпринимателя. Если работали со средой Mathematica, то знаете о Wolfram Language. Стив известен описанием и популяризацией клеточных автоматов, изобретением языка пришельцев специально для фильма 'Прибытие' Дени Вильнёва (подробная статья в его блоге) и много ещё чем интересным. В общем, дядька разносторонний и по-хорошему сумасшедший.

Продукт WolframAlpha задумывался как 'Answer Engine', который отвечает на вопросы на основе данных внешних источников. Сервису 15 лет, и это всё было до популяризации AI. В общем, эта штука может генерировать сложные функции, визуализации и т.п..

Параметрические функции Person Curves я забирал из WolframAlpha, потом преобразовывал параметрические уравнения в формат Tableau, где и отображал их. Уравнения огромные, поэтому вручную править их нереально - писал скрипт на питоне. Весь процесс со скриптами и ссылками в моей статье.

Итого в визуализации 'Person Curves Album' 20 портретов известных людей, каждый из которых описывается двумя параметрическими уравнениями. Из внешних данных достаточно двух значений 0 и 1. Есть ещё параметры, которыми можно задавать шаги рисования функции и сложность (число точек).
8🔥7
IT вакансии и автоматизация парсинга зарплат

В конце осени я рассказывал про парсинг IT вакансий сервиса Getmatch и глобального сервиса Glassdoor. Интересно что дашборд по вакансиям Getmatch и зарплатным вилкам вызвал живой интерес, он до сих пор просматривается - уже более 11 000 просмотров. Его я обновлял раз в две недели - тогда казалось что это нормальный диапазон мониторинга вакансий. На самом деле, за 2 недели может очень много поменяться - закрываются и открываются новые вакансии на сайте достаточно шустро. Динамика по конкретным компаниям или направлениям должна отражать веяния рынка IT. Поэтому, хотелось посмотреть именно на тренды во времени, но для этого надо иметь ежедневные срезы.

Вручную ежедневно обновлять данные не комильфо - надо автоматизировать. Здесь случилась коллаба с разработчиком Никитой Ивановым. Думали как можно сделать. Мне казалось что достаточно запускать парсеры по условному крону и складывать данные в базу данных. Но Никита придумал и сделал полноценную систему с Airflow, облачным PostgreSQL, проверками, возможностью автоматического экспорта в Google Sheets алертингом в Телеграм. Получилось действительно круто!
Про то как и что делал, Никита описал у себя в канале. Го читать Никиту в его канале 'Joni in Web'.

В итоге, сейчас у нас есть система сбора данных открытых вакансий Getmatch. В 8 утра скрипты собирают все вакансии за полный вчерашний день и складывают в базу. Кроме этого, собираются навыки/инструменты по каждой вакансии и подтягивается актуальный курс валют с сайта Центробанка. Курс валют нужен для перевода в рубли валютных зарплат.

В дашборд по зарплатным вилкам добавились:
- Временные тренды по вакансиям
- Открытые и закрытые вакансии в конкретный день
- Таблица вакансий с лого компаний, где визуализированы зарплатные вилки. Можно из дашборда переходить на страницу вакансии

Сейчас можем считать время активности вакансий, видеть тренды в конкретных разрезах и ещё много интересного. В публичном дашборде несколько дней: 8 последних дней и несколько прошлых снепшотов с осени. Подключение к Постгресс. Для обновления публичного даша нужен экспорт в Google Sheets (ограничение Tableau Public) - это следующий этап.

Для чего это всё?
Пока я не видел ни одного нормального публичного инструмента анализа зарплат в IT. Очень сложно ответить на вопрос: 'Сколько сейчас стоит разработчик?'. Просто потому что много факторов, влияющих на ЗП. Анализ ЗП - это либо статистика одной платформы (hh, например), либо опросы в каких-то сообществах.

Проблема опросов в том, что они нерелевантны в большинстве случаев. Большинство IT профи из моего круга общения никогда не проходили опросы - им это неинтересно. Я тоже никогда не проходил, даже слабо представляю кто и где это проводит.

❗️ Поэтому, мы собираем данные вакансий и делаем инструмент анализа.

⚡️ Что дальше?
У нас есть парсер, и настроен ETL процесс сбора данных в БД по другой известной платформе с IT вакансиями. Данные платформы подтягиваются в дашборд, и можно сравнивать вакансии разных платформ - там очень много интересного (даш пока непубличный). Есть проблемы унификации данных разных платформ - это то, c чем помогает ML. Про это и следующие этапы проекта обязательно расскажем и напишем.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥25❤‍🔥74👌1
Волны кинобизнеса и кассовые сборы в кинотеатрах

В 'The New York Times' в 2008 году вышла визуализация кассовых сборов фильмов с 1986 по 2008. Тогда она была революционной, и позже завоевала несколько премий. Сама визуализация показывает денежный поток или всю выручку от проданных билетов во времени. В глаза бросаются самые кассовые фильмы.

А помните, 5 лет назад закрылись все кинотеатры 📽 на планете? Примерно с февраля по март закрыли всё. И деньги на развлечения ушли из оффлайна в онлайн буквально за считанные дни. Для онлайн развлечений настала золотая эра.

Летом 2020го я сделал визуализацию 'Movie Waves in 21st Century'. Вдохновился тогда именно визом 'The New York Times'. Хотел показать весь денежный поток фильмов с начала века до закрытия кинотеатров. Визуализация - это один большой Area Chart, разбитый по годам. Один фильм - одна область на графике, а цвета - дистрибьюторы (Warner Bros, Universal Pictures и т.д.). Данные только по продажам в США (Domestic Box Office).

Когда придумал концепцию визуализации, начал искать данные по дням или неделям продаж билетов в кинотеатры во всём мире. Таких данных не было. Разбивка до месяца не устраивала, поскольку фильмы обычно в прокате 4 недели. Нашёл подходящие данные, но только по продажам в США на сайте Box Office Mojo.

Сервис Box Office Mojo показывает кассовые сборы фильмов. Можно смотреть в разных разрезах и даже по дням, но только анные США. Возможно, продажи билетов во всём мире сложно собрать в принципе.

Сайт не отдаёт готовые датасеты, поэтому написал парсер и собирал данные так. На сайте данные в таблицах, надо было их спарсить и немного почистить.

В саму визуализацию включал только фильмы с > $10 млн выручки. Некассовых фильмов очень много, на визуализации их почти не видно, а точки для отображения строить приходится. В визуализации 13723 фильма с 2000 по 2020 год. И 234000 точки, на которых построена вся визуализация. Внутри каждой недели я рассчитывал дополнительные точки, чтобы недели соединялись не прямой, а плавной s-образной кривой. Пробовал 1млн и 500тыс точек, но тогда виз долго загружается.

В итоге, получились получились интересные волны денежного потока фильмов. Видны эффекты нарастания и спада волн, одна волна сменяет другую. Для того, чтобы волны накладывались друг на друга по мере старта проката фильмов, сделана сортировка точек на уровне датасета. В каждом году топ 12 фильмов помечены аннотациями.

❗️Теперь к инсайтам!

В каждом году можно видеть наиболее успешны прокатные сезоны и фильмы. Самые кассовые сезоны в США - Рождество и середина года.
Пики успешных фильмов в прокате видны сразу:
- 'Мстители: Конец игры' в 2019
- 'Черная пантера' в 2018
- 'Звёздные войны: Последний джедай' в 2017
и множество других. Выделяются франшизы 'Властелин Колец', 'Гарри Поттер', Marvel, DC Comisc, мультфильмы Pixar.

Интересно посмотреть по дистрибьютерам:
- Warner Bros. выпустил много фильмов по DC Comics: 'Джокер', 'Аквамен', 'Бэтмен', 'Отряд самоубийц'.
- Universal Pictures - много кассовых мультфильмов
- Dream Works - 'Трансформеры', 'Шрек', 'Мадагаскар'. Виден рассвет и закат этого периода. Студию продавали и переименовывали.
- New Line Cinema - 'Властелин колец' в начале века и постепенный спад сборов

Можно видеть рост кинобизнеса по годам.

Ну, и самый неприятный год 2020 показывает скатывание денежного потока в ноль из-за пандемии.

Планирую вернуться к визуализации и добавить прошлый век плюс последние 5 лет. Это мой любимый виз. Причины простые:

- 🎦 Кино . Это интересно и понятно всем
- 👫 Наша жизнь тесно связана с фильмами . Просто вспомнить когда и с кем ходили в кино тоже очень увлекательно
- Интересные математические расчёты
- 📊Отсылка к одной из самых известных визуализаций данных
- 🏄‍♀️ Волны. Они показывают взлёты и падения не только кино, но и всей истории
- 🖼 Просто красиво, и можно повесить на стену
Please open Telegram to view this post
VIEW IN TELEGRAM
18🔥2👍1
Агрегаторы IT вакансий и их сравнение

Продолжаю рассказывать о совместном с Никитой (канал 'Joni in Web') проекте анализа зарплатных вилок в IT. Начали с ежедневного сбора актуальных вакансий Getmatch и вывода данных на дашборд. Штука оказалась популярной, поэтому, продолжаем развивать.

🪄 Новое на текущем этапе:
1. Подключены данные платформы 'Хабр Карьера'.
2. Переехали с PostgreSQL на Clickhouse. Несколько изменена логика таблиц.
3. Настроен свой VPN. Никита писал у себя в канале о разработке собственного VPN 🛡
4. Настроен экспорт в Google Sheets для ежедневного обновления дашборда
5. Пересмотрен и переделан алертинг сбора данных
6. В дашборд добавлено несколько фич, он переключен на Google Sheets

У Никиты в канале можно подробно прочитать о технической реализации ETL части и алертинга. Здесь коротко напишу что сделано:

1. Парсер вакансий Хабр Карьеры отрабатывал всю прошлую неделю утром. Данные собирались и записывались в базу данных. На выходных, когда руки дошли проверить что записалось, выяснили, что DAG не совсем верно отрабатывал, и часть данных не записалась. Лучше столкнуться с такими багами 🐞 на старте, чем через месяц. Это исправили, и сейчас есть 4 дня полных данных по Хабру.
2. Переезд с PostgreSQL на Clickhouse состоялся по архитектурным причинам.
3. Экспорт в Google Sheet нужен только для Tableau Public. Паблик не поддерживает обновления по запросу из других источников.
4. Было добавлено сравнение записей в БД с записями парсера
5. В дашборде +1 новая платформа агрегации вакансий. Можно сравнивать вакансии и зарплаты на разных платформах. Добавлена сортировка по нескольким метрикам в общей таблице. Лого компаний подтягиваются с Хабра в таблицы. Переключение на Google Sheets прошло не очень гладко - послетали форматы и цвета, пришлось восстанавливать.

❗️В итоге, в публичном даше оставили 8 последних дней с двух платформ. В своём внутреннем дашборде собираем все данные.

По данным Хабр Карьеры. На Хабре только 20% вакансий с зарплатами, но собираем все. Есть вакансии Junior и Intern, их нет на Getmatch. Прикольно посмотреть что есть по джунам. По IT направлениям пришлось делать матчинг по ключевым словам - таких категорий в данных не было. Ещё в вакансиях Хабра может быть указано несколько городов, а в Getmatch - только один. Эту проблему планируем решить в следующей итерации добавлением в базу таблицы Location.

📊 С унификацией данных для разных платформ проблем действительно хватает:
1. По-разному указываются компании, напр. 'Avito' и 'Aвито'.
2. Число локаций в вакансиях может быть >1.
3. Навыки могут сильно различаться. На Хабре много того, что можно не писать в навыках, напр. 'Программирование'. В Getmatch - по делу, основные инструменты.
4. Названия вакансий на могут быть совершенно непонятными или с ошибками.
5. Лого платформ в разных форматах и разрешениях - криво подтягиваются в дашборд.
6. Не всегда понятно, зарплаты указаны Net или Gross.
7. Удалёнка может быть неявно прописана где-то в тексте вакансии. Где-то есть part time.
В общем, куча задач для LLM рисуется.

Другие инсайты ищите в дашборде по вакансиям IT. Можно, например, порадоваться за инженера по безопасности с ЗП до 2 600 000. Или посмотреть сколько вакансий публикуют по понедельникам.

На следующем этапе подключим третью платформу, поднимем dbt. По мере реализации проекта может много интересного произойти (в идеале - дойти до прогнозирования вилок ЗП по любой вакансии). Следите за постами.

📊 Дашборд на Tableau Public обновляется ежедневно и собирает последние 8 полных дней
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥274🥰3👍1
Проект VILKY. Roadmap, API, dbt и MongoDB

Прошлая неделя была неожиданной для совместного с Никитой проекта анализа зарплатных вилок IT. Дашборд попал в IT паблики. Мы получили море фидбека и предложения сотрудничества. 🔥

Пришлось на ходу менять Roadmap . Да, теперь он есть у проекта. Про Roadmap и метрики напишем позже.
У проекта появилось название 'VILKY' и лого. Мы просто нарисовали вилку 🍴 🍽.

Сегодня проекту автоматизации ровно месяц. Малыш ещё, но уже полноценный проект с роадмапом, DWH, VPN, API и визуализацией.

Основные фичи этого релиза:
1. Добавлены данные 3го агрегатора вакансий: Geekjob
2. Глубина данных дашборда увеличена до 15и дней. Можете смотреть динамику
3. Развёрнут API
4. Развернут и работает dbt. Нужен для трансформаций данных
5. Развёрнута база MongoDB. Сервис может принимать вакансии в виде текстовых документов и складывать в БД

По фичам:
1. Парсер Geekjob работает нормально, но есть вопросы к чистоте данных. В сервисе можно указывать несколько грейдов, и непонятно для какого указывать вилку. Поэтому, выбираем наименьший, то есть, если указано Junior, Middle, Senior, в дашборде такая вакансия уйдёт в категорию Junior. Есть проблемы с указанием ЗП - могут написать 500 000K, например. Приходится обрабатывать такое пока на уровне дашборда. После сбора всех платформ будет нормализация на уровне DWH. В работодателях встречается такое: 'Рекрутёр Олег' или 'Агентство Эйчар'. Это всё собираем, но в дашборд не идёт.
2. Просто посмотрите на историчность 15и дней. Немного доработали для этого экспорт в Google Sheets, чтобы таблицы были меньше.
3. API - топ фича. Читайте у Никиты в канале 'Joni in Web' как и зачем это было сделано.
4. dbt - тоже топ, большой задел на будущее. Тоже Никита развернул подключил новые данные.
5. MongoDB по API может получать вакансии в виде документов. Потом парсим, и в DWH.

Далее - самое интересное, давно в работе, но не писали про это. Надеемся, всё получится ❗️

📊 Посмотреть IT вакансии и зарплаты на дашборде
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥25👍42
Forwarded from Reveal the Data
Лучшее с Табло Паблик 2024
Собрал работы с Табло Паблик, которые запомнились мне больше всего в прошлом году. Получилось четырые категории: инфографика, карты, дашборды и технические трюки. Если знаете ещё крутые работы — кидайте в комментарии.

Отдельно хочу подсветить наших Табло гуру и джедаев: Настя Кузнецова, Саша Варламов, Лиза Горяйнова, Маша Мазюк, Аня Просветова. Вы просто огонь, очень классные работы!

Для затравки несколько картинок выше, а полная подборка с ссылками:
👉 в блоге 👈

Предыдущие: 2023 | 2022 | 2021 | 2020
#подборка
8👍1
12 работ в лонглисте премии "Information is beautiful Awards 2024"

В январе писал о премии в области визуализации данных "Information is Beautiful Awards", и как подавал 15 своих работ за прошлый год. Прошли 12 - считаю это успехом. Всего в лонглисте 876 работ.

📊 Дашборд по вилкам зарплат тоже вошел в лонглист. На момент подачи он был статичным, а позже мы автоматизировали процесс сбора данных с Никитой.

Приятно, что много работ от ребят из русскоязычного сообщества датавиза. Полный список составим совместно с сообществом, добавлю его сюда.

Есть сырой парсер, который собирает работы премии за всё время. Пока плохо работает, есть ошибки в данных. Нужно время чтобы проверить всё и сделать нормальный. После сбора всех данных, на таком датасете можно будет построить крутые датавизы.

🎆 Далее - этап шортлиста, на нём очень много работ отсеивается. Болеем за наших!

Все 12 работ в лонглисте 2024:

1. IT Jobs Dashboard
2. Global Flag Colors
3. Public Telegram Channels
4. NBA Gems
5. NBA Scorigami
6. Telegram Tech Channels
7. Glassdoor Data Analyst Jobs
8. The Tree of Life by AI
9. Cast & Crew IMDb Trends
10. Formula 1. World Constructors'
11. International Football Results
12. IMDB Top Movies
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1310🔥9
Проект VILKY. LLM, телеграм канал и дайджесты

Давно не писал про проект VILKY и анализ IT вакансий. Мы дошли до самого интересного: LLM и нормализации данных. Над этим работаем несколько месяцев, но не писали ещё.

К нам с Никитой присоединился Рома, и мы продолжаем развивать пет-проект. Рома занимается Data Quality, пишет и проводит тесты. И у него есть канал Котолитик - там подробнее про это.

🪄 Три больших новых этапа к этому моменту:
1. LLM и нормализация данных
2. Тесты качества нормализации и усложнение промптов.
3. TG канал со статистикой по вакансиям

Подключение дополнительных платформ пока было в меньшем приоритете, но забираем с HH по API для тестов.

🎆 Самая крутая фича, которая сейчас работает с данными - это комплексный анализ данных различных полей и их нормализация. Что это означает? Например, в вакансиях есть навыки, и в сервисе они складываются в отдельную таблицу БД. Навыки в вакансиях могут быть указаны как попало: "Python 3.8", "Python 2", "PYTHON", "Питон" и т.п.. В данных они должны быть в одном виде, то есть, их надо нормализовать. С этим у нас отлично справляется LLM (YandexGPT): она приводит одинаковые навыки к одному написанию по шаблонам LinkedIn и StackOverflow. Если в навыках указана ерунда - это убирается из данных. И, самое интересное, модель изучает полное описание вакансии и добавляет навыки, которые прямо или косвенно есть в тексте вакансии, но их не указали явно в категории скиллов. Мы стремились минимизировать число навыков, но LLM нагенерировала новые. Поэтому, сделаем справочник и по нему нормализуем.

Также мы нормализовали поля грейда и вилок зарплат. По описанию вакансии LLM может определить грейд (senior, middle и т.д.). Зарплатные вилки тоже указываются по-разному, бывают ошибки. Поэтому, нормализуем данные по ЗП до трёх полей: min ЗП, max ЗП, валюта.

В процессе и планах нормализации: локации, net или gross в указании зарплат, плюшки каждой вакансии и др..

Про техническую реализацию нормализации читайте в канале у Никиты, а Рома написал про создание, запуск тестов проверки корректности работы LLM и про картинки для постов.

Такую красоту данных нет смысла прятать, поэтому сделали TG канал 'VILKY', куда ежедневно автоматически публикуются прикольные рубрики с топами вакансий, компаний и всему что придумаем. Дизайн картинок и весь концепт придумывали и делали вместе. Я реализовал на Tableau Public. Кроме этого, ежедневно публикуются дайджесты по вчерашним данным и недельные дайджесты.

Ежедневный дайджест - набор из 5и визуализаций:
1️⃣ Метрики по всем подключенным платформам вакансий за вчера
2️⃣ Средняя ЗП и число вакансий по направлениям IT
3️⃣ Топ навыков в вакансиях
4️⃣ Топ новых вакансий по направлениям IT
5️⃣ Топ закрытых вакансий по направлениям IT

Дайджест сделали в виде слайдов. У Тиньков инвестиций примерно так же - понравилась эта концепция. Были другие варианты, но остановились на этом.

🥁 Сам телеграм канал 'VILKY. Вилки зарплат в IT' 🥁

Каждый день автоматически скидывается статистика вакансий IT. Добавим постепенно месячный и дайджесты по всем IT направлениям. Можно просто заходить и смотреть статистику.

Фидбек очень важен, будем прислушиваться и формировать роадмап. Комментарии и эмоджи открыты - можно писать в комменты что добавить, улучшить или убрать.

Все сообщения в канале автоматические, но, пока обкатываем, сделали себе в тестовый канал те же публикации, но на час раньше. Баги возможны, будем смотреть и фиксить.

📊 Детально можно смотреть вакансии в дашборде 📊

Его оптимизировали немного. В дашборд добавили статистику просмотров за последние 7 дней. Автоматически забирается по API Tableau Public. В дашборде сейчас 3 нормализованных поля, про которые писал выше. Поэтому, можно считать его AI powered.

Итого, мы построили систему, которая:
1️⃣. Автоматически собирает данные
2️⃣. Автоматически записывает всё в базу данных
3️⃣. Автоматически нормализует данные
4️⃣. Автоматически тестирует данные
5️⃣. Автоматически генерирует визуализации
6️⃣. Автоматически генерирует сообщения
7️⃣. Автоматически отправляет сообщения в канал
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍64
Visual Capitalist и Voronoi App как среда сторителлинга

Сегодня пост о большом известном СМИ графиков и диаграмм. Visual Capitalist позиционирует себя как СМИ, создающее и продвигающее Data-driven visual content. Компания находится в Ванкувере. В X (твиттере) сейчас больше 300k подписчиков. Сайт работает давно, там постоянно выходят статьи про визуализации и данные. Используют как свои визуализации, так и из сети.

Про мои работы они делали 2 статьи:
- Visualizing the Depth of the Great Lakes
- Animated Map: The History of U.S. Counties
Это статьи про Великие озера и таймлайн создания США. Текст их, оригинальный. Публикации привели на мой сайт несколько тысяч юзеров.

Чем же хорош Visual Capitalist как СМИ?

1️⃣. Они очень давно двигают подход визуализаций данных в СМИ.
2️⃣. Визуализации рассчитаны на широкую публику: простые и понятные.
3️⃣. Визуализации на небольшом объёме данных, буквально, несколько строк.
4️⃣. Чуть больше года назад они запустили Voronoi App. Более подробнее будет ниже.

Почти за 15 лет ребята собрали огромное сообщество, интересующихся визуализацией данных и инфографикой. Их аккаунты есть почти во всех соцсетях, инфографику используют "The Wall Street Journal", "The New York Times" и множество других известных изданий.

Мне Visual Capitalist нравится тем, что использует простые и понятные широкому кругу визуализации. Их инфографика далеко не всегда академична, какие-то работы вызывают осуждение т.н. "дата экспертов". Но целевая аудитория - точно не академики.

Теперь про проект Voronoi. Думаю что немногие про него знают, поэтому и сделал этот пост. Это приложение, в котором публикуются и обсуждаются визуализации. Там можно создавать аккаунты и публиковать свои визы. Но работы не интерактивны в самом приложении - это картинки, которые лучше отнести к инфографике.

Каждый пост содержит:
1️⃣. Сам виз
2️⃣. Описание визуализации
3️⃣. Датасет
4️⃣. Ссылки на источники данных

Это очень удобно, когда вся эта инфа, включая авторов, есть на экране телефона.

В Voronoi App есть аккаунты СМИ и дата-агентств, специализирующихся на инфографике и дата-журналистике. Это Statista, Econovis и др. А ещё можете найти аккаунты известных специалистов в области инфографики и дата-журналистики.

Приложение нишевое (в сторах 100+k инсталлов, зимой было 50k), но зато там нет скама, как в X, и только по делу общаются в комментариях. Выбирают виз недели, есть рубрика "Выбор редакции". То есть, это огромный архив инфографики с описанием и комментариями, где можно смотреть чужие работы и публиковать свои. Публикации могут набирать десятки тысяч просмотров.

Можно присоединиться к комьюнити и стать data-driven storyteller, публикуя свои работы. Получите и просмотры и фидбек. На мой взгляд, это хорошая возможность и показать свои работы и поучиться у других.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥124🥰3
2025/07/14 12:52:49
Back to Top
HTML Embed Code: