Forwarded from Reveal the Data
Лучшее с Табло Паблик 2024
Собрал работы с Табло Паблик, которые запомнились мне больше всего в прошлом году. Получилось четырые категории: инфографика, карты, дашборды и технические трюки. Если знаете ещё крутые работы — кидайте в комментарии.
Отдельно хочу подсветить наших Табло гуру и джедаев: Настя Кузнецова, Саша Варламов, Лиза Горяйнова, Маша Мазюк, Аня Просветова. Вы просто огонь, очень классные работы!
Для затравки несколько картинок выше, а полная подборка с ссылками:
👉 в блоге 👈
Предыдущие: 2023 | 2022 | 2021 | 2020
#подборка
Собрал работы с Табло Паблик, которые запомнились мне больше всего в прошлом году. Получилось четырые категории: инфографика, карты, дашборды и технические трюки. Если знаете ещё крутые работы — кидайте в комментарии.
Отдельно хочу подсветить наших Табло гуру и джедаев: Настя Кузнецова, Саша Варламов, Лиза Горяйнова, Маша Мазюк, Аня Просветова. Вы просто огонь, очень классные работы!
Для затравки несколько картинок выше, а полная подборка с ссылками:
👉 в блоге 👈
Предыдущие: 2023 | 2022 | 2021 | 2020
#подборка
❤8👍1
12 работ в лонглисте премии "Information is beautiful Awards 2024"
В январе писал о премии в области визуализации данных "Information is Beautiful Awards", и как подавал 15 своих работ за прошлый год. Прошли 12 - считаю это успехом. Всего в лонглисте 876 работ.
📊 Дашборд по вилкам зарплат тоже вошел в лонглист. На момент подачи он был статичным, а позже мы автоматизировали процесс сбора данных с Никитой.
Приятно, что много работ от ребят из русскоязычного сообщества датавиза. Полный список составим совместно с сообществом, добавлю его сюда.
Есть сырой парсер, который собирает работы премии за всё время. Пока плохо работает, есть ошибки в данных. Нужно время чтобы проверить всё и сделать нормальный. После сбора всех данных, на таком датасете можно будет построить крутые датавизы.
🎆 Далее - этап шортлиста, на нём очень много работ отсеивается. Болеем за наших!
Все 12 работ в лонглисте 2024:
1. IT Jobs Dashboard
2. Global Flag Colors
3. Public Telegram Channels
4. NBA Gems
5. NBA Scorigami
6. Telegram Tech Channels
7. Glassdoor Data Analyst Jobs
8. The Tree of Life by AI
9. Cast & Crew IMDb Trends
10. Formula 1. World Constructors'
11. International Football Results
12. IMDB Top Movies
В январе писал о премии в области визуализации данных "Information is Beautiful Awards", и как подавал 15 своих работ за прошлый год. Прошли 12 - считаю это успехом. Всего в лонглисте 876 работ.
Приятно, что много работ от ребят из русскоязычного сообщества датавиза. Полный список составим совместно с сообществом, добавлю его сюда.
Есть сырой парсер, который собирает работы премии за всё время. Пока плохо работает, есть ошибки в данных. Нужно время чтобы проверить всё и сделать нормальный. После сбора всех данных, на таком датасете можно будет построить крутые датавизы.
Все 12 работ в лонглисте 2024:
1. IT Jobs Dashboard
2. Global Flag Colors
3. Public Telegram Channels
4. NBA Gems
5. NBA Scorigami
6. Telegram Tech Channels
7. Glassdoor Data Analyst Jobs
8. The Tree of Life by AI
9. Cast & Crew IMDb Trends
10. Formula 1. World Constructors'
11. International Football Results
12. IMDB Top Movies
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13❤10🔥9
Проект VILKY. LLM, телеграм канал и дайджесты
Давно не писал про проект VILKY и анализ IT вакансий. Мы дошли до самого интересного: LLM и нормализации данных. Над этим работаем несколько месяцев, но не писали ещё.
К нам с Никитой присоединился Рома, и мы продолжаем развивать пет-проект. Рома занимается Data Quality, пишет и проводит тесты. И у него есть канал Котолитик - там подробнее про это.
🪄 Три больших новых этапа к этому моменту:
1. LLM и нормализация данных
2. Тесты качества нормализации и усложнение промптов.
3. TG канал со статистикой по вакансиям
Подключение дополнительных платформ пока было в меньшем приоритете, но забираем с HH по API для тестов.
🎆 Самая крутая фича, которая сейчас работает с данными - это комплексный анализ данных различных полей и их нормализация. Что это означает? Например, в вакансиях есть навыки, и в сервисе они складываются в отдельную таблицу БД. Навыки в вакансиях могут быть указаны как попало: "Python 3.8", "Python 2", "PYTHON", "Питон" и т.п.. В данных они должны быть в одном виде, то есть, их надо нормализовать. С этим у нас отлично справляется LLM (YandexGPT): она приводит одинаковые навыки к одному написанию по шаблонам LinkedIn и StackOverflow. Если в навыках указана ерунда - это убирается из данных. И, самое интересное, модель изучает полное описание вакансии и добавляет навыки, которые прямо или косвенно есть в тексте вакансии, но их не указали явно в категории скиллов. Мы стремились минимизировать число навыков, но LLM нагенерировала новые. Поэтому, сделаем справочник и по нему нормализуем.
Также мы нормализовали поля грейда и вилок зарплат. По описанию вакансии LLM может определить грейд (senior, middle и т.д.). Зарплатные вилки тоже указываются по-разному, бывают ошибки. Поэтому, нормализуем данные по ЗП до трёх полей: min ЗП, max ЗП, валюта.
В процессе и планах нормализации: локации, net или gross в указании зарплат, плюшки каждой вакансии и др..
Про техническую реализацию нормализации читайте в канале у Никиты, а Рома написал про создание, запуск тестов проверки корректности работы LLM и про картинки для постов.
Такую красоту данных нет смысла прятать, поэтому сделали TG канал 'VILKY', куда ежедневно автоматически публикуются прикольные рубрики с топами вакансий, компаний и всему что придумаем. Дизайн картинок и весь концепт придумывали и делали вместе. Я реализовал на Tableau Public. Кроме этого, ежедневно публикуются дайджесты по вчерашним данным и недельные дайджесты.
Ежедневный дайджест - набор из 5и визуализаций:
1️⃣ Метрики по всем подключенным платформам вакансий за вчера
2️⃣ Средняя ЗП и число вакансий по направлениям IT
3️⃣ Топ навыков в вакансиях
4️⃣ Топ новых вакансий по направлениям IT
5️⃣ Топ закрытых вакансий по направлениям IT
Дайджест сделали в виде слайдов. У Тиньков инвестиций примерно так же - понравилась эта концепция. Были другие варианты, но остановились на этом.
🥁 Сам телеграм канал 'VILKY. Вилки зарплат в IT' 🥁
Каждый день автоматически скидывается статистика вакансий IT. Добавим постепенно месячный и дайджесты по всем IT направлениям. Можно просто заходить и смотреть статистику.
Фидбек очень важен, будем прислушиваться и формировать роадмап. Комментарии и эмоджи открыты - можно писать в комменты что добавить, улучшить или убрать.
Все сообщения в канале автоматические, но, пока обкатываем, сделали себе в тестовый канал те же публикации, но на час раньше. Баги возможны, будем смотреть и фиксить.
📊 Детально можно смотреть вакансии в дашборде 📊
Его оптимизировали немного. В дашборд добавили статистику просмотров за последние 7 дней. Автоматически забирается по API Tableau Public. В дашборде сейчас 3 нормализованных поля, про которые писал выше. Поэтому, можно считать его AI powered.
Итого, мы построили систему, которая:
1️⃣ . Автоматически собирает данные
2️⃣ . Автоматически записывает всё в базу данных
3️⃣ . Автоматически нормализует данные
4️⃣ . Автоматически тестирует данные
5️⃣ . Автоматически генерирует визуализации
6️⃣ . Автоматически генерирует сообщения
7️⃣ . Автоматически отправляет сообщения в канал
Давно не писал про проект VILKY и анализ IT вакансий. Мы дошли до самого интересного: LLM и нормализации данных. Над этим работаем несколько месяцев, но не писали ещё.
К нам с Никитой присоединился Рома, и мы продолжаем развивать пет-проект. Рома занимается Data Quality, пишет и проводит тесты. И у него есть канал Котолитик - там подробнее про это.
🪄 Три больших новых этапа к этому моменту:
1. LLM и нормализация данных
2. Тесты качества нормализации и усложнение промптов.
3. TG канал со статистикой по вакансиям
Подключение дополнительных платформ пока было в меньшем приоритете, но забираем с HH по API для тестов.
Также мы нормализовали поля грейда и вилок зарплат. По описанию вакансии LLM может определить грейд (senior, middle и т.д.). Зарплатные вилки тоже указываются по-разному, бывают ошибки. Поэтому, нормализуем данные по ЗП до трёх полей: min ЗП, max ЗП, валюта.
В процессе и планах нормализации: локации, net или gross в указании зарплат, плюшки каждой вакансии и др..
Про техническую реализацию нормализации читайте в канале у Никиты, а Рома написал про создание, запуск тестов проверки корректности работы LLM и про картинки для постов.
Такую красоту данных нет смысла прятать, поэтому сделали TG канал 'VILKY', куда ежедневно автоматически публикуются прикольные рубрики с топами вакансий, компаний и всему что придумаем. Дизайн картинок и весь концепт придумывали и делали вместе. Я реализовал на Tableau Public. Кроме этого, ежедневно публикуются дайджесты по вчерашним данным и недельные дайджесты.
Ежедневный дайджест - набор из 5и визуализаций:
Дайджест сделали в виде слайдов. У Тиньков инвестиций примерно так же - понравилась эта концепция. Были другие варианты, но остановились на этом.
🥁 Сам телеграм канал 'VILKY. Вилки зарплат в IT' 🥁
Каждый день автоматически скидывается статистика вакансий IT. Добавим постепенно месячный и дайджесты по всем IT направлениям. Можно просто заходить и смотреть статистику.
Фидбек очень важен, будем прислушиваться и формировать роадмап. Комментарии и эмоджи открыты - можно писать в комменты что добавить, улучшить или убрать.
Все сообщения в канале автоматические, но, пока обкатываем, сделали себе в тестовый канал те же публикации, но на час раньше. Баги возможны, будем смотреть и фиксить.
Его оптимизировали немного. В дашборд добавили статистику просмотров за последние 7 дней. Автоматически забирается по API Tableau Public. В дашборде сейчас 3 нормализованных поля, про которые писал выше. Поэтому, можно считать его AI powered.
Итого, мы построили систему, которая:
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍6❤4
Visual Capitalist и Voronoi App как среда сторителлинга
Сегодня пост о большом известном СМИ графиков и диаграмм. Visual Capitalist позиционирует себя как СМИ, создающее и продвигающее Data-driven visual content. Компания находится в Ванкувере. В X (твиттере) сейчас больше 300k подписчиков. Сайт работает давно, там постоянно выходят статьи про визуализации и данные. Используют как свои визуализации, так и из сети.
Про мои работы они делали 2 статьи:
- Visualizing the Depth of the Great Lakes
- Animated Map: The History of U.S. Counties
Это статьи про Великие озера и таймлайн создания США. Текст их, оригинальный. Публикации привели на мой сайт несколько тысяч юзеров.
Чем же хорош Visual Capitalist как СМИ?
1️⃣ . Они очень давно двигают подход визуализаций данных в СМИ.
2️⃣ . Визуализации рассчитаны на широкую публику: простые и понятные.
3️⃣ . Визуализации на небольшом объёме данных, буквально, несколько строк.
4️⃣ . Чуть больше года назад они запустили Voronoi App. Более подробнее будет ниже.
Почти за 15 лет ребята собрали огромное сообщество, интересующихся визуализацией данных и инфографикой. Их аккаунты есть почти во всех соцсетях, инфографику используют "The Wall Street Journal", "The New York Times" и множество других известных изданий.
Мне Visual Capitalist нравится тем, что использует простые и понятные широкому кругу визуализации. Их инфографика далеко не всегда академична, какие-то работы вызывают осуждение т.н. "дата экспертов". Но целевая аудитория - точно не академики.
Теперь про проект Voronoi. Думаю что немногие про него знают, поэтому и сделал этот пост. Это приложение, в котором публикуются и обсуждаются визуализации. Там можно создавать аккаунты и публиковать свои визы. Но работы не интерактивны в самом приложении - это картинки, которые лучше отнести к инфографике.
Каждый пост содержит:
1️⃣ . Сам виз
2️⃣ . Описание визуализации
3️⃣ . Датасет
4️⃣ . Ссылки на источники данных
Это очень удобно, когда вся эта инфа, включая авторов, есть на экране телефона.
В Voronoi App есть аккаунты СМИ и дата-агентств, специализирующихся на инфографике и дата-журналистике. Это Statista, Econovis и др. А ещё можете найти аккаунты известных специалистов в области инфографики и дата-журналистики.
Приложение нишевое (в сторах 100+k инсталлов, зимой было 50k), но зато там нет скама, как в X, и только по делу общаются в комментариях. Выбирают виз недели, есть рубрика "Выбор редакции". То есть, это огромный архив инфографики с описанием и комментариями, где можно смотреть чужие работы и публиковать свои. Публикации могут набирать десятки тысяч просмотров.
Можно присоединиться к комьюнити и стать data-driven storyteller, публикуя свои работы. Получите и просмотры и фидбек. На мой взгляд, это хорошая возможность и показать свои работы и поучиться у других.
Сегодня пост о большом известном СМИ графиков и диаграмм. Visual Capitalist позиционирует себя как СМИ, создающее и продвигающее Data-driven visual content. Компания находится в Ванкувере. В X (твиттере) сейчас больше 300k подписчиков. Сайт работает давно, там постоянно выходят статьи про визуализации и данные. Используют как свои визуализации, так и из сети.
Про мои работы они делали 2 статьи:
- Visualizing the Depth of the Great Lakes
- Animated Map: The History of U.S. Counties
Это статьи про Великие озера и таймлайн создания США. Текст их, оригинальный. Публикации привели на мой сайт несколько тысяч юзеров.
Чем же хорош Visual Capitalist как СМИ?
Почти за 15 лет ребята собрали огромное сообщество, интересующихся визуализацией данных и инфографикой. Их аккаунты есть почти во всех соцсетях, инфографику используют "The Wall Street Journal", "The New York Times" и множество других известных изданий.
Мне Visual Capitalist нравится тем, что использует простые и понятные широкому кругу визуализации. Их инфографика далеко не всегда академична, какие-то работы вызывают осуждение т.н. "дата экспертов". Но целевая аудитория - точно не академики.
Теперь про проект Voronoi. Думаю что немногие про него знают, поэтому и сделал этот пост. Это приложение, в котором публикуются и обсуждаются визуализации. Там можно создавать аккаунты и публиковать свои визы. Но работы не интерактивны в самом приложении - это картинки, которые лучше отнести к инфографике.
Каждый пост содержит:
Это очень удобно, когда вся эта инфа, включая авторов, есть на экране телефона.
В Voronoi App есть аккаунты СМИ и дата-агентств, специализирующихся на инфографике и дата-журналистике. Это Statista, Econovis и др. А ещё можете найти аккаунты известных специалистов в области инфографики и дата-журналистики.
Приложение нишевое (в сторах 100+k инсталлов, зимой было 50k), но зато там нет скама, как в X, и только по делу общаются в комментариях. Выбирают виз недели, есть рубрика "Выбор редакции". То есть, это огромный архив инфографики с описанием и комментариями, где можно смотреть чужие работы и публиковать свои. Публикации могут набирать десятки тысяч просмотров.
Можно присоединиться к комьюнити и стать data-driven storyteller, публикуя свои работы. Получите и просмотры и фидбек. На мой взгляд, это хорошая возможность и показать свои работы и поучиться у других.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12❤4🥰3
Проекты, продукты
и продуктовый подход в пет-проекте
Сегодня расскажу как мы подходим к планированию и задачам в нашем пет-проекте анализа зарплатных вилок в IT. Команда: Саша, Рома, Никита.
Мы написали статью на vc.ru, где рассказали о процессе работы над проектом. Отдельно подсветили сколько стоят облачные мощности и LLM модели. Сам проект VILKY начинался с идеи актуального открытого анализа зарплат в IT. Есть дашборд📊 с зарплатами и канал TG 🛫 со статистикой и отчётами.
В канале @vilky_it сейчас 143 человека. Запустили дайджесты по IT направлениям, начали публиковать исследования.
В посте затрону тему продуктов и проектов, расскажу как планируем и разрабатываем.
Любой проект всегда имеет сроки, фиксированный объём работ и ресурсы для его реализации. Проект может перерасти в продукт либо просто завершиться. Продукт же ориентируется на создание ценности для конечного пользователя, которая достигается за счёт непрерывного улучшения.
В нашем случае, на момент старта проекта был готов дашборд и скрипты парсинга. В проекте нужно было автоматизировать сбор данных, сделать проверки, алертинг и допилить сам дашборд. На выходе видели дашборд с ежедневным автообновлением и одним источником данных. Мы взяли на это 4 недели.
MVP был готов через 3 недели, и проект трансформировался в продукт. Продукт - это инструмент анализа "Дашборд VILKY". Продукт мы описали метриками. Главная метрика - число просмотров дашборда, её вывели в сам даш. Есть ещё метрики быстродействия, качества и количества данных, а также финансовые. Получилось небольшое дерево метрик, за которыми следим.
Про продуктовый подход много всего написано, отдельно про это не буду. Смысл в том, что выбираем метрики и растим их, непрерывно улучшая продукт.
Следующим проектом, переросшим в продукт, стал телеграм канал "Vilky_it". Он вырос из служебного канала, куда скидывали статистику по вакансиям. Этот продукт также имеет своё дерево метрик. Вот здесь с ценностью для пользователя пока не до конца ясно. Кажется, что ценность - это актуальная статистика по рынку вакансий в разных разрезах. Но может, и трансформируется во что-то другое.
Итого, внутри одного пет-проекта VILKY сейчас существуют несколько проектов и продуктов.
Все планы делаем на одной доске Miro💨 , где ведём диаграмму Ганта с задачами. Кусок доски - на заглавной картинке. Это помогает планировать, увидеть прогресс, понять кто и что делает. Также интересно посмотреть историю задач. Времени не так много - это всё-таки пет-проект, поэтому активно используем нейронки, и жёстких сроков не ставим. Выглядит лайтово, но движемся вперёд небольшими шагами.
На данный момент у нас в базе пара миллионов (!) вакансий (не только айтишных) с описаниями и параметрами за приличный срок. И здесь открывается колоссальный объём работ для нейросетей 🧬, но облачными нейронками всё это обрабатывать дорого, поэтому, придумываем как их разбирать подешевле.
Кроме этого, на таком объёме данных можно увидеть много интересного. Под исследования ресурсов пока маловато - нужно просто время. В канале начали вести рубрику "Инсайды", где рассказываем про какие-то неочевидные и нетривиальные вещи, делимся результатами исследований. В первом посте на эту тему рассказывали про мексиканский банк 'Plata Card' - это стартап который через 3 года существования стоит $1,5 млрд.. Корни российские, банк основан бывшими менеджерами Тинькофф, русскоязычная команда, есть открытые вакансии на удалёнку или в Мексику.
Исследованиями ходим проверять гипотезы на данных рынка вакансий. В сети очень часто встречаются "экспертные мнения" о рынке труда, где нет никаких данных - просто эксперт так видит. Мы хотим видеть доказательства. Доказательства без данных невозможны, поэтому в исследованиях будем прикладывать графики и диаграммы, ссылки на данные. Это обеспечит прозрачность анализа.
📊 Данные по зарплатам в вакансиях за последние 7 дней - в дашборде.
🛫 Канал со статистикой и отчётами @vilky_it
и продуктовый подход в пет-проекте
Сегодня расскажу как мы подходим к планированию и задачам в нашем пет-проекте анализа зарплатных вилок в IT. Команда: Саша, Рома, Никита.
Мы написали статью на vc.ru, где рассказали о процессе работы над проектом. Отдельно подсветили сколько стоят облачные мощности и LLM модели. Сам проект VILKY начинался с идеи актуального открытого анализа зарплат в IT. Есть дашборд
В канале @vilky_it сейчас 143 человека. Запустили дайджесты по IT направлениям, начали публиковать исследования.
В посте затрону тему продуктов и проектов, расскажу как планируем и разрабатываем.
Любой проект всегда имеет сроки, фиксированный объём работ и ресурсы для его реализации. Проект может перерасти в продукт либо просто завершиться. Продукт же ориентируется на создание ценности для конечного пользователя, которая достигается за счёт непрерывного улучшения.
В нашем случае, на момент старта проекта был готов дашборд и скрипты парсинга. В проекте нужно было автоматизировать сбор данных, сделать проверки, алертинг и допилить сам дашборд. На выходе видели дашборд с ежедневным автообновлением и одним источником данных. Мы взяли на это 4 недели.
MVP был готов через 3 недели, и проект трансформировался в продукт. Продукт - это инструмент анализа "Дашборд VILKY". Продукт мы описали метриками. Главная метрика - число просмотров дашборда, её вывели в сам даш. Есть ещё метрики быстродействия, качества и количества данных, а также финансовые. Получилось небольшое дерево метрик, за которыми следим.
Про продуктовый подход много всего написано, отдельно про это не буду. Смысл в том, что выбираем метрики и растим их, непрерывно улучшая продукт.
Следующим проектом, переросшим в продукт, стал телеграм канал "Vilky_it". Он вырос из служебного канала, куда скидывали статистику по вакансиям. Этот продукт также имеет своё дерево метрик. Вот здесь с ценностью для пользователя пока не до конца ясно. Кажется, что ценность - это актуальная статистика по рынку вакансий в разных разрезах. Но может, и трансформируется во что-то другое.
Итого, внутри одного пет-проекта VILKY сейчас существуют несколько проектов и продуктов.
Все планы делаем на одной доске Miro
На данный момент у нас в базе пара миллионов (!) вакансий (не только айтишных) с описаниями и параметрами за приличный срок. И здесь открывается колоссальный объём работ для нейросетей 🧬, но облачными нейронками всё это обрабатывать дорого, поэтому, придумываем как их разбирать подешевле.
Кроме этого, на таком объёме данных можно увидеть много интересного. Под исследования ресурсов пока маловато - нужно просто время. В канале начали вести рубрику "Инсайды", где рассказываем про какие-то неочевидные и нетривиальные вещи, делимся результатами исследований. В первом посте на эту тему рассказывали про мексиканский банк 'Plata Card' - это стартап который через 3 года существования стоит $1,5 млрд.. Корни российские, банк основан бывшими менеджерами Тинькофф, русскоязычная команда, есть открытые вакансии на удалёнку или в Мексику.
Исследованиями ходим проверять гипотезы на данных рынка вакансий. В сети очень часто встречаются "экспертные мнения" о рынке труда, где нет никаких данных - просто эксперт так видит. Мы хотим видеть доказательства. Доказательства без данных невозможны, поэтому в исследованиях будем прикладывать графики и диаграммы, ссылки на данные. Это обеспечит прозрачность анализа.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14❤1
Истории из геймдева и недооценённые возможности
В геймдеве работал 3,5 года - одна из ярких полос в трудовой биографии. Сегодня расскажу свои истории из геймдева, и о том, как сильно недооценил проекты. Примечательны они тем, что 2 продукта, про которые пойдет речь, сейчас очень известны в мире, а на момент этих историй про них почти никто не знал. Попробуйте догадаться о чём идёт речь. Названия проектов буду закрывать спойлерами.
История 1. Год 2021, май.
Мне в LinkedIn пришло письмо о позиции дата-аналитика на одном гейминг-проекте. Писал рекрутёр из Ирландии, часть команды была в Питере, а студия бельгийская. В письме он рассказывал о разработке RPG проекта. Название игры я знал - её сделали ещё в 90х. Права на следующую часть купила другая студия, и под проект искали людей. Сама игра из 90х уже была классикой, её выпустила BioWare. Чтобы получился классный продукт, надо было очень постараться. Компания и команда были другие. Я скептически отнёсся к тому, что получится что-то адекватное, тем более, с замахом на классику. В общем, отказался. Но мне и так было в кайф - работал в Playrix, а это один из топов игровой индустрии.
Отказался и забыл. Через 2 года игру выпустили, и она разорвала все возможные рейтинги, став самой продаваемой игрой в Steam в день выхода. Узнал в новостях - писали почти все про успех игры.
Проект называется"Baldur's Gate 3", а студия - "Larian Studios".
История 2. Год 2019, ранняя весна.
Игровые компании тратят колоссальные деньги на рекламу. Самые большие партнеры - Facebook и Google. Однажды был на встрече по маркетингу, где рассказывали про китайские соцсети и рекламу в них. Названия сетей мне ни о чём не говорило, но маркетинг хотел часть денег отгрузить именно им, и почему-то одна сеть считалась перспективной. Посмотрел потом на контент соцсети - там была совершеннейшая дичь на китайском языке: какое-то видео, и непонятно кому вообще это надо. Подумал ещё, что деньги мы потеряем.
Через год про эту сеть знали примерно все.
ЭтоTik Tok, который через 2 года стал самым популярным ресурсом в сети, обогнав Facebook и Google.
Нас окружают возможности, а мы даже не придаём этому значения. Может выстрелить совершенно непонятный, на первый взгляд, проект.
В геймдеве работал 3,5 года - одна из ярких полос в трудовой биографии. Сегодня расскажу свои истории из геймдева, и о том, как сильно недооценил проекты. Примечательны они тем, что 2 продукта, про которые пойдет речь, сейчас очень известны в мире, а на момент этих историй про них почти никто не знал. Попробуйте догадаться о чём идёт речь. Названия проектов буду закрывать спойлерами.
История 1. Год 2021, май.
Мне в LinkedIn пришло письмо о позиции дата-аналитика на одном гейминг-проекте. Писал рекрутёр из Ирландии, часть команды была в Питере, а студия бельгийская. В письме он рассказывал о разработке RPG проекта. Название игры я знал - её сделали ещё в 90х. Права на следующую часть купила другая студия, и под проект искали людей. Сама игра из 90х уже была классикой, её выпустила BioWare. Чтобы получился классный продукт, надо было очень постараться. Компания и команда были другие. Я скептически отнёсся к тому, что получится что-то адекватное, тем более, с замахом на классику. В общем, отказался. Но мне и так было в кайф - работал в Playrix, а это один из топов игровой индустрии.
Отказался и забыл. Через 2 года игру выпустили, и она разорвала все возможные рейтинги, став самой продаваемой игрой в Steam в день выхода. Узнал в новостях - писали почти все про успех игры.
Проект называется
История 2. Год 2019, ранняя весна.
Игровые компании тратят колоссальные деньги на рекламу. Самые большие партнеры - Facebook и Google. Однажды был на встрече по маркетингу, где рассказывали про китайские соцсети и рекламу в них. Названия сетей мне ни о чём не говорило, но маркетинг хотел часть денег отгрузить именно им, и почему-то одна сеть считалась перспективной. Посмотрел потом на контент соцсети - там была совершеннейшая дичь на китайском языке: какое-то видео, и непонятно кому вообще это надо. Подумал ещё, что деньги мы потеряем.
Через год про эту сеть знали примерно все.
Это
Нас окружают возможности, а мы даже не придаём этому значения. Может выстрелить совершенно непонятный, на первый взгляд, проект.
🔥13❤9👍2🤔2
Слив личного расписания Трампа и визуализация плюс нейросети
Ещё в первое президентство Дональда Трампа в сеть слили приватные данные о рабочем расписании президента. Я визуализировал это и сделал рабочий график Трампа по типам активности. Визуализировал сливы, выходит.
Был очередной MakeoverMonday (https://makeovermonday.co.uk/ - там много ссылок на датасеты) - челлендж по построению визуализаций. Взяли данные слива, построили датасет и предложили по ним датавиз челлендж. Данные интересные - надо было пробовать.
📃 Сама статья по сливам данных на Axios.
В статье писали что инсайдер из Белого Дома раскрыл личное расписание Трампа. Слив в виде документа ещё остался в сети.
Там данные с ноября 2018 по февраль 2019г. А вот датасет с сайта data.world почему-то удалили.
Слив личного расписания Трампа в виде pdf (95 страниц) прикладываю в комментарии. Для экспериментов.
📊 Визуализацию можно посмотреть здесь.
В датавизе - диаграмма Ганта, стандартный тип диаграммы для расписаний. Но диаграмма нестандартная, сделана на полигонах.
Итак, что же делал Трамп в первое президентство.
Первая встреча в рабочий день обычно 11:30 на полчаса. Это встреча с главой администрации Белого Дома или брифинг. Очень много звонков и встреч. Встречи названиями и локациями, допускали прессу или нет. Обед обычно в 12:30, можно поискать в pdf по слову "Lunch".
60% времени - Executive Time. В это времяиграет в гольф что-то делает в овальном кабинете или резиденции. В Рождественские праздники Трамп не работал.
Сама визуализация - пример того как pdf на 95 листов умещается на одной диаграмме.
Скормите pdf нейросетям - пусть поищут инсайты. Я пробовал - классно получается. Можно позадавать вопросы сколько времени из какого места работал, кому давал интервью, где зажигал рождественскую елку и т.д..
Результаты прикладывать не буду - экспериментируйте сами. Но удивительно, конечно, что анализ документов дошёл до такого уровня.
Ждём новых сливов!
Ещё в первое президентство Дональда Трампа в сеть слили приватные данные о рабочем расписании президента. Я визуализировал это и сделал рабочий график Трампа по типам активности. Визуализировал сливы, выходит.
Был очередной MakeoverMonday (https://makeovermonday.co.uk/ - там много ссылок на датасеты) - челлендж по построению визуализаций. Взяли данные слива, построили датасет и предложили по ним датавиз челлендж. Данные интересные - надо было пробовать.
📃 Сама статья по сливам данных на Axios.
В статье писали что инсайдер из Белого Дома раскрыл личное расписание Трампа. Слив в виде документа ещё остался в сети.
Там данные с ноября 2018 по февраль 2019г. А вот датасет с сайта data.world почему-то удалили.
Слив личного расписания Трампа в виде pdf (95 страниц) прикладываю в комментарии. Для экспериментов.
В датавизе - диаграмма Ганта, стандартный тип диаграммы для расписаний. Но диаграмма нестандартная, сделана на полигонах.
Итак, что же делал Трамп в первое президентство.
Первая встреча в рабочий день обычно 11:30 на полчаса. Это встреча с главой администрации Белого Дома или брифинг. Очень много звонков и встреч. Встречи названиями и локациями, допускали прессу или нет. Обед обычно в 12:30, можно поискать в pdf по слову "Lunch".
60% времени - Executive Time. В это время
Сама визуализация - пример того как pdf на 95 листов умещается на одной диаграмме.
Скормите pdf нейросетям - пусть поищут инсайты. Я пробовал - классно получается. Можно позадавать вопросы сколько времени из какого места работал, кому давал интервью, где зажигал рождественскую елку и т.д..
Результаты прикладывать не буду - экспериментируйте сами. Но удивительно, конечно, что анализ документов дошёл до такого уровня.
Ждём новых сливов!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9😱3🔥2
2 300 000 вакансий Finder.work и геоанализ данных
Finder.work, а раньше - Finder.vc - сервис поиска работы и сотрудников. Задумывался как сервис размещения вакансий с удалёнкой, но сейчас там не только удалёнка. Говорят что все вакансии проходят модерацию, и как-будто мусора не должно быть. У сервиса есть свои блоги о работе и вакансиях на vc.ru, на самом сайте Finder и каналы в Телеграм, самый большой на 300 000 подписчиков. То есть, сервис довольно популярен. Число активных айтишных вакансий более 8000, это примерно 3% всех активных.
Всего 36 отраслей. Топ 3 отрасли:
- Розничная торговля (14% вакансий
- Производство (13% вакансий)
- Продажи (10% вакансий)
На сайте более 2 300 000 вакансий с 2020 года, и они уже есть в базе данных нашего пет-проекта VILKY. Собрали вообще все вакансии с описаниями. В проекте VILKY исследуем только IT вакансии, там сделаем пост по IT.
Из 2х млн вакансий можно вытащить много интересного. Сегодня расскажу про Spatial анализ.
Сервис Finder отдаёт широту и долготу для ряда вакансий, а также адреса, регионы и страны. Будем выбирать города и смотреть где плотность вакансий выше. Для этого разобьём каждый город на квадраты со стороной N, где N можно задавать вручную. Получим сетку, разбивающую город на кластеры. Внутри каждого кластера будем считать вакансии и закрашивать всю сетку по градиенту. Где квадрат ярче, там вакансий больше. Смысл в том, чтобы найти места максимального сосредоточения открытых вакансий и посмотреть как такие сетки будут выглядеть для разных отраслей. Также кластеры можно закрашивать по средней зарплате - увидим места с максимальной ЗП.
Есть опенсорсный инструмент от Uber, в котором можно строить визуализации на картах. Инструмент называется kepler.gl. Взял 3 города: Питер, Казань, Ростов-на-Дону и для каждого построил по 2 виза: 3D и 2D. Высота столбцов пропорцианальна количеству вакансий, а цвет - средней зарплате.
Заглавная картинка сделаны в Keppler. Все 6 визуализаций прикладываю в комменты.
- Питер - 125 000 вакансий. Длина стороны кластера - 200 метров.
- Казань - 30 000 вакансий. Радиус кластера - 100 метров.
- Ростов-на-Дону - 18 000 вакансий. Длина стороны кластера - 150 метров.
В Табло тоже сделал, не выкладывал ещё. Весь способ разбиения на кластеры описывать не буду (делал для данных AirBnB раньше), он работает на принципах математического округления координат и компенсации долготы на карте. Использовал полигоны для визуализации. Для каждого города построил сетку и посчитал число вакансий в кластерах. Кроме этого, можно закрашивать кластеры по средней зарплате - сразу выделяются деловые центры городов. Если переключать категории: "Производство", "Юриспрудсенция" и другие, то картинки сильно меняются.
Не решил ещё куда дальше двигаться. Могу или дашборд сделать с несколькими городами или интерактивную карту в Mapbox и статью написать про это. Либо конкретные города и острассли исследовать. Пишите в комменты и ставьте реакции, если интересно видеть данные в интерактиве.
Finder.work, а раньше - Finder.vc - сервис поиска работы и сотрудников. Задумывался как сервис размещения вакансий с удалёнкой, но сейчас там не только удалёнка. Говорят что все вакансии проходят модерацию, и как-будто мусора не должно быть. У сервиса есть свои блоги о работе и вакансиях на vc.ru, на самом сайте Finder и каналы в Телеграм, самый большой на 300 000 подписчиков. То есть, сервис довольно популярен. Число активных айтишных вакансий более 8000, это примерно 3% всех активных.
Всего 36 отраслей. Топ 3 отрасли:
- Розничная торговля (14% вакансий
- Производство (13% вакансий)
- Продажи (10% вакансий)
На сайте более 2 300 000 вакансий с 2020 года, и они уже есть в базе данных нашего пет-проекта VILKY. Собрали вообще все вакансии с описаниями. В проекте VILKY исследуем только IT вакансии, там сделаем пост по IT.
Из 2х млн вакансий можно вытащить много интересного. Сегодня расскажу про Spatial анализ.
Сервис Finder отдаёт широту и долготу для ряда вакансий, а также адреса, регионы и страны. Будем выбирать города и смотреть где плотность вакансий выше. Для этого разобьём каждый город на квадраты со стороной N, где N можно задавать вручную. Получим сетку, разбивающую город на кластеры. Внутри каждого кластера будем считать вакансии и закрашивать всю сетку по градиенту. Где квадрат ярче, там вакансий больше. Смысл в том, чтобы найти места максимального сосредоточения открытых вакансий и посмотреть как такие сетки будут выглядеть для разных отраслей. Также кластеры можно закрашивать по средней зарплате - увидим места с максимальной ЗП.
Есть опенсорсный инструмент от Uber, в котором можно строить визуализации на картах. Инструмент называется kepler.gl. Взял 3 города: Питер, Казань, Ростов-на-Дону и для каждого построил по 2 виза: 3D и 2D. Высота столбцов пропорцианальна количеству вакансий, а цвет - средней зарплате.
Заглавная картинка сделаны в Keppler. Все 6 визуализаций прикладываю в комменты.
- Питер - 125 000 вакансий. Длина стороны кластера - 200 метров.
- Казань - 30 000 вакансий. Радиус кластера - 100 метров.
- Ростов-на-Дону - 18 000 вакансий. Длина стороны кластера - 150 метров.
В Табло тоже сделал, не выкладывал ещё. Весь способ разбиения на кластеры описывать не буду (делал для данных AirBnB раньше), он работает на принципах математического округления координат и компенсации долготы на карте. Использовал полигоны для визуализации. Для каждого города построил сетку и посчитал число вакансий в кластерах. Кроме этого, можно закрашивать кластеры по средней зарплате - сразу выделяются деловые центры городов. Если переключать категории: "Производство", "Юриспрудсенция" и другие, то картинки сильно меняются.
Не решил ещё куда дальше двигаться. Могу или дашборд сделать с несколькими городами или интерактивную карту в Mapbox и статью написать про это. Либо конкретные города и острассли исследовать. Пишите в комменты и ставьте реакции, если интересно видеть данные в интерактиве.
❤9🔥9
May the 4th be with you и Звёздные Войны в датавизе
4е мая - день Звёздных Войн. Просто потому что самая известная фраза "May the Force be with you" созвучна "May the fourth be with you", поэтому фанаты и выбрали этот день. Введите "May the 4th be with you" в гугле сегодня и посмотрите что произойдёт.
В день "Звёздных войн" по миру происходят всякие движухи. В датавиз сообществе делают визуализации на данных "Звёздных войн".
Я сделал датавиз "Star Bars" ещё в 2019 году в Tableau. Тогда вышла фича density marks, она визуализирует плотность точек. У меня случайно получилось так, что прямая линия из точек, с density marks и градиентом от белого до синего выглядит как световой меч (lightsabre). В итоге получился барчарт из световых мечей, где длина лезвия меча - это сборы в кинотеатрах по каждому фильму. Можно переключать на значение с приведением к инфляции, тогда клинки красные. Позже добавил анимацию.
В общем, дата сообщество веселится как может. Вот визуализации, ставшие классикой в комьюнити, эпичны как сами "Звёздные войны":
🌟 Star Wars - Screen Time Analysis by Jacob Olsufka.
🌟 Starwars screen time by Varun Varma
🌟 Star Wars Films by George Koursaros
🌟 Star Wars Characters Screen Time Analysis by Filippo Mastroianni
🌟 Star Wars by Adam E McCann
Визуализируйте, и да пребудет с вами 4е Мая!💫
4е мая - день Звёздных Войн. Просто потому что самая известная фраза "May the Force be with you" созвучна "May the fourth be with you", поэтому фанаты и выбрали этот день. Введите "May the 4th be with you" в гугле сегодня и посмотрите что произойдёт.
В день "Звёздных войн" по миру происходят всякие движухи. В датавиз сообществе делают визуализации на данных "Звёздных войн".
Я сделал датавиз "Star Bars" ещё в 2019 году в Tableau. Тогда вышла фича density marks, она визуализирует плотность точек. У меня случайно получилось так, что прямая линия из точек, с density marks и градиентом от белого до синего выглядит как световой меч (lightsabre). В итоге получился барчарт из световых мечей, где длина лезвия меча - это сборы в кинотеатрах по каждому фильму. Можно переключать на значение с приведением к инфляции, тогда клинки красные. Позже добавил анимацию.
В общем, дата сообщество веселится как может. Вот визуализации, ставшие классикой в комьюнити, эпичны как сами "Звёздные войны":
🌟 Star Wars - Screen Time Analysis by Jacob Olsufka.
🌟 Starwars screen time by Varun Varma
🌟 Star Wars Films by George Koursaros
🌟 Star Wars Characters Screen Time Analysis by Filippo Mastroianni
🌟 Star Wars by Adam E McCann
Визуализируйте, и да пребудет с вами 4е Мая!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤18😁2
Что происходит на рынке труда и Indeed Job Posting Index
Вчера большие телеграм каналы копипастили одну и ту же новость "Айтишники всё!" с графиком падения некой величины Index во времени. График по данным Indeed и только для Software Development в США. Ссылок нет, но если поискать, то можно найти что данные отсюда. Это ссылка на сайт Федерального Резервного банка. Там много разных данных.
Первоисточник этих данных - Indeed (indeed.com). Это мировой хедхантер, только в несколько раз больше hh.ru и на 28и языках.
Давайте разберёмся что значит метрика Indeed Job Postings Index. Это ежедневный индикатор рынка труда, предложенный компанией Indeed. Точка отсчета 1е февраля 2022 года, начало COVID, берется за дату отсчёта и индекс приравнивается к 100 (это все опубликованные вакансии на indeed.com). В следующие даты индекс меняется; он показывает изменение в процентах относительно точки старта. То есть, если число вакансий увеличилось на 40%, индекс будет 140. Исследуют только 9 стран. Вот описание в статье "Introducing the Indeed Job Postings Index" от декабря 2022г.
У трекера вакансий Indeed есть аккаунт на GitHub "job_posting_tracker". Там можно забрать данные по 9и странам в разных разрезах. Для исследования данных у Indeed есть раздел на сайте . И есть целый сайт hiringlab.org где их команда Hiring Lab делится своими исследованиями рынка труда.
Самое интересное - строить графики у них на сайте (https://data.indeed.com/). Там есть динамика вакансий, зарплат, удаленки и актуалочка - динамика вакансий с требованиями AI. Можно смотреть по штатам и отраслям, убирать сезонность, смотреть скользящие средние, сравнивать по годам и т.д.. Посмотрите как графике делает мировой топ.
На заглавной картинке - графики четырёх отраслей. Можно сравнить что происходило с IT, спортом и туризмом. Разработка ПО стремительно росла в COVID, и с 2022го года постепенно снижается.
Что не учитывают кликбейтные посты в телеграм:
- Постепенно, с середины 2022 года снижается весь рынок в США со 160 до 106. Практически пришёл в доковидному уровню.
- Нет сравнения с данными до 2022 года. Просто нет данных.
- IT - это не только Software Development.
Итого: снижается весь рынок труда, но IT интенсивнее. Число вакансий с AI переживает второе рождение с 2021 года, и сейчас тренд восходящий.
В рамках проекта анализа IT вакансий и зарплат VILKY мы собрали статистику по РФ и сопоставили с данными Indeed. Получилось интересно и неожиданно. Скоро опубликуем в канале проекта @vilky_it.
Вчера большие телеграм каналы копипастили одну и ту же новость "Айтишники всё!" с графиком падения некой величины Index во времени. График по данным Indeed и только для Software Development в США. Ссылок нет, но если поискать, то можно найти что данные отсюда. Это ссылка на сайт Федерального Резервного банка. Там много разных данных.
Первоисточник этих данных - Indeed (indeed.com). Это мировой хедхантер, только в несколько раз больше hh.ru и на 28и языках.
Давайте разберёмся что значит метрика Indeed Job Postings Index. Это ежедневный индикатор рынка труда, предложенный компанией Indeed. Точка отсчета 1е февраля 2022 года, начало COVID, берется за дату отсчёта и индекс приравнивается к 100 (это все опубликованные вакансии на indeed.com). В следующие даты индекс меняется; он показывает изменение в процентах относительно точки старта. То есть, если число вакансий увеличилось на 40%, индекс будет 140. Исследуют только 9 стран. Вот описание в статье "Introducing the Indeed Job Postings Index" от декабря 2022г.
У трекера вакансий Indeed есть аккаунт на GitHub "job_posting_tracker". Там можно забрать данные по 9и странам в разных разрезах. Для исследования данных у Indeed есть раздел на сайте . И есть целый сайт hiringlab.org где их команда Hiring Lab делится своими исследованиями рынка труда.
Самое интересное - строить графики у них на сайте (https://data.indeed.com/). Там есть динамика вакансий, зарплат, удаленки и актуалочка - динамика вакансий с требованиями AI. Можно смотреть по штатам и отраслям, убирать сезонность, смотреть скользящие средние, сравнивать по годам и т.д.. Посмотрите как графике делает мировой топ.
На заглавной картинке - графики четырёх отраслей. Можно сравнить что происходило с IT, спортом и туризмом. Разработка ПО стремительно росла в COVID, и с 2022го года постепенно снижается.
Что не учитывают кликбейтные посты в телеграм:
- Постепенно, с середины 2022 года снижается весь рынок в США со 160 до 106. Практически пришёл в доковидному уровню.
- Нет сравнения с данными до 2022 года. Просто нет данных.
- IT - это не только Software Development.
Итого: снижается весь рынок труда, но IT интенсивнее. Число вакансий с AI переживает второе рождение с 2021 года, и сейчас тренд восходящий.
В рамках проекта анализа IT вакансий и зарплат VILKY мы собрали статистику по РФ и сопоставили с данными Indeed. Получилось интересно и неожиданно. Скоро опубликуем в канале проекта @vilky_it.
🤝14🔥4
Пет-проект VILKY. Архитектура, исследования, дизайн.
Продолжаю рассказывать о нашем пет-проекте анализа зарплатных вилок в IT. Команда (Саша, Рома, Никита), ещё подключилась Снежана. Она занимается дизайном.
Месячный апдейт по проекту анализа IT зарплат:
1. Стали собирать исторические данные по ЗП за всё время.
2. Собираем вакансии сервиса vseti.app
3. Создали репозиторий на GitHub, появились первые пулл-реквесты.
4. Перенесли Airflow на Timeweb.
5. Дизайн. Сделали гайдбук.
6. Сделали первые исследования на данных.
7. Сделали лендинг и запустили рекламу канала.
8. Сделали манифест проекта.
1️⃣ . Сбор исторических данных.
Стало понятно, что снепшоты, которые делаем каждый день, не решают ряд задач анализа, а хочется именно историю смотреть. Поэтому, собрали все доступные вакансии с Habr career и Finder.work. Finder.work - большой ресурс вакансий, там их более 2х млн, не только IT, а вообще все по отраслям. Это моя часть работы, сейчас собраны все возможные поля. Выше писал пост о геоанализе данных с Finder. В итоге, переходим от снепшотов к историческим данным и инкрементальному обновлению - каждый день смотрим какие вакансии появились, открыты и добавляем статусы на текущий день в базу. Проблема с нормализацией LLM - слишком дорого получается нормализовать исторические объёмы через YandexGPT или ChatGPT, поэтому, будем делать свою модель.
2️⃣ . vseti.app - агрегатор IT вакансий. Постепенно подключаем другие сервисы. Парсер делал Рома, о том как работает, написал в своём канале.
Пункты3️⃣ и 4️⃣ связаны с архитектурой и совместной разработкой. Всё делал Никита и написал об этом в своём канале. Здесь напишу, что это была большая архитектурная задача. Сейчас все можем пушить на гитхаб и работать с Airflow.
5️⃣ . Дизайн. Это тоже очень большой шаг вперёд. Давно хотелось его сделать, но сами в дизайн мы не умеем. С этим помогла Снежана. Очень круто получился гайдбук, было переработано лого и выбраны основные цвета. Экспериментируем с подачей информации в канале: делали неделю Звёздных войн. Профиль Снежаны на Behance.
6️⃣ . Исследования данных. Можно вытащить много интересного. Сделали несколько постов: "Как изменился найм в IT за 10 лет и что произошло с зарплатами?", "О падении числа вакансий на Habr", "Геоанализ вакансий по городам". Исследование и пост могут занимать несколько часов. Пока я делаю, но времени не хватает на глубокий анализ, стараемся раз в неделю публиковать.
7️⃣ . Реклама сервиса и канала. Это задача у Ромы - он раньше много работал с рекламной сетью Яндекса и Директом. Всё настаивал Рома и написал у себя в канале. Запускали для теста посмотреть конверсии. Сейчас пересматриваем стратегию.
8️⃣ . Манифест проекта. Обозначили цели, позиции и принципы проекта, прикрепили в канале.
Уникальных данных у нас сейчас много - можно делать детализированные отчёты и исследования, подключать LLM. Это всё в планах.
В канале @vilky_it сейчас 400+ подписчиков. Более 150 пришли после постов Димы Аношина о проекте в его канале "Инжиниринг данных". Спасибо ему огромное!🎆
Продолжаю рассказывать о нашем пет-проекте анализа зарплатных вилок в IT. Команда (Саша, Рома, Никита), ещё подключилась Снежана. Она занимается дизайном.
Месячный апдейт по проекту анализа IT зарплат:
1. Стали собирать исторические данные по ЗП за всё время.
2. Собираем вакансии сервиса vseti.app
3. Создали репозиторий на GitHub, появились первые пулл-реквесты.
4. Перенесли Airflow на Timeweb.
5. Дизайн. Сделали гайдбук.
6. Сделали первые исследования на данных.
7. Сделали лендинг и запустили рекламу канала.
8. Сделали манифест проекта.
Стало понятно, что снепшоты, которые делаем каждый день, не решают ряд задач анализа, а хочется именно историю смотреть. Поэтому, собрали все доступные вакансии с Habr career и Finder.work. Finder.work - большой ресурс вакансий, там их более 2х млн, не только IT, а вообще все по отраслям. Это моя часть работы, сейчас собраны все возможные поля. Выше писал пост о геоанализе данных с Finder. В итоге, переходим от снепшотов к историческим данным и инкрементальному обновлению - каждый день смотрим какие вакансии появились, открыты и добавляем статусы на текущий день в базу. Проблема с нормализацией LLM - слишком дорого получается нормализовать исторические объёмы через YandexGPT или ChatGPT, поэтому, будем делать свою модель.
Пункты
Уникальных данных у нас сейчас много - можно делать детализированные отчёты и исследования, подключать LLM. Это всё в планах.
В канале @vilky_it сейчас 400+ подписчиков. Более 150 пришли после постов Димы Аношина о проекте в его канале "Инжиниринг данных". Спасибо ему огромное!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13❤5