VILKY в IT пабликах и эффект Telegram
Вчера о нашем пет-проекте анализа зарплат VILKY написали телеграм каналы с подписчиками от сотен тысяч до 1,7 миллиона. Это удивительно, но факт. Сначала про проект написал журнал о программировании XOR (170k), через несколько минут пост появился в милионнике Бэкдор (1,7М), потом - в канале "Не баг, а фича" (650k), CodeCamp (250k), "GeekNeural: IT & Нейросети" (88k) и ряде других. Более 350 000 просмотров суммарно в каналах. Это дало просто сумасшедшие охваты.
Началось всё с редакции XOR - они нашли нашу статью о сервисе на vc.ru и сделали пост про сервис. Огромное спасибо ребятам!
Через 6 часов после публикации,📊 дашборд по вакансиям просмотрели 5000 раз (это в 300 раз больше чем раньше). В субботу, до публикации, у двшборда было 25 000 просмотров за полгода, а сейчас - уже 43 000. То есть, с момента создания даша в ноябре прошлого года, и до публикации постов, просмотров столько же сколько за последние 2 дня (сегодня пробьём 50 000). Это что-то невероятное.
У себя в канале я писал про эффект Реддита - о том, что такое оказаться на главной странице reddit.com. И рассказывал о знакомом аналитике из США - он через месяц устроился в Apple после его публикации на главной. В русскоязычном пространстве подобный эффект наш сервис ощутил на себе в эти выходные.
Я, Никита и Рома получили в лички и комменты тонны фидбека. От предложений до багов и опечаток.
Главное из фидбека пользователей:
1️⃣ . Нравится суть проекта - сбор открытых данных и понятные алгоритмы анализа.
2️⃣ . Нравится работа с инструментом анализа данных (дашбордом).
3️⃣ . Нравится открытость проекта - рассказываем о том как всё устроено. Попросили подробную статью на Habr.
4️⃣ . Нравится что ежедневно есть свежие данные.
5️⃣ . Понимают что сбор и обработка данных - это сложно.
6️⃣ . Понимают что в проекте могут быть баги, и это нормально.
7️⃣ . Понимают что LLM могут ошибаться.
8️⃣ . Хотят исследовать данные.
9️⃣ . Нет подобных сервисов.
1️⃣ 0️⃣ . Это бесплатно!!!
Посты были в айтишных каналах, и точно попали в нашу целевую аудиторию. Проект назвали "лютейшей годнотой" - это вдохновляет.
В выходные мы фиксили критические вещи, оптимизировали даш - он работает в 2 раза быстрее сейчас. Но ещё есть простор для оптимизации. Фидбек от пользователей разберём, пофиксим баги и прислушается к тому что хотят люди.
Вы можете проследить по постам в этом канале как всё начиналось: дашборд 27го ноября прошлого года, полгода назад; автоматизация с начала февраля, запуск телеграм канала и т.д. Вчера, благодаря пабликам, проект вышел на новую орбиту. Главное, что мы делаем нужный продукт.
Вчера о нашем пет-проекте анализа зарплат VILKY написали телеграм каналы с подписчиками от сотен тысяч до 1,7 миллиона. Это удивительно, но факт. Сначала про проект написал журнал о программировании XOR (170k), через несколько минут пост появился в милионнике Бэкдор (1,7М), потом - в канале "Не баг, а фича" (650k), CodeCamp (250k), "GeekNeural: IT & Нейросети" (88k) и ряде других. Более 350 000 просмотров суммарно в каналах. Это дало просто сумасшедшие охваты.
Началось всё с редакции XOR - они нашли нашу статью о сервисе на vc.ru и сделали пост про сервис. Огромное спасибо ребятам!
Через 6 часов после публикации,
У себя в канале я писал про эффект Реддита - о том, что такое оказаться на главной странице reddit.com. И рассказывал о знакомом аналитике из США - он через месяц устроился в Apple после его публикации на главной. В русскоязычном пространстве подобный эффект наш сервис ощутил на себе в эти выходные.
Я, Никита и Рома получили в лички и комменты тонны фидбека. От предложений до багов и опечаток.
Главное из фидбека пользователей:
Посты были в айтишных каналах, и точно попали в нашу целевую аудиторию. Проект назвали "лютейшей годнотой" - это вдохновляет.
В выходные мы фиксили критические вещи, оптимизировали даш - он работает в 2 раза быстрее сейчас. Но ещё есть простор для оптимизации. Фидбек от пользователей разберём, пофиксим баги и прислушается к тому что хотят люди.
Вы можете проследить по постам в этом канале как всё начиналось: дашборд 27го ноября прошлого года, полгода назад; автоматизация с начала февраля, запуск телеграм канала и т.д. Вчера, благодаря пабликам, проект вышел на новую орбиту. Главное, что мы делаем нужный продукт.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥29👍11
Forwarded from Бэкдор
Анализируем вилки зарплат на ЛЮБЫХ айтишных вакансиях — сервис VILKY предоставит подробнейшую инфу по деньгам с открытых русскоязычных позиций и поможет вам найти работу мечты.
• Парсит данные со ВСЕХ открытых вакансий России и СНГ.
• База обновляется РЕГУЛЯРНО.
• Конкретно показывает, сколько стоит каждая позиция, грейд и навык на рынке труда — это поможет вам собрать идеальный набор знаний и квалификаций.
• БЕСПЛАТНО.
Сохраняем себе и узнаем все подводные камни рынка — тут.
👍 Бэкдор
• Парсит данные со ВСЕХ открытых вакансий России и СНГ.
• База обновляется РЕГУЛЯРНО.
• Конкретно показывает, сколько стоит каждая позиция, грейд и навык на рынке труда — это поможет вам собрать идеальный набор знаний и квалификаций.
• БЕСПЛАТНО.
Сохраняем себе и узнаем все подводные камни рынка — тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11
Весь SQL в одном месте и стартап Sherloq
Пару недель назад мне в личку написал один из основателей стартапа Sherloq. Его зовут Nadav. Он назвал свой продукт "Cursor for Data" и попросил мнение о продукте. Меньше месяца назад выпустили бету с AI поддержкой, можно бесплатно тестить. Бегло посмотрел - идея нравится, поэтому рассказываю.
Стартапу 3 года, более подробно о нем на "Y Combinator", "Crunchbase" и "Product Hunt".
"Y Combinator" или YC - известный акселератор стартапов. Стартап Sherloq привлёк $500 000 на Pre-seed. Это самая ранняя стадия инвестиций, и деньги дают на MVP. Но не просто так, а за долю в компании обычно. В этом году попали в Топ-10 челленджа от Snowflake, и там до $1 млн могут дать каждому из 2х финалистов.
Идея стартапа - "One place for all your SQL queries". Они хотят решить проблему разрозненных SQL запросов в компаниях. Проблема - в компаниях SQL запросы могут храниться в Confluence, GitHub, Jupyter ноутбуках, BI инструментах, во внутренних документах, в переписках, в головах сотрудников и т. д.. Одна метрика может считаться по-разному в разных отделах, в разное время и в разных инструментах. Проблема действительно серьёзная. Я не знаю компании, которые её полностью решили. Поэтому есть чаты где друг у друга спрашивают как считать метрики.
Надо сказать, что первую версию продукта ребята сделали и даже продали компании AppsFlyer (не нуждается в представлении), у которой более 10000 таблиц и 2 млн запросов в день. Подробно кейс здесь.
По-сути стартап сделал что-то вроде GitHub для SQL, с версионированием, но без усложнений в виде ревью, пулл-реквестов, веток и т.д.. Запросы шарятся через экстеншны и плагины к Chrome, VsCode, Cursor, DataGrip, PyCharm и др.. То есть, открываешь инструмент, запускаешь плагин и ищешь нужный запрос в окне Sherloq, а потом обновляешь в SQL репозиторий там же. В заглавной картинке пример на BigQuery.
Основатели стартапа описывают свою систему как "collaborative platform for managing and documenting data analytics workflows". Кроме collaborative SQL repo, есть встроенные инструменты: линтер, поиск и фикс ошибок, AI агент (пишет запросы, исходя из названий метрик), ERD Visualizer. Ещё может вытаскивать Custom SQL запросы из Tableau по API токену и пушить в репозиторий.
Обозначенные выше проблемы тратят много времени пользователей и бизнеса. Это прям боль компаний в data направлениях для менеджмента.
По стоимости - 16$ в мес. за 250 SQL фиксов, 200 вопросов к AI, неограниченный объём хранимых запросов. Дорого это или нет - непонятно, пока не сравнить с потерями времени на SQL в конкретной компании.
Попробовал пока форматирование запросов, посохранял запросы, ещё на VsCode плагин надо поставить и подключить к простой БД, помучаю AI агентов, построю ERD диаграммы и напишу отзыв. Интересно как у стартапа дальше пойдёт. Идея интересная, но как на уровне компаний внедрять новый на рынке инструмент - не очень понятно, надо ждать больших кейсов внедрения.
Пару недель назад мне в личку написал один из основателей стартапа Sherloq. Его зовут Nadav. Он назвал свой продукт "Cursor for Data" и попросил мнение о продукте. Меньше месяца назад выпустили бету с AI поддержкой, можно бесплатно тестить. Бегло посмотрел - идея нравится, поэтому рассказываю.
Стартапу 3 года, более подробно о нем на "Y Combinator", "Crunchbase" и "Product Hunt".
"Y Combinator" или YC - известный акселератор стартапов. Стартап Sherloq привлёк $500 000 на Pre-seed. Это самая ранняя стадия инвестиций, и деньги дают на MVP. Но не просто так, а за долю в компании обычно. В этом году попали в Топ-10 челленджа от Snowflake, и там до $1 млн могут дать каждому из 2х финалистов.
Идея стартапа - "One place for all your SQL queries". Они хотят решить проблему разрозненных SQL запросов в компаниях. Проблема - в компаниях SQL запросы могут храниться в Confluence, GitHub, Jupyter ноутбуках, BI инструментах, во внутренних документах, в переписках, в головах сотрудников и т. д.. Одна метрика может считаться по-разному в разных отделах, в разное время и в разных инструментах. Проблема действительно серьёзная. Я не знаю компании, которые её полностью решили. Поэтому есть чаты где друг у друга спрашивают как считать метрики.
Надо сказать, что первую версию продукта ребята сделали и даже продали компании AppsFlyer (не нуждается в представлении), у которой более 10000 таблиц и 2 млн запросов в день. Подробно кейс здесь.
По-сути стартап сделал что-то вроде GitHub для SQL, с версионированием, но без усложнений в виде ревью, пулл-реквестов, веток и т.д.. Запросы шарятся через экстеншны и плагины к Chrome, VsCode, Cursor, DataGrip, PyCharm и др.. То есть, открываешь инструмент, запускаешь плагин и ищешь нужный запрос в окне Sherloq, а потом обновляешь в SQL репозиторий там же. В заглавной картинке пример на BigQuery.
Основатели стартапа описывают свою систему как "collaborative platform for managing and documenting data analytics workflows". Кроме collaborative SQL repo, есть встроенные инструменты: линтер, поиск и фикс ошибок, AI агент (пишет запросы, исходя из названий метрик), ERD Visualizer. Ещё может вытаскивать Custom SQL запросы из Tableau по API токену и пушить в репозиторий.
Обозначенные выше проблемы тратят много времени пользователей и бизнеса. Это прям боль компаний в data направлениях для менеджмента.
По стоимости - 16$ в мес. за 250 SQL фиксов, 200 вопросов к AI, неограниченный объём хранимых запросов. Дорого это или нет - непонятно, пока не сравнить с потерями времени на SQL в конкретной компании.
Попробовал пока форматирование запросов, посохранял запросы, ещё на VsCode плагин надо поставить и подключить к простой БД, помучаю AI агентов, построю ERD диаграммы и напишу отзыв. Интересно как у стартапа дальше пойдёт. Идея интересная, но как на уровне компаний внедрять новый на рынке инструмент - не очень понятно, надо ждать больших кейсов внедрения.
🔥14🥱5👎2
Tableau Lego и невозможные визуализации.
В BI и датавиз пространстве большинство пользователей работают со стандартными визуализациями. Естественно, в любом инструменте визуализации данных есть свои ограничения - они и определяют сложность визуализаций. Эксперты могут посмотреть на любую работу и примерно рассказать как она сделана. В периметре Tableau существуют "невозможные визуализации" - такие, которые мало кто может повторить без мануала, и до их создания построение считалось невозможным. Обычно на скриншот с такой визуализацией говорят что "это сделано не в Табло".
Сегодня расскажу о своей визуализации Tableau Lego. Ей 5 лет, она стала классикой в своём сегменте, но не каждый Tableau эксперт понимает как она построена. Я консультировал несколько инженеров и сейлзов внутри компании Tableau по принципам её построения. То есть, инженеры, создающие продукт, хотели понять на что способен продукт, и что можно ещё создать. И внутри компании создают 3D проекты чтобы расширить понимание возможностей продукта.
Сама визуализация "Tableau Lego" - это эмулятор конструктора, где можно по шагам эмулировать сборку лего домика, а также смотреть на него под разными углами. Всё работает на чистой математике, без внешних модулей.
Когда-то для меня 3D в Tableau казалось космосом. Но надо было разобраться и добавить что-то своё. Месяца на 4 погружался в 3D, принципы, что было сделано и что можно сделать. Сверхсложного ничего нет - просто нужно время. Из своего - добавил работу с OBJ файлами - это сильно изменило картинку. До этого 3D модели описывались форматом стереолитографии, и полигоны делились на треугольники. С моим подходом можно работать с любым числом вершин в полигоне.
Самое сложное - создать датасет, остальное - дело техники. Визуализация - это набор полигонов с заданными координатами вершин и формулы проекции на плоскость плюс алгоритм сортировки полигонов. Максимально подробно всё описал в статье "3D модели в Tableau". Её до сих пор читают и делают 3D. Мы даже конкурс один раз проводили на индийском TUG с призами.
Мне нравится концепция Лего, когда из базовых кубиков создаёшь примитивные конструкции, а и из примитивных конструкций создаёшь сложные сооружения. Как в жизни.
После создания таких визуализаций мне посчасливилось сотрудничать с людьми из Pixar, они создавали ещё первую "Историю игрушек". Про это рассказывал в одном из постов.
Зачем всё это? В русскоязычном пространстве такой вопрос возникает часто, а в англоязычном - нет. В англоязычном комьюнити просят статьи, вебинары и объяснения. Мне просто интересно делать то, что считают невозможным. Это классно, когда ты ограничен инструментом (нет циклов, скриптов и т.п.), и приходится придумывать вычисления для реализации идеи.
В СНГ такие вещи никому не нужны, и это печально. А в англоязычном пространстве всегда ищут что-то необычное и тех кто это делает. В твиттере (благодаря таким работам) на мой профиль подписаны CEO Salesforce, CEO Tableau, CTO Twitter/Facebook (сейчас - Sierra AI) - это люди, определяющие куда пойдёт мировое IT. И им это надо.
В BI и датавиз пространстве большинство пользователей работают со стандартными визуализациями. Естественно, в любом инструменте визуализации данных есть свои ограничения - они и определяют сложность визуализаций. Эксперты могут посмотреть на любую работу и примерно рассказать как она сделана. В периметре Tableau существуют "невозможные визуализации" - такие, которые мало кто может повторить без мануала, и до их создания построение считалось невозможным. Обычно на скриншот с такой визуализацией говорят что "это сделано не в Табло".
Сегодня расскажу о своей визуализации Tableau Lego. Ей 5 лет, она стала классикой в своём сегменте, но не каждый Tableau эксперт понимает как она построена. Я консультировал несколько инженеров и сейлзов внутри компании Tableau по принципам её построения. То есть, инженеры, создающие продукт, хотели понять на что способен продукт, и что можно ещё создать. И внутри компании создают 3D проекты чтобы расширить понимание возможностей продукта.
Сама визуализация "Tableau Lego" - это эмулятор конструктора, где можно по шагам эмулировать сборку лего домика, а также смотреть на него под разными углами. Всё работает на чистой математике, без внешних модулей.
Когда-то для меня 3D в Tableau казалось космосом. Но надо было разобраться и добавить что-то своё. Месяца на 4 погружался в 3D, принципы, что было сделано и что можно сделать. Сверхсложного ничего нет - просто нужно время. Из своего - добавил работу с OBJ файлами - это сильно изменило картинку. До этого 3D модели описывались форматом стереолитографии, и полигоны делились на треугольники. С моим подходом можно работать с любым числом вершин в полигоне.
Самое сложное - создать датасет, остальное - дело техники. Визуализация - это набор полигонов с заданными координатами вершин и формулы проекции на плоскость плюс алгоритм сортировки полигонов. Максимально подробно всё описал в статье "3D модели в Tableau". Её до сих пор читают и делают 3D. Мы даже конкурс один раз проводили на индийском TUG с призами.
Мне нравится концепция Лего, когда из базовых кубиков создаёшь примитивные конструкции, а и из примитивных конструкций создаёшь сложные сооружения. Как в жизни.
После создания таких визуализаций мне посчасливилось сотрудничать с людьми из Pixar, они создавали ещё первую "Историю игрушек". Про это рассказывал в одном из постов.
Зачем всё это? В русскоязычном пространстве такой вопрос возникает часто, а в англоязычном - нет. В англоязычном комьюнити просят статьи, вебинары и объяснения. Мне просто интересно делать то, что считают невозможным. Это классно, когда ты ограничен инструментом (нет циклов, скриптов и т.п.), и приходится придумывать вычисления для реализации идеи.
В СНГ такие вещи никому не нужны, и это печально. А в англоязычном пространстве всегда ищут что-то необычное и тех кто это делает. В твиттере (благодаря таким работам) на мой профиль подписаны CEO Salesforce, CEO Tableau, CTO Twitter/Facebook (сейчас - Sierra AI) - это люди, определяющие куда пойдёт мировое IT. И им это надо.
❤33🔥27😱4
Самый сложный вид спорта и рейтинг ESPN
Какой вид спорта самый сложный?
На этот вопрос однозначного ответа нет, поскольку нет объективных критериев оценки.
Но в 2004 году группа экспертов из ESPN (espn.com - самый посещаемый сайт о спорте на тот момент) взялась ответить на этот вопрос. Для этого они взяли 10 ключевых навыков или способностей:
1️⃣ . Выносливость (Endurance): Способность долго выполнять физическую или умственную работу.
2️⃣ . Сила (Strength): Насколько мощное усилие может приложить человек.
3️⃣ . Мощность (Power): Комбинация силы и скорости — способность быстро приложить усилие.
4️⃣ . Скорость (Speed): Насколько быстро человек может двигаться или реагировать на что-то.
5️⃣ . Ловкость (Agility): Способность быстро и точно менять направление движения.
6️⃣ . Гибкость (Flexibility): Способность суставов и мышц растягиваться без травм.
7️⃣ . Хладнокровие (Nerve): Умение сохранять спокойствие в стрессовых или опасных ситуациях.
8️⃣ . Устойчивость (Durability): Устойчивость к травмам, нагрузке или усталости.
9️⃣ . Координация рук и глаз (Hand-Eye Coordination): Способность синхронизировать зрение и движение рук.
1️⃣ 0️⃣ . Аналитические способности (Analytic Aptitude): Способность быстро и эффективно анализировать информацию.
Каждый навык оценивался по шкале от 0 до 10 для каждого вида спорта, где 10 - максимальный навык, необходимый в конкретном спорте (напр, для гимнастики гибкость = 10) После чего оценки всех 10и навыков суммировались и получалась одна общая оценка. Всего оценили 60 спортов. Таблица с оценками каждого вида спорта есть по ссылке. А экспертов с их биографиями можно найти здесь.
Надо сразу заметить, что оценки субъективные, а получившийся рейтинг - также субъективная история, и ближе американскому майндсету. У меня тоже есть вопросы к оценке. Но остановимся на том, что есть, тем более, что на протяжении 20и лет на эти оценки периодически ссылаются (Статья 1, Статья 2). Есть и другие рейтинги.
Итак, топ 5 спортов с оценками:
1️⃣ Бокс (72.4)
2️⃣ Хоккей (71,8)
3️⃣ Американский футбол (68,4)
4️⃣ Баскетбол (67,9)
5️⃣ Борьба (63,5)
Антитоп (самые ненапряжные виды спорта):
5️⃣ 6️⃣ Кёрлинг (27,5)
5️⃣ 7️⃣ Боулинг (25,4)
5️⃣ 8️⃣ Стрельба (24,9)
5️⃣ 9️⃣ Бильярд (21,5)
6️⃣ 0️⃣ Рыбалка (14,5)
Этот датасет мы визуализировали на MakeoverMonday в 2018 году. Мне тогда было интересно попробовать что-то нестандартное. Выбрал диаграмму Coxcomb ("Петушиный гребень"), она же - Nightingale’s rose. Надо отметить, что диаграмму такого типа использовала Флоренс Найтингейл - одна из пионеров визуализации, для отображения смертности солдат, почти 2 века назад. Диаграмма читерская (как и все круговые), поскольку визуально считывается площадь. Алексей Смагин писал про неоднозначность круговых диаграмм в TJ.
В моём случае каждый сектор со своим цветом отвечает за свой навык, а радиус сектора - за оценку навыка. На визуализации 60 диаграмм, своя для каждого вида спорта и одна общая, где дугами отмечаются оценки всех навыков во всех видах спорта. Получилось нетривиально. Работа называется📊 "What's the toughest sport of all?". Не на всех браузерах нормально отрабатывают шрифты.
Реализация непростая - в Табло используется денсификация и по 6 табличных вычислений для X и Y. Тогда делал такое первый раз, полдня просидел, но получил что хотел. Всего на визуализации 122 500 точек. У Bora Beran есть статья по созданию таких диаграмм.
На общей диаграмме интересно поизучать крайности - самые высокие и самые низкие оценки каждого навыка. Или найти диаграммы с резко выраженными различиями в навыках (напр., автогонки - максимум Analytical Aptitude и минимум Flexibility). На этой же диаграмме интересно сравнить одни вид спорта с остальными.
Если досконально разбираться в данных и визуализации, то данные - читерские (сами придумали методику, сами проставили баллы), и диаграмма не самая ясная (по-разному может восприниматься человеком). Но это пример попытки оцифровать то, что оцифровать нельзя. И таких примеров много.
А вот интересно, где в этом рейтинге будет киберспорт?🎮
Какой вид спорта самый сложный?
На этот вопрос однозначного ответа нет, поскольку нет объективных критериев оценки.
Но в 2004 году группа экспертов из ESPN (espn.com - самый посещаемый сайт о спорте на тот момент) взялась ответить на этот вопрос. Для этого они взяли 10 ключевых навыков или способностей:
Каждый навык оценивался по шкале от 0 до 10 для каждого вида спорта, где 10 - максимальный навык, необходимый в конкретном спорте (напр, для гимнастики гибкость = 10) После чего оценки всех 10и навыков суммировались и получалась одна общая оценка. Всего оценили 60 спортов. Таблица с оценками каждого вида спорта есть по ссылке. А экспертов с их биографиями можно найти здесь.
Надо сразу заметить, что оценки субъективные, а получившийся рейтинг - также субъективная история, и ближе американскому майндсету. У меня тоже есть вопросы к оценке. Но остановимся на том, что есть, тем более, что на протяжении 20и лет на эти оценки периодически ссылаются (Статья 1, Статья 2). Есть и другие рейтинги.
Итак, топ 5 спортов с оценками:
Антитоп (самые ненапряжные виды спорта):
Этот датасет мы визуализировали на MakeoverMonday в 2018 году. Мне тогда было интересно попробовать что-то нестандартное. Выбрал диаграмму Coxcomb ("Петушиный гребень"), она же - Nightingale’s rose. Надо отметить, что диаграмму такого типа использовала Флоренс Найтингейл - одна из пионеров визуализации, для отображения смертности солдат, почти 2 века назад. Диаграмма читерская (как и все круговые), поскольку визуально считывается площадь. Алексей Смагин писал про неоднозначность круговых диаграмм в TJ.
В моём случае каждый сектор со своим цветом отвечает за свой навык, а радиус сектора - за оценку навыка. На визуализации 60 диаграмм, своя для каждого вида спорта и одна общая, где дугами отмечаются оценки всех навыков во всех видах спорта. Получилось нетривиально. Работа называется
Реализация непростая - в Табло используется денсификация и по 6 табличных вычислений для X и Y. Тогда делал такое первый раз, полдня просидел, но получил что хотел. Всего на визуализации 122 500 точек. У Bora Beran есть статья по созданию таких диаграмм.
На общей диаграмме интересно поизучать крайности - самые высокие и самые низкие оценки каждого навыка. Или найти диаграммы с резко выраженными различиями в навыках (напр., автогонки - максимум Analytical Aptitude и минимум Flexibility). На этой же диаграмме интересно сравнить одни вид спорта с остальными.
Если досконально разбираться в данных и визуализации, то данные - читерские (сами придумали методику, сами проставили баллы), и диаграмма не самая ясная (по-разному может восприниматься человеком). Но это пример попытки оцифровать то, что оцифровать нельзя. И таких примеров много.
А вот интересно, где в этом рейтинге будет киберспорт?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10❤1😁1
Конкурс авторских Telegram-каналов
Подал заявку на участие в конкурсе авторских Telegram - каналов. И её приняли🎆 . Интересно принять участие в такой движухе, я не помню чего-то подобного.
Подробнее о конкурсе - на странице: https://tg-contest.tilda.ws
Главный канал конкурса: @tg_contest_main
Заявки можно подавать до 6 июля. Если у вас небольшой авторский канал, пишете сами, а не копируете другие посты, и ERR более 200, смело подавайтесь в своей номинации. Заявок уже более 500.
Главный приз - шаринг ваших постов на аудиторию 250k и новые подписчики.
Мне интересен нетворкинг, просто пообсуждать, чем живёт сообщество в TG.
Голосование за каналы - с 7 по 14 июля.
Подал заявку на участие в конкурсе авторских Telegram - каналов. И её приняли
Подробнее о конкурсе - на странице: https://tg-contest.tilda.ws
Главный канал конкурса: @tg_contest_main
Заявки можно подавать до 6 июля. Если у вас небольшой авторский канал, пишете сами, а не копируете другие посты, и ERR более 200, смело подавайтесь в своей номинации. Заявок уже более 500.
Главный приз - шаринг ваших постов на аудиторию 250k и новые подписчики.
Мне интересен нетворкинг, просто пообсуждать, чем живёт сообщество в TG.
Голосование за каналы - с 7 по 14 июля.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍4
О чём пишут телеграм-каналы и морфологическая нормализация
В каждом авторском телеграм канале - своя тема, своя стилистика, свои обороты, свои слова. Посты в канале - лицо автора. Поэтому придумал концепцию портретов авторов из слов постов их каналов. По словам сразу понятно, о чем пишет автор.
О чём же пишут авторы?
Можно сразу перейти в комментарии и найти портреты в хайрезе:
1️⃣ Павел Дуров и канал @durov_russia
2️⃣ Артемий Лебедев и канал @temalebedev
3️⃣ Максим Спиридонов и канал @mspiridonov
4️⃣ Мой портрет и канал @data_bar
Сделал скрипт, который формирует облако слов из всех постов канала. Вкратце:
1. Выгружается json из канала
2. Забирается только текст из постов
3. Из текста убираются стоп-слова (предлоги, наречия и т.п.)
4. Проводится морфологическая нормализация (об этом ниже)
5. Считается частотность каждого слова
6. Строится облако слов по маске. Маска - черно-белое изображение.
Чем больше размер шрифта, тем частотнее слово. Сразу видно наиболее употребляемые слова. Одна картинка 5120x5120 считается и формируется 10 минут.
Делал раньше такое, и написал статью как это работает. В новой версии хотел добавить морфологическую нормализацию LLM. Но, в итоге, использую библиотеку pymorphy2. Пробовал документ отдавать ChatGPT, но он не смог нормально сделать и сам предложил использовать pymorphy2. Эта библиотека справляется в 95%, но всё-таки есть проблемки.
Морфологическая нормализация - это приведение всех существительных к единственному числу в именительном падеже. Прилагательные - единственное число, мужской род. Давно хотел реализовать и думал применить LLM, но получил неплохой результат с pymorphy2. А вот глаголы в совершенной форме к несовершенной приводить получается только при помощи словаря (это другая морфологическая операция).
Маска - это портрет автора канала. Исходный портрет преобразуется в grayscale и сильно выкручивается яркость с контрастностью, потом изображение инвертируется. Cловами заполняются все тёмные участки. По-хорошему, надо допиливать портреты вручную в фотошопе, но я этого не делал.
Получилось прикольно: слова и портрет автора на одной картинке. Ведь в каком-то смысле, слова автора являются его лицом.
В каждом авторском телеграм канале - своя тема, своя стилистика, свои обороты, свои слова. Посты в канале - лицо автора. Поэтому придумал концепцию портретов авторов из слов постов их каналов. По словам сразу понятно, о чем пишет автор.
О чём же пишут авторы?
Можно сразу перейти в комментарии и найти портреты в хайрезе:
Сделал скрипт, который формирует облако слов из всех постов канала. Вкратце:
1. Выгружается json из канала
2. Забирается только текст из постов
3. Из текста убираются стоп-слова (предлоги, наречия и т.п.)
4. Проводится морфологическая нормализация (об этом ниже)
5. Считается частотность каждого слова
6. Строится облако слов по маске. Маска - черно-белое изображение.
Чем больше размер шрифта, тем частотнее слово. Сразу видно наиболее употребляемые слова. Одна картинка 5120x5120 считается и формируется 10 минут.
Делал раньше такое, и написал статью как это работает. В новой версии хотел добавить морфологическую нормализацию LLM. Но, в итоге, использую библиотеку pymorphy2. Пробовал документ отдавать ChatGPT, но он не смог нормально сделать и сам предложил использовать pymorphy2. Эта библиотека справляется в 95%, но всё-таки есть проблемки.
Морфологическая нормализация - это приведение всех существительных к единственному числу в именительном падеже. Прилагательные - единственное число, мужской род. Давно хотел реализовать и думал применить LLM, но получил неплохой результат с pymorphy2. А вот глаголы в совершенной форме к несовершенной приводить получается только при помощи словаря (это другая морфологическая операция).
Маска - это портрет автора канала. Исходный портрет преобразуется в grayscale и сильно выкручивается яркость с контрастностью, потом изображение инвертируется. Cловами заполняются все тёмные участки. По-хорошему, надо допиливать портреты вручную в фотошопе, но я этого не делал.
Получилось прикольно: слова и портрет автора на одной картинке. Ведь в каком-то смысле, слова автора являются его лицом.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥24❤4👍1👎1
Трамп говорит и соцсеть Truth
Трампа когда-то забанили в Твиттере, после чего он создал свою соцсеть c блэкджеком "Truth Social", где с завидной регулярностью выкладывает посты. Эти посты потом разносятся по X (Twitter) и в разных СМИ, включая телеграм-каналы.
А я продолжаю экспериментировать с анализом текстов и облаками слов. В этот раз взял все посты Дональда Трампа с момента его вступления в президентскую должность 20 января 2025г (а их более 1300) и построил облако слов на базе известного портрета Трампа. Здесь можно видеть какие слова чаще употребляются в сообщениях.
Публичного API у TRUTH нет, но есть сайт https://trumpstruth.org, где хранится архив всех сообщений. Оттуда можно тащить весь текст. Используется библиотека feedparser, и скрипт по дням вытаскивает всё, что писал Трамп. После этого удаляются чужие сообщения (ретвиты) и сообщения с видео. Остаётся только текст. Далее, как в посте выше, работает морфологическая нормализация и удаляется всякий мусор. Нормализация английского языка отличается от нормализации русского, она реализована по-другому. После чего строится облако слов.
Цвет слова формируется на базе картинки-подоложки. Выбирается квадрат 5x5 пикселей в центре слова, и цвета всех пикселей приводятся к одному. Размер слова пропорционален частоте его употребления.
В итоге, получился такой портрет из слов. Концепция этого дата-арта: "Человек - то, что он говорит". Хотя с конкретным персонажем это не всегда так 🙂.
Можно взять любую картинку, любой текст и сделать то же самое. Шекспира, например. Или героев фильмов.
Трампа когда-то забанили в Твиттере, после чего он создал свою соцсеть c блэкджеком "Truth Social", где с завидной регулярностью выкладывает посты. Эти посты потом разносятся по X (Twitter) и в разных СМИ, включая телеграм-каналы.
А я продолжаю экспериментировать с анализом текстов и облаками слов. В этот раз взял все посты Дональда Трампа с момента его вступления в президентскую должность 20 января 2025г (а их более 1300) и построил облако слов на базе известного портрета Трампа. Здесь можно видеть какие слова чаще употребляются в сообщениях.
Публичного API у TRUTH нет, но есть сайт https://trumpstruth.org, где хранится архив всех сообщений. Оттуда можно тащить весь текст. Используется библиотека feedparser, и скрипт по дням вытаскивает всё, что писал Трамп. После этого удаляются чужие сообщения (ретвиты) и сообщения с видео. Остаётся только текст. Далее, как в посте выше, работает морфологическая нормализация и удаляется всякий мусор. Нормализация английского языка отличается от нормализации русского, она реализована по-другому. После чего строится облако слов.
Цвет слова формируется на базе картинки-подоложки. Выбирается квадрат 5x5 пикселей в центре слова, и цвета всех пикселей приводятся к одному. Размер слова пропорционален частоте его употребления.
В итоге, получился такой портрет из слов. Концепция этого дата-арта: "Человек - то, что он говорит". Хотя с конкретным персонажем это не всегда так 🙂.
Можно взять любую картинку, любой текст и сделать то же самое. Шекспира, например. Или героев фильмов.
👍15❤6🔥3👏1😁1🤩1
Forwarded from VILKY. Зарплаты в IT
Инсайты. AI инструменты разработчика.
Большой опрос Stack Overflow 2024.
А вы же знаете про Stack Overflow?
Конечно! Это же самый большой в мире форум программистов с вопросами и ответами. Одно из самых авторитетных сообществ в IT. Этот ламповый ресурс постепенно каннибализируют нейросети. Но он легендарен.
Так вот. Stack Overflow с 2011го раз в год проводит грандиозный опрос. Отвечают пользователи на платформе. А пользователи там - ребята скилловые и активно встречают все новые технологии. В мае 2024 года был последний опрос, его прошли более 65 000 разработчиков. В 2025м ещё не было, а может и не будет.
Давайте вернёмся на год назад (свежее данных пока нет) и посмотрим на ответы юзеров с текущей позицией - разработчик.
59% используют AI инструменты для разработки. 22% не планируют использовать.
Самый популярный AI инструмент - ChatGPT. Остальные можно видеть на диаграмме. На вопрос об инструментах AI можно было написать несколько. Часть из них уже обязательные скиллы в ряде вакансий.
А вы все AI инструменты знаете из списка? Мы - нет.
У нас традиционно внедрение любых инструментов запаздывает. Но каждый может прикинуть что он использует сейчас и что планирует.
В опросах Stack Overflow ещё много всего интересного. Мы продолжим исследовать данные в рубрике "Инсайты" и рассказывать про изменения рынка IT вакансий.
#инсайты
Большой опрос Stack Overflow 2024.
А вы же знаете про Stack Overflow?
Конечно! Это же самый большой в мире форум программистов с вопросами и ответами. Одно из самых авторитетных сообществ в IT. Этот ламповый ресурс постепенно каннибализируют нейросети. Но он легендарен.
Так вот. Stack Overflow с 2011го раз в год проводит грандиозный опрос. Отвечают пользователи на платформе. А пользователи там - ребята скилловые и активно встречают все новые технологии. В мае 2024 года был последний опрос, его прошли более 65 000 разработчиков. В 2025м ещё не было, а может и не будет.
Давайте вернёмся на год назад (свежее данных пока нет) и посмотрим на ответы юзеров с текущей позицией - разработчик.
59% используют AI инструменты для разработки. 22% не планируют использовать.
Самый популярный AI инструмент - ChatGPT. Остальные можно видеть на диаграмме. На вопрос об инструментах AI можно было написать несколько. Часть из них уже обязательные скиллы в ряде вакансий.
А вы все AI инструменты знаете из списка? Мы - нет.
У нас традиционно внедрение любых инструментов запаздывает. Но каждый может прикинуть что он использует сейчас и что планирует.
В опросах Stack Overflow ещё много всего интересного. Мы продолжим исследовать данные в рубрике "Инсайты" и рассказывать про изменения рынка IT вакансий.
#инсайты
👍9
1000 самых известных людей и выставка в Вегасе
На картинке выше моя работа "Pantheon" на выставке визуализаций Tableau Public Gallery в Лас-Вегасе. Всё проходило в рамках конференции "Tableau Conference" в ноябре 2019 года. В одну рамку работа не влезла поэтому получится диптих. Потом работа поехала в Сан-Франциско на большую конфу "Salesforce" и ещё куда-то. Через год её отправили в Россию, но получить не смог - был COVID и проблемы с оформлением документов на получение.
Работа о 1000 самых популярных людей. Делал на английском и русском языках. На русский переводил для OpenDataDay 2020 в Москве. Саша Богачёв приглашал, было круто.
Датасет очень интересный, нашёл его у Andy Cotgrave "Chart of Biography".
Сайт проекта "Pantheon" здесь. MIT (Массачусетский Технологический Институт) придумал методику измерения популярности всех людей на планете по статьям и проанализировал всё что доступно в интернете. Получились ранги известности. Самые известные люди:
1️⃣ . Аристотель
2️⃣ . Платон
3️⃣ . Иисус Христос
4️⃣ . Сократ
5️⃣ . Александр Великий
Теперь о визуализации. Меня как-то посетила мысль, что разные диаграммы можно попробовать соединить. Просто для того чтобы понять получится ли логично или нет. Первый раз реализовал эту мысль в работе "Freedom of the Press", и её приняли очень хорошо.
А в Пантеоне эта мысль продолжилась, и в ней соединяются несколько визуализаций. Долго не мог найти датасет, а потом увидел проект "Пантеон" и понял что это то что надо. Нравится аналогия, что жизни людей - это нити, пронизывающие пространство. В визуализации соединяются: таймлайн, ранги, категории и карта (откуда родом человек). Сам виз - интерактивный дата-арт.
Визуализация была экспериментом - хотелось посмотреть что получится. А получилось так, что эксперимент отобрали на выставку работ.
На картинке выше моя работа "Pantheon" на выставке визуализаций Tableau Public Gallery в Лас-Вегасе. Всё проходило в рамках конференции "Tableau Conference" в ноябре 2019 года. В одну рамку работа не влезла поэтому получится диптих. Потом работа поехала в Сан-Франциско на большую конфу "Salesforce" и ещё куда-то. Через год её отправили в Россию, но получить не смог - был COVID и проблемы с оформлением документов на получение.
Работа о 1000 самых популярных людей. Делал на английском и русском языках. На русский переводил для OpenDataDay 2020 в Москве. Саша Богачёв приглашал, было круто.
Датасет очень интересный, нашёл его у Andy Cotgrave "Chart of Biography".
Сайт проекта "Pantheon" здесь. MIT (Массачусетский Технологический Институт) придумал методику измерения популярности всех людей на планете по статьям и проанализировал всё что доступно в интернете. Получились ранги известности. Самые известные люди:
Теперь о визуализации. Меня как-то посетила мысль, что разные диаграммы можно попробовать соединить. Просто для того чтобы понять получится ли логично или нет. Первый раз реализовал эту мысль в работе "Freedom of the Press", и её приняли очень хорошо.
А в Пантеоне эта мысль продолжилась, и в ней соединяются несколько визуализаций. Долго не мог найти датасет, а потом увидел проект "Пантеон" и понял что это то что надо. Нравится аналогия, что жизни людей - это нити, пронизывающие пространство. В визуализации соединяются: таймлайн, ранги, категории и карта (откуда родом человек). Сам виз - интерактивный дата-арт.
Визуализация была экспериментом - хотелось посмотреть что получится. А получилось так, что эксперимент отобрали на выставку работ.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤16🔥10👏4😱3👻1
Пятничный мемопад от команды авторских каналов.
Эстафету принял от
@gisgoo - крутой канал о ГИС аналитике
Эстафету передал
@hrekbdrive - канал "HR на драйве"
Эстафету принял от
@gisgoo - крутой канал о ГИС аналитике
Эстафету передал
@hrekbdrive - канал "HR на драйве"
👍9😁8🔥4
Дашборды и японская кухня
На просторах интернета можно найти примеры интерфейсов и дашбордов с закруглениями сетки. Надо так делать в дашбордах или нет? Биайщики обычно выбирают классику - прямоугольники.
Сейчас закругления сетки можно нативно регулировать в некоторых BI инструментах. То есть, добавляют эту функцию специально. Для Tableau анонсировали в этом году, а раньше приходилось серьёзно потратить времени и нервов. Как делать сетку с закруглениями.
Делал такой дизайн в дашборде "Glassdoor US Data Analyst Jobs" и в "IT Vacancies"
Тип дизайна называетcя "Bento". Слово пришло из японской кухни, где Bento (Бэнто) называют порцию упакованной еды. Бэнто с японского переводится как "обед на одного". Еда находится в контейнере с ячейками с закруглёнными углами (один из типов). Бэнто широко распространены среди школьников как обед, который можно нести с собой.
Искусство подбора продуктов и изготовления бэнто занимает почётное место в жизни японцев. Тщательно выбираются продукты, чтобы пища была сбалансированной ,вкусной и соблазнительной, ведь намного приятней есть красиво оформленную еду.
Прослеживается аналогия с дашбордами. Готовить дашборды, которые каждый день хочется открывать и исследовать, довольно сложно. Начиная от концепта, подбора метрик и смыслов графиков, дизайна, серьёзной разработки до поддержки. Каждая ячейка - свой смысл. Можно потратить месяцы только дизайна, разработки и поиска оптимальной концепции. Далеко не всякая компания инвестирует ресурсы в такие задачи. Но если вы делаете дашборды, котрые хочется съесть, и они работают на проде - это серьёзный уровень и вас, как специалиста, и компании, инвестирующей время и ресурсы.
На просторах интернета можно найти примеры интерфейсов и дашбордов с закруглениями сетки. Надо так делать в дашбордах или нет? Биайщики обычно выбирают классику - прямоугольники.
Сейчас закругления сетки можно нативно регулировать в некоторых BI инструментах. То есть, добавляют эту функцию специально. Для Tableau анонсировали в этом году, а раньше приходилось серьёзно потратить времени и нервов. Как делать сетку с закруглениями.
Делал такой дизайн в дашборде "Glassdoor US Data Analyst Jobs" и в "IT Vacancies"
Тип дизайна называетcя "Bento". Слово пришло из японской кухни, где Bento (Бэнто) называют порцию упакованной еды. Бэнто с японского переводится как "обед на одного". Еда находится в контейнере с ячейками с закруглёнными углами (один из типов). Бэнто широко распространены среди школьников как обед, который можно нести с собой.
Искусство подбора продуктов и изготовления бэнто занимает почётное место в жизни японцев. Тщательно выбираются продукты, чтобы пища была сбалансированной ,вкусной и соблазнительной, ведь намного приятней есть красиво оформленную еду.
Прослеживается аналогия с дашбордами. Готовить дашборды, которые каждый день хочется открывать и исследовать, довольно сложно. Начиная от концепта, подбора метрик и смыслов графиков, дизайна, серьёзной разработки до поддержки. Каждая ячейка - свой смысл. Можно потратить месяцы только дизайна, разработки и поиска оптимальной концепции. Далеко не всякая компания инвестирует ресурсы в такие задачи. Но если вы делаете дашборды, котрые хочется съесть, и они работают на проде - это серьёзный уровень и вас, как специалиста, и компании, инвестирующей время и ресурсы.
🔥8👍3❤2