This is Data

Ребят, сегодня первое апреля так-то. Я тут на минутку задумался. А чего тут все собрались? Почему вы подписались на мой канал?

Anonymous Poll

23%

Потому что я гик аналитики, люблю статьи, книги и делать умный вид в баре.

Однажды я здорово облажался, теперь изучаю чужие факапы, чтобы облажаться с научным подходом.

25%

Искал работу, мечтал быть «Data Analyst at Google», а в итоге работаю «Data Intern at Дядя Ваня».

25%

Слежу за трендами и новостями, чтобы знать, когда ИИ заменит меня и можно будет не работать.

12%

Случайно нажал «подписаться», а отписаться стыдно – вдруг ты заметишь.

11%

Меня ты не раскусил, я тут не просто так. Всё расскажу в комментариях... или нет.

❤9

330 voters3.46K views08:34

This is Data

Продолжаем разбирать пирамиду метрик. В прошлых постах я рассказывал про верхний слой — бизнес-метрики, а также отдельно объяснял, как из GMV получается чистая прибыль Net Profit.

Сегодня переходим на следующий уровень — слой маржинальности. Это важный пласт, который отвечает за понимание финансовой устойчивости бизнеса. Здесь уже не просто «сколько через нас прошло денег», а «насколько эффективно работает модель» и «что реально остаётся после всех расходов».

Метрики маржинальности делятся на два типа:

▪️PnL-метрики,
▪️метрики юнит-экономики.

Сегодня подробно остановимся на первом — PnL (Profit & Loss). Да-да, это те самые строки из отчёта о доходах и расходах, которые обычно подготавливают финансисты. И хоть они могут показаться сухими, именно в них отражается реальное состояние бизнеса. Я бы даже сказал, что это ключевые метрики, а всё остальное крутится вокруг них, как стартаперы вокруг инвестора.

Некоторые показатели из PnL пересекаются с верхним уровнем пирамиды. Например, Revenue, Net Profit, EBITDA — они фигурируют и в бизнес слое, и в PnL. Это не ошибка: на бизнес-уровне они нужны для стратегического фокуса, а на уровне маржинальности — для более глубокого понимания, что стоит за цифрами.

К посту я прикрепил пример, как может выглядеть PnL-отчёт, и какие статьи в нём обычно бывают.

Также стоит упомянуть про терминологию. В ней часто возникает путаница, особенно при переводе с английского на русский. Например, Revenue и Income иногда используют как синонимы. Это не критично, если внутри вашей команды есть договорённость о терминах. Но если вы готовите отчётность по международным стандартам (IFRS/МСФО), тогда все определения должны строго соответствовать принятым формулировкам.

В следующем посте поговорим о метриках юнит-экономики. А пока — посмотрите на свой PnL свежим взглядом: он может многое рассказать о бизнесе.

#разбор_метрик #метрики

🔥15👍10❤1

3.97K views13:15

This is Data

В прошлый четверг случайно наткнулся на онлайн-лекторий Института биоинформатики «Разрушители статистических мифов». Да-да, тот самый институт, где Анатолий Карпов читал легендарный курс по статистике.

Лекция, на которую попал, называлась: «Ненормальное распределение требует ненормальных решений». Говорили о том, откуда взялись проверки на нормальность, какие там есть тонкости и как с этим работать на практике.

Почему нельзя пользоваться простыми алгоритмами для выбора стат.теста? Что же такое p-value, и чем оно не является? Нужно ли всегда проверять данные на нормальность? Эти и другие живые вопросы — в центре обсуждения.

Если вам близка тема статистики — рекомендую. Лекторий бесплатный и онлайн, делюсь ссылкой на прошедшие лекции.

❤41🔥1

4.79K views15:11

This is Data

Когда-то родившаяся как курс по математическим методам для студентов-психологов, эта забавная книга легко объясняет основы анализа данных. Если вы умудрились пропустить легенду, то самое время исправить это.

📚 Статистика и котики
Автор: Владимир Савельев

Книга сильно выделяется на фоне любых работ по статистике. Автор пишет просто, честно и весело. Короткие, но содержательные абзацы перемежаются схемами с котиками — все как мы любим, еще и на 153 страницах. Это, как сладкий сироп в составе лекарства, облегчает погружение в суровые основы анализа данных: меры центральной тенденции и изменчивости, визуализацию данных, меры различий для несвязанных и связанных выборок, математическое моделирование, дисперсионный, корреляционный и другие методы анализа. В конце приведены примеры из практики и алгоритмы работы в статистических пакетах.

Чего нет в книге — это формул и математических выкладок. Автор намеренно опустил всю теорию, чтобы больше читателей смогли понять материал. Поэтому хардкорным дата-аналитикам лучше поискать курс по статистике и теории вероятности, обращаясь к «Котикам» как к удобному конспекту.

🔗 Книга продается везде, например на OZON.

На днях на том же OZON увидел, что Владимир выпустил новую книгу «Бизнес, статистика и котики». Там он не только объясняет статистические методы, но и показывает, где и как применять их на примерах на языке R. Если вы читали первую книгу, то вот еще одна на выходные.

#книга

❤29🔥9👍3👎1

3.44K viewsedited 12:54

This is Data

Этот шаг спасет твою аналитику (и карьеру)

Классический кейс. К аналитику прибегает продакт с горящими глазами: «Срочно нужно посчитать метрики, отчет нужен вчера, босс ждет!». Аналитик лезет в сырые данные, быстро собирает дашборд… и всё. Ни тебе проверки распределений, ни поиска выбросов, ни визуализации. Продакт на следующий день презентует эти цифры как истину в последней инстанции. А потом на них строятся бизнесовые решения…

Так делать нельзя. Никогда.

Исследовательский анализ данных (EDA — Exploratory Data Analysis) — это первый и обязательный шаг перед тем, как ты начнёшь считать метрики, строить модели или делать выводы. Он помогает понять, с чем ты на самом деле работаешь, выявить ошибки и аномалии, а самое главное, не попасть в ловушку красивых, но ложных цифр.

Особенно критично это в машинном обучении. Когда ты обучаешь модель на плохих данных, хороший результат невозможен в принципе. В этом смысле работает железное правило: garbage in — garbage out.

Что входит в EDA?

✔️ Осмотр данных. Сколько строк? Какие типы колонок? Что выглядит странно? Уже на этом этапе можно поймать очевидные ошибки. Используй .info(), .describe(), загляни в начало и конец таблицы, проверь типы.

✔️ Пропуски и дубликаты. Пропуски не всегда нужно удалять — иногда лучше заполнить их медианой, модой или предсказанными значениями. А дубликаты — это не только точные копии строк. Часто бывают неявные: например, у одного пользователя два одинаковых заказа с разными ID.

✔️ Очистка и предобработка. Проверка категориальных значений, работа с форматами, единообразие записи. Например, если у тебя в колонке есть и «Санкт-Петербург» и «СПБ» и «Питер», то без нормализации это три разных значения. А если даты хранятся как строки — ты не сможешь нормально их анализировать.

✔️ Выбросы и аномалии. Просто посчитать среднее недостаточно. Построй распределение, используй boxplot. Эти графики мгновенно покажут, где данные выбиваются за границы нормы. И не забывай: один выброс может испортить тебе весь анализ.

✔️ Визуализация. Даже простой scatter plot может рассказать тебе гораздо больше, чем набор агрегатов. Иногда взаимосвязь между переменными становится очевидной только когда ты её увидишь, а не посчитаешь.

EDA — это не про «поковыряться в данных». Это про понять, что ты анализируешь, и быть уверенным в своих выводах. Это защита от ошибок, которые ты даже не успел заметить.

В следующих постах я постепенно разберу каждый из этапов подробнее. А также поделюсь универсальным ноутбуком для проведения EDA. Так что добавляй в закладки 😉

#eda

🔥63❤17👍6🤔2

3.23K views11:47

This is Data

Недавно услышал здравую мысль: вместо того, чтобы листать рилсы, лучше читать книгу. Хоть идея и простая, следовать ей непросто. У меня получается через раз, но за эти разы я прочитал крутые книги. Из них я выбрал варианты на праздники для тех, кто тоже решит менять привычки.

Буду рад, если порекомендуете ваши книги-фавориты в комментах 😊

📚 Джедайские техники. Как воспитать свою обезьяну / Максим Дорофеев
Это книга даст направление, куда бежать, когда мы выгорели и потеряли мотивацию. Максим не изобретает техники управления задачами, а скорее собирает исследования о продуктивности и работе мозга воедино. Он объясняет, почему мы откладываем дела и куда девается энергия. Автор не насаждает методики, а предлагает экспериментировать с ними и адаптировать под себя.

Максим знает все о прокрастинации в IT. Он погружен в разработку ПО уже 15 лет и с 2013 года ведет тренинги о продуктивности.
🔗 Книга есть на Ozon.

📚 Ясно, понятно. Как доносить мысли и убеждать людей с помощью слов / Максим Ильяхов
Помните оранжевый томик «Пиши, сокращай» в книжных? Так вот это продолжение. Оно не про текст и правильные слова, а про коммуникацию и донесение мыслей. После прочтения ты понимаешь, как работает пропаганда и масс-медиа, почему все заснули во время твоей презентации и как объяснить, наконец, бабушке, кем ты работаешь.

Максим Ильяхов — редактор и преподаватель редактуры. Он умеет увлечь читателя, даже самого далекого от текстов.
🔗 Книга на Литрес.

📚 Вдохновленные. Все, что нужно знать продакт-менеджеру / Марти Каган
Автор, эксперт в мире продуктового менеджмента, создал практическое руководство по созданию успешных продуктов. Его главный посыл в том, что команды должны сфокусироваться на потребностях пользователей. Лучшие продукты рождаются не из «идей сверху», а из постоянных экспериментов и тесной связи с пользователем.

После прочтения я стал постоянно спрашивать себя: «А эта фича точно нужна людям?» Такой вопрос помогает чистить бэклог от неактуальных идей.
🔗 Книга на Литрес.

#книга

🔥21👍7👎1

3.12K views11:54

This is Data

Итак, подъехали итоги апрельских статей.

Открывает список материал от Егора Стремоусова, тимлида продуктовых дизайнеров в Т-Банке. Он рассказал об управлении проектами и оптимизации времени выполнения задач. Пусть тематика дизайна вас не смущает. Статья в первую очередь освещает организацию работы по методу Канбан и важнейшие метрики процесса. Ключевая из них — Lead Time. Это время выполнения задачи от точки принятия обязательств до их исполнения. Материал будет полезен любому тимлиду, у которого в управлении есть хотя бы 2 человека.

Во второй статье мы углубимся в А/Б-тестирование. Аналитики данных из Х5 Tech сравнили байесовский и частотный подходы и проверили миф о том, что байесовский подход лучше. Спойлер — не лучше. Например, ранняя остановка теста приводит к одинаковым результатам и в байесовском, и в частотном подходах. Для аргументации ребята предоставили графики и вычисления на Python. Материал сложный, но чем чаще пытаешься разобраться в таких темах, тем легче. Проверено.

Последняя статья-эссе о LLM. Нa Medium, кажется, только ленивый не написал про ИИ. Но пост от Dave Feldman об ИИ для продактов меня тронул. Дело в том, что я активный пользователь ИИ-чатов. Поэтому у меня сложилось обманчивое ощущение, что все давно делают так же. Но нет. Оказалось, что многие мои знакомые открывают чаты крайне редко, а кто-то и вовсе яро отвергает их. Так что я решил поделиться мнением, которое близко мне. ИИ-чаты — изобретение революционное и крайне дружелюбное для новичков. Оно помогает оптимизировать большое количество рутины и быстрее погружаться в сложные области. В статье автор, будучи продактом, простым языком объясняет их устройство, применение и недостатки. По ходу прочтения зверь становится понятным и от этого нестрашным. Так или иначе, никто не может принудить вас использовать ИИ-чаты. Я только предлагаю дать им шанс послужить вам во благо.

Ребят, я ухожу в отпуск до середины мая. Удачных праздников и поменьше стресса!

#дайджест

👍19❤4

3.41K views11:00

This is Data

Как выжить после отпуска?

Ты выходишь на работу после отпуска — а там полный 🤬
Чаты горят, почта завалена, задач столько, как будто всё это время офис ждал именно тебя.
От всего тошнит, руки не слушаются, мозг кричит: «БЕГИ ОТСЮДА!».

Но ты не бежишь. Потому что ипотека. Потому что семья. Потому что кот, который жрёт дорогой корм.
Потому что тебе уже не 22, а мечты вроде бы есть, но реализация где-то там, на горизонте.
Короче, грустный реализм. Надо собраться и делать.

Но как быть, чтобы не снесло крышу?

✔️ Не геройствуй
Ты не обязан в первый же день после отпуска спасать бизнес.
Возьми простую, небольшую задачу и сделай её. Потом ещё одну. Тогда может быть, появится ощущение контроля.
Не надо бросаться в огонь сразу. Это не кино.

✔️ Признай, что тебе тяжело
И это нормально. Твоя психика только что жила в режиме «лежу, пью чай, смотрю закаты».
А теперь: open space, встречи, задачи, срочность, движ. Это стресс.
Просто перетерпи. Через пару дней станет легче.

✔️ Не перерабатывай
Работа допоздна — не подвиг, а короткий путь к выгоранию.
Если ты не успел за 8 часов — вряд ли успеешь за 9 или 10.
Значит, где-то перегруз: процессы не работают, задач много, встреч ещё больше.
В этом нет твоей вины, но есть место для рефлексии.

✔️ Помни, на что уходит твой ресурс
Работа не управляет твоей жизнью. Это ты выбираешь, куда отдаёшь своё внимание.
В первую очередь — позаботься о себе, а уже потом о входящих задачах.

Как вы уже поняли — я вернулся из отпуска 😅
Разгребаю завалы, снова пишу и включаюсь в рабочий ритм. Постепенно, без перегибов.

А у вас как обычно проходят первые дни после отпуска или длинных выходных?
Какие приёмы помогают прийти в себя?

#мысли

❤35💯6👍2

3.25K views07:26

This is Data

Продолжаем препарировать пирамиду метрик. В прошлый раз речь шла про слой маржинальности — в том числе про PnL-метрики, на которые обычно смотрят самые серьёзные ребята в компании: инвесторы, фаундеры, CEO и CFO. Но слой маржинальности на этом не заканчивается — рядом с PnL живут метрики юнит-экономики, и сегодня о них.

Юнит-экономика помогает понять, насколько жизнеспособна ваша бизнес-модель на уровне одного юнита — клиента, заказа или товара. Это система координат, по которой вы сверяете, можно ли масштабировать бизнес и не утонуть в расходах.

Вот ключевые метрики:

▪️ ARPU (Average Revenue Per User) — средняя выручка с одного пользователя. Считается по всей базе, включая тех, кто ни разу не заплатил. Полезно для оценки общей монетизации.

▪️ARPPU (Average Revenue Per Paying User) — средняя выручка с тех, кто реально платит. Позволяет понять, сколько зарабатываете на тех, кто уже сконвертировался.

▪️CAC (Customer Acquisition Cost) — стоимость привлечения одного нового клиента. Включает маркетинг, рекламу и другие расходы на привлечение.

▪️LTV (Lifetime Value) — суммарная прибыль, которую вы ожидаете получить от одного клиента за всё время его жизни с продуктом.

▪️LTV / CAC Ratio — ключевой показатель окупаемости модели.

Если LTV/CAC < 1, можно выключать рекламу — вы сжигаете деньги.

Если = 1, вы просто окупаете маркетинг, но не покрываете зарплаты, ПО, офис и прочие расходы — то есть работаете в минус.

Только при LTV/CAC > 3 можно говорить, что модель работает устойчиво.

При этом важно понимать: LTV может быть ниже CAC, если вы, например, намеренно завоёвываете рынок, растёте в убыток под инвестиции или у вас такая стратегия. Главное — чтобы это было осознанно, а не «так получилось».

Юнит-экономика важна не только стартапам, как многие думают. Она критична для любых бизнесов, где есть клиенты и платный маркетинг. Потому что именно на этом уровне становится понятно, не слишком ли дорого вам обходится каждый следующий пользователь, и будет ли масштаб приносить прибыль или убытки.

Так что, если PnL — это общий снимок по компании, то юнит-экономика — это тот самый фундамент, на котором всё держится.

#разбор_метрик #метрики

👍29❤1

2.94K views11:55

This is Data

Конференции — нужны ли они?

80% контента на конференциях — это, уж простите, вода. Красивые слайды, громкие слова и кейсы, которых спикер в жизни не делал. Главное — произвести впечатление, а не поделиться опытом. Вот и получается: ты пришёл за мясом, а получил соевый заменитель.

Я был на десятках конф и чаще всего уходил с ощущением: «ну ок». Много слов, мало сути. Маркетинг поверх контента.

Но не всегда так. Бывают и бриллианты — когда человек, который реально что-то делал, проваливался, вытаскивал, и не боится об этом говорить. Такие выступления — как глоток воды в пустыне. Жаль, редко.

Самое ценное, что я слышал было не на внешней сцене, а на внутренних митапах в компаниях. Конференции для своих. Вот где мясо. Люди в контексте, без маркетинга, без желания «продать себя». Честно рассказывают, как было. И да — выносить это во внешку нельзя, слишком откровенно.

А зачем тогда ходить? Сейчас для меня конференции — это про людей. Перекинуться словом с теми, кого уважаешь. Найти нормальных ребят в команду. Обсудить рабочие боли.

Ради контента — не хожу. А вот свою команду — отправляю. Для них это часто полезно: посмотреть, что есть за пределами команды, набрать идей, получить заряд. И как формат поощрения — тоже норм.

А как вы относитесь к конференциям?

#мысли

💯32❤4🤯2

2.59K views12:51

This is Data

Ждали майские статьи? Так они уже в ленте. Сегодня разбираемся с базами данных, изучаем очередное применение LLM и анализируем аргументы в пользу data-driven.

Начнем с баз. Вы задавались вопросом, нафига столько разных хранилищ? Как будто хватит и одной многофункциональной, чтобы хранить данные и обращаться к ним (на рынке такие есть). Давно хотелось найти источник, который бы дал классификацию баз и подсказал, какую следует использовать в конкретном случае. И недавно мне попалась такая статья на Medium (VPN) от дата-инженера Кая Перри-Джонса. Он выделил девять типов баз данных, дал основную характеристику каждого типа, привел примеры продуктов и высказал мнение, для каких задач они подходят. Но несмотря на обилие вариантов, универсальным хранилищем остается PostgreSQL.

Вторая статья пришла из Хабра. Виталий Кулиев, Data Science Tech Lead из Wildberries & Russ, поделился интересным вариантом матчинга товаров с помощью больших языковых (LLM) и визуально-языковых (VLM) моделей. Матчинг — это поиск идентичных товаров. Благодаря ему пользователи маркетплейсов не утонули в сотнях дубликатах от разных продавцов. Команда внедрила LLM на этапах извлечения и сравнения атрибутов и подключила VLM к матчингу по изображениям. В результате увеличилась точность распознавания товаров до 92–96%, а количество примеров для подбора промта снизилось до сотни в разметке.

Завершает список статья-эссе на тему, почему важно внедрять data-driven подход при построении бизнеса, от руководителя направления в KION Алексея Жирякова, евангелиста data-driven. С его точки зрения, это не просто тренд, а способ делать бизнес эффективнее благодаря точному прогнозированию, оптимизации процессов и пониманию потребностей клиентов. Алексей рассказывает, как устроен data-driven подход в KION, где все продуктовые фичи идут в прод только через A/B-эксперименты, и приводит примеры из практики Netflix, Starbucks и отечественного финтеха. Читать интересно, аргументы убедительные.

#дайджест

🔥8❤3👍3

2.56K views06:39

This is Data

С чего начинается хорошая аналитика?

В прошлом посте я рассказывал, почему без EDA нельзя делать ни аналитику, ни машинное обучение. Даже если продакт стоит над душой и требует цифры «ещё вчера». Теперь давай разберём первый и самый недооценённый шаг в исследовательском анализе: осмотр данных.

Представь, что ты лезешь в базу и... сразу пишешь groupby() или строишь график? Это ловушка. Начинать нужно не с расчётов, а с банального знакомства с тем, что у тебя вообще в руках. Осмотр данных — это как включить свет в темной комнате. Сразу видно, где пыльно, а где стоит тумбочка, об которую легко споткнуться.

Первым делом смотри на объем данных: df.shape покажет, сколько строк и колонок. Иногда там вообще пара десятков строк — и это уже повод позвать дата-инженера.
Дальше — названия колонок. Через df.columns можно заметить лишние пробелы, странные символы, дубли названий. Здесь же удобно сразу стандартизировать названия: убрать русские слова и привести к единому стилю ("snake_case" ван лав). Такие вещи не бросаются в глаза, но потом ломают пайплайн.

Теперь — в бой идет df.info(). Это твой лучший друг. Он покажет:

▪️какие типы данных у колонок,
▪️сколько ненулевых значений,
▪️сколько памяти жрёт датафрейм.

Обрати внимание: если в колонке написано, что у неё 80 000 непустых значений, а в df.shape[0] у тебя 100 000 — значит, 20% пропусков. Это серьёзно.
Ещё один лайфхак: если колонка выглядит пустой, но info() говорит, что там всё заполнено — проверь, не строки ли там вроде " " или "None". Это визуальные, а не настоящие пропуски. Так что df.replace() тебе в помощь.

Если всё типы данных соответствуют ожиданиям — отлично. Если нет — можно наткнуться на неприятности. Например, object вместо чисел или дат — и ты не сможешь нормально группировать, фильтровать, делить на категории. В таких случаях сразу меняй тип или уточняй источник.

Следом подключай df.describe(). Это быстрый способ понять, как «живут» числовые данные. Сравни среднее и медиану — это может подсветить асимметричное распределение. Проверь минимум и максимум — там часто сидят выбросы или ошибки: отрицательные значения там, где их быть не должно, нули в колонке с деньгами, тысячи категорий у рейтинга от 1 до 5.

Дополнительно пригодится .nunique(): иногда колонка кажется категориальной, а там каждый второй элемент уникален. Это уже почти ID, и скорее всего — не то, что ты хотел анализировать.

И не забывай смотреть глазами. df.head(), df.tail() — быстрый способ поймать неявные проблемы. Например, даты, которые лежат строками. Или списки внутри ячеек. Или дубли с разницей в один символ. В табличке может быть много неожиданного — особенно если её собирали в два этапа, три человека, а выгружал четвёртый.

Осмотр данных — это про внимательность и здравый смысл. Здесь ты ловишь грубые баги, структурные проблемы и мусор, который может незаметно утащить твою аналитику не туда. А ещё — экономишь себе кучу времени, потому что не придется всё переделывать после того, как уже построен отчёт.

В следующем посте поговорим про пропуски и дубликаты. Ставь лайк, если тема интересна.

#eda

👍71❤13👎1🔥1

3.02K views11:04

This is Data

Если бездумно обобщить данные из разных групп, то можно наткнуться на парадокс Симпсона или «парадокс объединения». Это ситуация, когда тенденция, наблюдаемая в нескольких группах данных, исчезает или меняется на противоположную при объединении этих групп. В итоге общий результат противоречит результатам в подгруппах из-за разного влияния неучтенных скрытых переменных.

Парадокс был упомянут Карлом Пирсоном в 1899 году и Удни Юлом в 1903 году, но Эдвард Симпсон был первым, кто описал его с точки зрения статистики в 1951 году. Позже математик Колин Блайт в статье «On Simpson’s Paradox and the Sure-Thing Principle» увековечил имя статистика, введя термин в обращение. Под постом я прикрепил пару статистических статей для любителей копнуть поглубже.

Загвоздка с парадоксами всегда в том, что никогда не знаешь, где наткнешься на них. Например, посмотрим на статистику выживших при крушении Титаника среди пассажиров третьего класса и членов экипажа. Если анализировать общее количество выживших (верхняя таблица на картинке), то их процент в обеих группах будет около 24%. Кажется, обе категории пассажиров имели одинаковые шансы спастись.

Теперь давайте проанализируем нижнюю таблицу, где учтены пол и возраст людей. Выживаемость членов экипажа была выше как среди мужчин, так и среди женщин и детей. Более того, мы видим соблюдение принципа «Женщины вперед» — женщин и детей в обоих сегментах спаслось больше, чем мужчин.

Возникает кажущееся противоречие. Суммарные данные разных групп показывают, что шансы остаться в живых у экипажа и пассажиров равны. Но учет скрытых переменных, таких как пол и возраст, показывает, что экипажу повезло больше.

Парадокс Симпсона напоминает нам, как важно проводить анализ как объединенных данных, так и отдельных групп. Не стоит делать выводы по выборочным показателям, если на ключевую метрику влияют несколько факторов. Понимание парадокса убережет от неверных выводов, в том числе при A/B-тестировании.

#аномалии

👍29🤔5❤2✍1

2.54K views14:40

This is Data

Я тут задумал посты про ИИ и зачем они нужны обычному работяге-аналитику.

Интересно узнать, общаешься ли ты с ИИ-чатом (ChatGPT, YandexGPT, DeepSeek и тп) по работе или это очередной хайп?

Anonymous Poll

19%

Общаюсь?! Да он за меня половину задач закрывает.

38%

Общаюсь почти каждый день: спрашиваю его мнение и доверяю рутинные задачи с пост-редактурой.

31%

Обращаюсь пару раз в неделю, чтобы написать письмо или задать вопрос. Сложные задачи не доверяю.

11%

Не общаюсь, но, может, однажды начну.

Не общаюсь и не планирую — не вижу в этом пользы.

426 voters1.89K views06:44

This is Data

Что там с ИИ-грамотностью?

Когда из каждого утюга кричат об искусственном интеллекте, мнение части IT-специалистов цепляет внимание. Я говорю об ИИ-нигилистах, которые принципиально не используют ИИ-чаты, считая, что они поощряют лень. Позиция крайне радикальная, и подсознательно хочется возразить: «А как же автоматизация рутинных задач, например, написание рабочих текстов?»

Другая крайность удивляет не меньше. Некоторые люди настолько поверили в ИИ, что перестали вникать в задачи. Такие ребята приходят на собеседование по лайв-кодингу, без стеснения открывают ChatGPT и спрашивают ответы у чата. Они не пытаются разобраться в проблеме, не знают синтаксиса и не хотят думать.

Истина, видимо, посередине двух крайностей. ИИ активно внедряется в мире. Навык работы с ним — один из самых востребованных на рынке. Ряд компаний отмечает рост ROI и Revenue после внедрения ИИ, тогда как другие ожидают такого же эффекта в ближайшие годы. ИИ-компетенция становится базовой для дата-аналитиков и продуктовых менеджеров, как Excel, Python или SQL. Без понимания работы ИИ мы рискуем лишиться карьерных перспектив.

Сейчас хайп спадает, и в будущем мы будем слышать более конструктивную информацию об ИИ-технологиях: уменьшится число антиутопических предсказаний, поубавится оптимизм, вскроются трудно преодолимые ограничения. Но то, что технология модифицирует нашу работу, можно говорить вполне однозначно.

ИИ-грамотность не сводится к одной только болтовне с ChatGPT. Но подобные чаты — самый простой инструмент для практики общения с ИИ. Там мы учимся корректно ставить задачи и критически оценивать ответы. Кроме того, ИИ-чаты — это универсальный интерфейс доступа к ИИ, как командная строка — к компьютеру. Знание ИИ без владения его интерфейсом кажется сомнительным.

Я не отношусь к гиперактивным пользователям, но я признаю, что ИИ-чаты очень помогают разгребать рутину и находить оптимальные решения. Поэтому я за повышение ИИ-грамотности.

#мысли

👍25🔥3❤2🤔1🤯1

1.88K viewsedited 11:59

This is Data

Продолжаем путешествие по пирамиде метрик. Мы уже побывали на вершине — там, где живут бизнес-цели. Затем заглянули на самый серьезный слой пирамиды — слой маржинальности. А теперь пришло время наиболее насыщенного и живого уровня — продуктового.

Продуктовый слой отвечает на главный вопрос: насколько хорошо мы решаем задачи пользователя и при этом не теряем связь с бизнес-стратегией?

Здесь обитают три важнейших аспекта: лояльность, ценность и качество продукта:

▪️лояльность показывает, останется ли клиент с нами надолго;
▪️ценность — насколько мы полезны клиенту;
▪️качество — какой пользовательский опыт мы создаем.

На разных стадиях развития компании фокус может смещаться: стартапы гонятся за ценностью, зрелые бизнесы начинают оптимизировать качество и удержание. Но в идеале — все три работают в связке.

Сегодня копнем в первый блок — лояльность.

Итак, лояльный клиент — это не просто довольный. Это тот, кто:

✔️среди конкурентов выбирает именно вас;
✔️платит и возвращается;
✔️и самое ценное — советует продукт друзьям.

Лояльность можно измерять разными способами — от простого к сложному:

📍 Метрики удовлетворенности

▪️NPS (Net Promoter Score) — «А порекомендуете ли вы нас своему другу?»
▪️CSI (Customer Satisfaction Index) — общий уровень удовлетворенности.

Оба показателя — из опросов. И да, важны не только сами цифры, но и динамика: падает ли NPS после обновления или CSI растет после улучшения сервиса?

📍 Метрики вовлечения

▪️Churn Rate — доля клиентов, которые ушли.
▪️CRR (Customer Retention Rate) — доля тех, кто остался.

Формулы простые, но внимание к деталям — обязательное. Период, активность, возвраты — всё это влияет на корректность.

📍 Скоринговая модель лояльности

▪️Мы собираем набор фичей, которые отражают поведение клиента: сколько раз он заходит, как активно пользуется продуктом, участвует ли в дополнительных активностях.
▪️На основе фичей можно построить скоринговый балл и даже предсказать отток до того, как он случится.

Это самый продвинутый способ. Такая модель уже не просто показывает, кто лоялен, а помогает действовать на опережение.

Метрики лояльности — это основа для выстраивания долгосрочных отношений с клиентом. Без лояльности продукт может расти вширь, но вряд ли — вглубь. А значит, чтобы построить устойчивый бизнес, именно с этих метрик и стоит начинать.

#разбор_метрик #метрики

1👍11❤3💯2👎1

1.95K views12:38

This is Data

Планировал сегодня выложить пост про LTV — что это за метрика, какие бывают подходы к расчёту, чем отличается когортный от прогнозного.

Но пока писал — наступил вечер, а пост так и не закончен 🙃

Поэтому выкладываю фото кота. Потому что пятница.
Если у вас есть домашние питомцы — кидайте в комменты, пусть сегодня будет просто мило.

#пятница #кототерапия

❤21🔥8😁7🦄3

1.93K views15:39

This is Data

Июнь закончился, и я готов поделиться, что интересного мне повезло прочитать за месяц.

Начну со знакомого автора — Павла Левчука. В этот раз он разобрал построение дерева метрик на Medium (VPN). Это иерархическая декомпозиция метрик верхнего уровня на дочерние, чтобы показать, как низкоуровневые измеримые показатели влияют на бизнес-цели. Павел обозначил подводные камни на первый взгляд простого разложения бизнес-метрик и рассказал, когда деревья помогают аналитику, а когда — лишь сбивают с толку. Например, декомпозиция может не учитывать внешние факторы, такие как сезонность или изменения в экономике, которые влияют на все показатели в цепочке. При работе с таким деревом мы не можем делать адекватные выводы о поведении верхнеуровневых метрик.

Далее предлагаю приподнять капот и посмотреть на внутренности LLM-агентов — программных систем на основе больших языковых моделей, способных самостоятельно решать, какие действия предпринимать для достижения поставленной цели. Кирилл Филипенко из Selectel в блоге на Хабр рассказал, из каких частей они состоят, как планируют свои действия, как хранят информацию и общаются с внешними инструментами. Мне понравилось, как понятно автор объяснил подходы планирования действий Chain-of-Thought, ReAct и Tree-of-Thoughts, а также затронул работу памяти и function calling.

Завершает топ статья о A/B-тесте и заблуждениях вокруг него. Диля Хакимова из Яндекс Go развеяла 10 мифов об A/B-тестировании и разложила варианты решений возникающих проблем по полочкам. В фокус попали мифы об агрегации данных, статистических тестах, метриках и проведении экспериментов. В заключение автор напоминает, что, хотя тема не новая и часто обсуждаемая, возвращаться к ней надо. Подобные упущения ведут к серьезным просчетам и противоречат идее принятия решений на основе объективных данных. Ну как с этим не согласиться!

#дайджест

👍18🔥4❤1👎1

2.17K views06:49

This is Data

Metrics matter! Поэтому я не перестану грузить вас постами с их разбором. Сегодня в фокусе — скользкая метрика LTV.

Lifetime Value (LTV), она же CLV или CLTV (Customer Lifetime Value) — метрика, которая показывает, сколько денег в среднем заработает бизнес с клиента, пока тот не прекратит пользоваться услугами: отменит подписку, перестанет делать покупки и др.

LTV пришел из маркетинга прямого отклика. Еще в 1980-х компании осознали, что не все клиенты одинаково ценны. Привлечение новых стоит денег, и если человек исчез после первой покупки, компания понесет убыток. Тогда бизнес сосредоточился на удержании клиентов и стимулировании повторных покупок, чтобы сократить затраты на поиск новых покупателей.

В интернете описаны миллионы способов расчета LTV. Самый простой приведен на слайде.

Если вы учитываете всех пользователей, то используйте ARPU. Но если вас интересует только платящий сегмент, то берите ARPPU. Разницу между метриками я объяснял в одном из прошлых постов.

Под Average Lifetime мы подразумеваем среднее время, в течение которого человек продолжает быть клиентом. Для простоты расчета используют обратную величину оттока Churn Rate. Главное, чтобы тот был стабильным и считался на месячной базе.

В этом подходе есть много минусов, например:
▪️не учитывается маржинальность;
▪️в будущем деньги будут стоить дешевле, чем сейчас;
▪️Lifetime весьма спорная метрика, имеющая множество допущений.

Почему с LTV всё сложно?
LTV — это оценка, основанная на предсказании поведения клиентов. Мы пытаемся просчитать длительность сотрудничества, изменения потребностей людей, действия конкурентов. Это выходная метрика, которая зависит от внешних факторов.

LTV требует качественных данных о доходах, маржинальности, оттоке и поведении клиентов. Если они неполные (например, из-за короткой истории продукта), расчёты будут ненадежными.

Простой расчет LTV работает лишь на этапе старта, когда у бизнеса нет модели оттока или когорного анализа. Для зрелых компаний актуальнее другие модели, учитывающие тип бизнеса, дисконтирование, когорты пользователей, модели монетизации. Более того, разные команды, например маркетинга или финансов, будут по-разному рассчитывать метрику. Отсюда вырастает разнообразие формул и подходов. О некоторых из них я расскажу далее.

#разбор_метрик #метрики

👍10🔥7❤3👎1

1.17K views11:04

This is Data

Дубликаты в данных: откуда берутся и почему с ними важно работать

Продолжаем говорить про EDA.

Один из частых источников искажений в аналитике — дубликаты. Они могут незаметно влиять на показатели: увеличивать количество пользователей, транзакций или заказов, создавать иллюзию активности и «раздувать» отчёты. Поэтому выявление и обработка дубликатов — обязательный этап в рамках EDA.

Дубликаты бывают двух типов:

▪️Явные — полные копии строк, где значения совпадают по всем колонкам. Их легко обнаружить с помощью df.duplicated() и удалить через df.drop_duplicates().

▪️Неявные — строки, которые описывают один и тот же объект, но отличаются по формату.

Например:
▪️"[email protected]" и "[email protected]"
▪️"ООО Ромашка" и "О.О.О. Ромашка"
▪️"Иванов И.И." и "Иванов Иван"

Такие дубликаты сложнее заметить, и с ними приходится работать вручную или через нормализацию данных.

Основные причины появления дубликатов:

▪️Повторная выгрузка или объединение таблиц без фильтрации.
▪️Ошибки при джойне.
▪️Разные источники с разной структурой.
▪️Отсутствие стандартизации ввода данных.
▪️Человеческий фактор (опечатки, лишние пробелы, регистр).

Что помогает:

✔️ Приведение строк к единому регистру .str.lower()
✔️ Удаление пробелов .str.strip() и лишних символов .str.replace()
✔️ Поиск дубликатов по ключевым колонкам с помощью duplicated(subset=...)
✔️ В отдельных случаях — предварительная агрегация или группировка

Лайфхак: duplicated(subset=...) особенно полезен, когда в таблице есть автоинкрементные ID. Такие поля делают строки уникальными, хотя по сути данные могут дублироваться.

Например, в датасете мы видим, что один и тот же пользователь почему-то сделал два одинаковых заказа — разный order_id, но одинаковые user_id, product_id и order_date. В этом случае duplicated(subset=['user_id', 'product_id', 'order_date']) поможет найти дубли, которые не видны при обычной проверке.

Перед тем как удалять строки, важно понимать контекст: действительно ли это дубли, или просто схожие, но разные записи. Особенно аккуратно нужно действовать в случае неявных дубликатов — иногда лучше провести дополнительный анализ, чем потерять важные данные.

Дубликаты — это не просто технический шум. Это риск искажения выводов, особенно в метриках, связанных с уникальными пользователями, заказами или событиями. Их стоит проверять в самом начале работы с данными.

В следующем посте — разберёмся с пропущенными значениями: от типовых NaN до «пустых» строк, которые такими не являются.

#eda

🔥20❤1

712 views11:02

2025/07/14 03:56:07
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>