Как аналитик я веду документацию по проектам в Confluence и Notion. Это самые популярные и удобные инструменты для организации и поиска информации, агрегации результатов АБ-экспериментов и исследований. Если Atlassian (разработчик Confluence) ушел еще в 2022 году, то Notion держался до последнего.
Но вот выходит новый пакет санкций, и 9 сентября Notion покидает Россию. Это означает блокировку российских аккаунтов. Новые пользователи не смогут зарегистрироваться, а платные подписки прекратятся без возврата средств. До 8 сентября включительно Notion дает время выгрузить данные и прилагает инструкцию.
Как поясняет тематический канал, аккаунты российских пользователей будут заблокированы на территории России, а не удалены. Пользователи смогут зайти в них при выезде в другую страну или через ВПН.
Но если вы хоть раз (сейчас или когда-либо в прошлом) оплачивали подписку на workspace с российских карт и указывали Россию в платежной информации, то оплаченное рабочее пространство будет удалено. Это касается и тех россиян, кто сейчас проживает за границей.
Что делать?
✔️ Выгрузить важные данные, если ты живешь в России или когда-то в прошлом оплачивал подписку из России. Советы по работе с сервисом после блокировки можно прочитать в том же канале.
✔️ Рассмотреть аналоги. Из зарубежных остаются, например, ClickUp и Obsidian. Но на фоне новостей об уходе компаний российский софт выглядит надежнее. Берем на заметку сервисы TEAMLY, Yandex Wiki, Weeek и Strive.
Я не успел поработать с российскими аналогами. Кто-нибудь знаком с ними? Посоветуйте, куда лучше мигрировать данные.
#новости #notion
Но вот выходит новый пакет санкций, и 9 сентября Notion покидает Россию. Это означает блокировку российских аккаунтов. Новые пользователи не смогут зарегистрироваться, а платные подписки прекратятся без возврата средств. До 8 сентября включительно Notion дает время выгрузить данные и прилагает инструкцию.
Как поясняет тематический канал, аккаунты российских пользователей будут заблокированы на территории России, а не удалены. Пользователи смогут зайти в них при выезде в другую страну или через ВПН.
Но если вы хоть раз (сейчас или когда-либо в прошлом) оплачивали подписку на workspace с российских карт и указывали Россию в платежной информации, то оплаченное рабочее пространство будет удалено. Это касается и тех россиян, кто сейчас проживает за границей.
Что делать?
✔️ Выгрузить важные данные, если ты живешь в России или когда-то в прошлом оплачивал подписку из России. Советы по работе с сервисом после блокировки можно прочитать в том же канале.
✔️ Рассмотреть аналоги. Из зарубежных остаются, например, ClickUp и Obsidian. Но на фоне новостей об уходе компаний российский софт выглядит надежнее. Берем на заметку сервисы TEAMLY, Yandex Wiki, Weeek и Strive.
Я не успел поработать с российскими аналогами. Кто-нибудь знаком с ними? Посоветуйте, куда лучше мигрировать данные.
#новости #notion
На слайде изображены два графика с одинаковыми данными. Однако выводы напрашиваются разные. На левом графике все филиалы показали похожий результат. Точка на юге немного лидирует, запад отстает, но не смертельно. Правый же график показывает драматичный разрыв между югом и западом. Как будто у западной точки есть проблема и ее нужно срочно решать.
Проблема действительно есть, но не у филиалов. Правый график содержит искажения, которых нет в левом. Ось ординат начинается не с нуля, а с отметки 40. Так делать нельзя, если вы намерены сравнивать данные. Кроме того, нет самой оси ординат, что усиливает ложный эффект.
Графики делают любой довод убедительнее. Это повод для манипуляции данными. Непорядочные менеджеры осознанно используют визуальные элементы, чтобы получить одобрение проекта или завысить показатели. Иногда искажения оказываются в графиках случайно по ошибке.
Альберто Каиро, глава кафедры визуальной журналистики в Университете Майами, выделил 5 категорий лжи при дизайне графиков в книге «How Charts Lie»:
1. График плохо спроектирован. Допущены ошибки в визуальных элементах.
2. Данные недостоверны. Источник не указан или ему нельзя доверять.
3. Данные неполные. График сильно упрощен.
4. Данные неточные. Величина погрешности измерений может быть большой.
5. Тренды на графике ведут к неправильным выводам.
График – это не простая иллюстрация, а визуально сформулированные аргументы. Как бы мы не старались сделать график легче для понимания, все будет зависеть от природы данных. Если история непростая, то ее визуализация будет объемной. Она потребует от читателя времени и сил для вдумчивого изучения.
Несмотря на искажения на правом графике, оба графика верны. Ошибка заключается в нашей интерпретации. Ведь в корректном понимании графика участвуют две стороны: дизайнер данных и читатель. Они оба в равной степени ответственны за интерпретацию. Поэтому как аналитик я всегда задаю себе два вопроса:
🔹Как создать правдивый график?
🔹Как правильно проанализировать и интерпретировать информацию?
#аномалии
Проблема действительно есть, но не у филиалов. Правый график содержит искажения, которых нет в левом. Ось ординат начинается не с нуля, а с отметки 40. Так делать нельзя, если вы намерены сравнивать данные. Кроме того, нет самой оси ординат, что усиливает ложный эффект.
Графики делают любой довод убедительнее. Это повод для манипуляции данными. Непорядочные менеджеры осознанно используют визуальные элементы, чтобы получить одобрение проекта или завысить показатели. Иногда искажения оказываются в графиках случайно по ошибке.
Альберто Каиро, глава кафедры визуальной журналистики в Университете Майами, выделил 5 категорий лжи при дизайне графиков в книге «How Charts Lie»:
1. График плохо спроектирован. Допущены ошибки в визуальных элементах.
2. Данные недостоверны. Источник не указан или ему нельзя доверять.
3. Данные неполные. График сильно упрощен.
4. Данные неточные. Величина погрешности измерений может быть большой.
5. Тренды на графике ведут к неправильным выводам.
График – это не простая иллюстрация, а визуально сформулированные аргументы. Как бы мы не старались сделать график легче для понимания, все будет зависеть от природы данных. Если история непростая, то ее визуализация будет объемной. Она потребует от читателя времени и сил для вдумчивого изучения.
Несмотря на искажения на правом графике, оба графика верны. Ошибка заключается в нашей интерпретации. Ведь в корректном понимании графика участвуют две стороны: дизайнер данных и читатель. Они оба в равной степени ответственны за интерпретацию. Поэтому как аналитик я всегда задаю себе два вопроса:
🔹Как создать правдивый график?
🔹Как правильно проанализировать и интерпретировать информацию?
#аномалии
Весь август натыкаюсь на новости об уходе американских компаний. Решил разобраться, откуда растут ноги. Причина (как всегда) в новых санкциях от Департамента финансов США.
12 июня вышел очередной пакет с пакетами, который запрещает IT-сервисам оказывать услуги российским компаниям, работающим на внутреннем рынке РФ. В частности, под санкции подпадают облачные сервисы, сервисы BI и хранилища данных. Перечень отраслей внушительный.
Санкции начнут действовать уже на следующей неделе в четверг 12 сентября. Одни компании, например Google BigQuery и Notion, отключат доступ в понедельник 9 сентября. Другие, например Microsoft, Hubspot и Miro, проработают до среды.
Если вы еще не импортозаместили (ну вдруг) аналитические процессы и хранение данных, то остается несколько дней на выгрузку информации.
Что отключат?
Google отключит BigQuery. При этом Google Workspace и Google Cloud продолжат работать. Более подробной информации пока нет. Новость сообщил партнер Microsoft в РФ Softline в приватном канале для клиентов.
Microsoft заблокирует доступ российским юридическим лицам к продуктам Microsoft 365 и Office 365 (за исключением некоторых автономных подписок). Под блокировку также подпадают службы Microsoft Azure: Data Explorer, Databricks, Managed Grafana, Operator Insights, Quantum, Synapse Analytics, Microsoft Fabric и Power BI Embedded. Заказчики не смогут вносить изменения или обновления.
Hubspot отключит аккаунты пользователей из России, а также заблокирует доступ к сервисам на территории РФ. Поддержка приложений в российских версиях магазинов будет прекращена. Новость упала на почту корпоративным пользователям.
Miro уходит в два этапа. С 12 сентября она заблокирует создание и редактирование досок для бесплатных и платных аккаунтов из России и Беларуси. В течении 30 дней доски можно будет открыть и скачать. Полная блокировка произойдет 11 октября в 18:00 по МСК.
Miro определяет расположение аккаунта по IP-адресу его регистрации и входа. Мне видятся следующие варианты дальнейшей работы:
🔹Создать новый аккаунт в Miro в другой стране, например через ВПН. Далее заходить в аккаунт только через ВПН.
🔹Назначить владельцем человека из другой страны. Для входа в аккаунт использовать только ВПН.
🔹Перенести доски в российские аналоги. Например, ВК Доска и Unidraw.io от Т-Банка предлагают экспортировать доски напрямую из Miro. Я лично переехал в Unidraw.
А куда вы мигрировали процессы?
#новости #bigquery #hubspot #microsoft #powerbi #miro
12 июня вышел очередной пакет с пакетами, который запрещает IT-сервисам оказывать услуги российским компаниям, работающим на внутреннем рынке РФ. В частности, под санкции подпадают облачные сервисы, сервисы BI и хранилища данных. Перечень отраслей внушительный.
Санкции начнут действовать уже на следующей неделе в четверг 12 сентября. Одни компании, например Google BigQuery и Notion, отключат доступ в понедельник 9 сентября. Другие, например Microsoft, Hubspot и Miro, проработают до среды.
Если вы еще не импортозаместили (ну вдруг) аналитические процессы и хранение данных, то остается несколько дней на выгрузку информации.
Что отключат?
Google отключит BigQuery. При этом Google Workspace и Google Cloud продолжат работать. Более подробной информации пока нет. Новость сообщил партнер Microsoft в РФ Softline в приватном канале для клиентов.
Microsoft заблокирует доступ российским юридическим лицам к продуктам Microsoft 365 и Office 365 (за исключением некоторых автономных подписок). Под блокировку также подпадают службы Microsoft Azure: Data Explorer, Databricks, Managed Grafana, Operator Insights, Quantum, Synapse Analytics, Microsoft Fabric и Power BI Embedded. Заказчики не смогут вносить изменения или обновления.
Hubspot отключит аккаунты пользователей из России, а также заблокирует доступ к сервисам на территории РФ. Поддержка приложений в российских версиях магазинов будет прекращена. Новость упала на почту корпоративным пользователям.
Miro уходит в два этапа. С 12 сентября она заблокирует создание и редактирование досок для бесплатных и платных аккаунтов из России и Беларуси. В течении 30 дней доски можно будет открыть и скачать. Полная блокировка произойдет 11 октября в 18:00 по МСК.
Miro определяет расположение аккаунта по IP-адресу его регистрации и входа. Мне видятся следующие варианты дальнейшей работы:
🔹Создать новый аккаунт в Miro в другой стране, например через ВПН. Далее заходить в аккаунт только через ВПН.
🔹Назначить владельцем человека из другой страны. Для входа в аккаунт использовать только ВПН.
🔹Перенести доски в российские аналоги. Например, ВК Доска и Unidraw.io от Т-Банка предлагают экспортировать доски напрямую из Miro. Я лично переехал в Unidraw.
А куда вы мигрировали процессы?
#новости #bigquery #hubspot #microsoft #powerbi #miro
В июле в Вене состоялась одна из крупнейших международных конференций по машинному обучению — The International Conference on Machine Learning (ICML 2024). Делегация от Яндекса побывала на конференции и рассказала о самом интересном и важном в блоге Хабр. Ребята перечислили намечающиеся тренды и дали ссылки на последние научные исследования.
Новые правила приватности обязывают компании скрывать пользовательские данные. Google и Apple уже разработали механизмы ограничения доступа к id-пользователей: App Tracking Transparency (ATT) для iOS и Google Advertising ID (GAID) deprecation на Android. Теперь мы все меньше знаем о своих пользователях. Получаемая информация сильно фрагментирована. Уже не получится узнавать человека при визите, особенно если он не авторизовался. От этого страдает анализ и таргетинг рекламы. Статья в блоге Appsflyer объясняет, что привело к такой реальности и наводит на мысли о способах преодоления ограничений.
Считается, что хороший аналитик – тот, кто отвечает на вопросы, поставленные бизнесом. Здесь кроется загвоздка: что будет делать компания с ответами? Какие действия они предпримут? Ведь интерпретация результатов зависит от понимания, какие на самом деле проблемы мы решаем. В идеале, прошаренный аналитик, увидев список вопросов, должен задуматься: «а зачем?». Как эффективно сотрудничать с бизнесом, чтобы тактично прояснить мотивацию его вопросов, расскажет статья на Medium (VPN).
Компания DQOps делится бесплатным сборником Best Practices по устранению проблем с качеством данных. Книга разделена на два блока: первый посвящен организации мониторинга качества данных, второй – улучшению KPI качества. Авторы рассказывают, как проанализировать и сформировать требования к качеству данных со стороны бизнеса и разработки, создать среду для поддержания качества, а также как найти и устранить причины проблем с данными и пайплайнами.
#дайджест
Новые правила приватности обязывают компании скрывать пользовательские данные. Google и Apple уже разработали механизмы ограничения доступа к id-пользователей: App Tracking Transparency (ATT) для iOS и Google Advertising ID (GAID) deprecation на Android. Теперь мы все меньше знаем о своих пользователях. Получаемая информация сильно фрагментирована. Уже не получится узнавать человека при визите, особенно если он не авторизовался. От этого страдает анализ и таргетинг рекламы. Статья в блоге Appsflyer объясняет, что привело к такой реальности и наводит на мысли о способах преодоления ограничений.
Считается, что хороший аналитик – тот, кто отвечает на вопросы, поставленные бизнесом. Здесь кроется загвоздка: что будет делать компания с ответами? Какие действия они предпримут? Ведь интерпретация результатов зависит от понимания, какие на самом деле проблемы мы решаем. В идеале, прошаренный аналитик, увидев список вопросов, должен задуматься: «а зачем?». Как эффективно сотрудничать с бизнесом, чтобы тактично прояснить мотивацию его вопросов, расскажет статья на Medium (VPN).
Компания DQOps делится бесплатным сборником Best Practices по устранению проблем с качеством данных. Книга разделена на два блока: первый посвящен организации мониторинга качества данных, второй – улучшению KPI качества. Авторы рассказывают, как проанализировать и сформировать требования к качеству данных со стороны бизнеса и разработки, создать среду для поддержания качества, а также как найти и устранить причины проблем с данными и пайплайнами.
#дайджест
Недавно я рассказывал о фреймворке HEART от Google. Он измеряет пользовательский опыт и удовлетворенность клиентов. Однако HEART ничего не говорит о производительности и эффективности приложения: быстро ли грузятся страницы или экраны, приносит ли приложение прибыль. Для этого Goolge использует фреймворк PULSE, который измеряет основные показатели работы приложения.
Компании всегда отслеживали пользовательский трафик приложений и связанные с ним показатели, такие как количество просмотров и время. Google же выделил конкретные метрики для отслеживания, оформил их в фреймворк и описал в статье вместе с фреймворком HEART.
PULSE включает 5 метрик.
Page views отражает среднее число визитов за определенный промежуток времени. Метрика характеризует нагрузку на сайт или приложение.
Uptime означает время безостановочной работы сервера без падений.
Latency – это среднее время загрузки экрана или страницы. Метрика показывает задержку в работе продукта.
Seven-day active users отслеживает среднее количество активных пользователей, которые посещают продукт в течение семи дней. Метрика обычно не учитывает повторные визиты.
Под Earnings понимают выручку от продукта.
Главные задачи фреймворка – отслеживать работу приложения и его пользу для бизнеса, чтобы:
✔️оптимизировать производительность;
✔️предотвращать перебои в работе сервера;
✔️привлекать больше пользователей;
✔️увеличивать прибыль от приложения.
Метрики PULSE косвенно характеризуют пользовательский опыт. Например, продукт, который часто выходит из строя и медленно работает, вряд ли привлечет пользователей.
PULSE и HEART хорошо работают в паре. Вместе они анализируют пользовательский опыт с двух сторон: с технической и бизнесовой (PULSE) и со стороны пользовательского опыта (HEART). Они помогают аналитикам отслеживать общее здоровье приложения и принимать data-driven решения по развитию продукта. PULSE говорит о том, как работает продукт и сколько прибыли приносит. HEART же фокусируется на эмоциях пользователей от работы с продуктом.
#метрики
Компании всегда отслеживали пользовательский трафик приложений и связанные с ним показатели, такие как количество просмотров и время. Google же выделил конкретные метрики для отслеживания, оформил их в фреймворк и описал в статье вместе с фреймворком HEART.
PULSE включает 5 метрик.
Page views отражает среднее число визитов за определенный промежуток времени. Метрика характеризует нагрузку на сайт или приложение.
Uptime означает время безостановочной работы сервера без падений.
Latency – это среднее время загрузки экрана или страницы. Метрика показывает задержку в работе продукта.
Seven-day active users отслеживает среднее количество активных пользователей, которые посещают продукт в течение семи дней. Метрика обычно не учитывает повторные визиты.
Под Earnings понимают выручку от продукта.
Главные задачи фреймворка – отслеживать работу приложения и его пользу для бизнеса, чтобы:
✔️оптимизировать производительность;
✔️предотвращать перебои в работе сервера;
✔️привлекать больше пользователей;
✔️увеличивать прибыль от приложения.
Метрики PULSE косвенно характеризуют пользовательский опыт. Например, продукт, который часто выходит из строя и медленно работает, вряд ли привлечет пользователей.
PULSE и HEART хорошо работают в паре. Вместе они анализируют пользовательский опыт с двух сторон: с технической и бизнесовой (PULSE) и со стороны пользовательского опыта (HEART). Они помогают аналитикам отслеживать общее здоровье приложения и принимать data-driven решения по развитию продукта. PULSE говорит о том, как работает продукт и сколько прибыли приносит. HEART же фокусируется на эмоциях пользователей от работы с продуктом.
#метрики
За окном – обманчивая осенняя погода. Зато статья на Medium «Осваиваем создание незабываемого дашборда» (VPN) не подвела и полностью оправдала ожидания. Опытный аналитик из Кореи рассказала про великолепный фреймворк для визуализации данных. В упрощенном виде он сводится к вопросам:
1️⃣ Кто конечные пользователи дашборда?
2️⃣ Почему им необходимо увидеть эти данные? Какое решение им нужно принять?
3️⃣ Какие ключевые метрики необходимо знать для принятия решения?
4️⃣ Как пользователи будут использовать дашборд?
5️⃣ Как часто к нему будут обращаться?
6️⃣ Как структурировать его так, чтобы последовательно изложить читателю все данные?
Не смог пройти мимо статьи из цикла о казуальном машинном обучении. В прошлый раз мы обсуждали, что такое uplift-моделирование и где оно может пригодиться. В новой статье ML-инженер Arthur Cruiziat рассказал, как с помощью модели улучшить удержание клиентов (VPN). Это яркий пример реальной бизнес-ценности от ML. Статья описывает все этапы повышения Retention, начиная с анализа оттока пользователей и определения действий по их удержанию и заканчивая описанием моделей и оценкой результатов моделирования. Python-скрипты прилагаются.
Когда нужно определить влияние фактора Х на пользователей, все вспоминают А/Б-эксперимент. Но у него есть ограничение – две группы должны быть выбраны случайным образом. Если рандомизация невозможна, в игру вступают альтернативные методы исследования: Difference in Differences (DiD), Regression Discontinuity Design (RDD), Instrumental variables и Matching. В основе лежит идея квази-эксперимента. Он оценивает причинно-следственные связи в условиях, когда невозможно провести полностью контролируемый эксперимент. Автор в блоге ВкусВилл разбирает принципы четырех методов и делится опытом их применения.
Пиши, какие еще темы ты хочешь видеть в дайджестах. Я учту твои пожелания 🧐.
#дайджест
1️⃣ Кто конечные пользователи дашборда?
2️⃣ Почему им необходимо увидеть эти данные? Какое решение им нужно принять?
3️⃣ Какие ключевые метрики необходимо знать для принятия решения?
4️⃣ Как пользователи будут использовать дашборд?
5️⃣ Как часто к нему будут обращаться?
6️⃣ Как структурировать его так, чтобы последовательно изложить читателю все данные?
Не смог пройти мимо статьи из цикла о казуальном машинном обучении. В прошлый раз мы обсуждали, что такое uplift-моделирование и где оно может пригодиться. В новой статье ML-инженер Arthur Cruiziat рассказал, как с помощью модели улучшить удержание клиентов (VPN). Это яркий пример реальной бизнес-ценности от ML. Статья описывает все этапы повышения Retention, начиная с анализа оттока пользователей и определения действий по их удержанию и заканчивая описанием моделей и оценкой результатов моделирования. Python-скрипты прилагаются.
Когда нужно определить влияние фактора Х на пользователей, все вспоминают А/Б-эксперимент. Но у него есть ограничение – две группы должны быть выбраны случайным образом. Если рандомизация невозможна, в игру вступают альтернативные методы исследования: Difference in Differences (DiD), Regression Discontinuity Design (RDD), Instrumental variables и Matching. В основе лежит идея квази-эксперимента. Он оценивает причинно-следственные связи в условиях, когда невозможно провести полностью контролируемый эксперимент. Автор в блоге ВкусВилл разбирает принципы четырех методов и делится опытом их применения.
Пиши, какие еще темы ты хочешь видеть в дайджестах. Я учту твои пожелания 🧐.
#дайджест
Друзья, привет!
Последние полгода я полностью погружён в мир метрик. Да, я – тот самый человек, который на вечеринке обсуждает не отпуск, а Retention Rate. Что поделать, метрики – это невидимые герои бизнеса. Именно они говорят, жить продукту или нет, без них не принимаются никакие серьёзные решения.
Я глубоко изучил популярные фреймворки, прочитал несколько книг, прошерстил тонну статей и всё это объединил в серию постов в Telegram. Получился целый мини-курс!
Если ваши любимые цифры – это не только количество лайков на фотке с котом, но и что-то более серьёзное, вроде LTV или CAC, вам точно будет интересно! Ссылки на посты ниже – сохраняйте и делитесь с друзьями.
База
▪️Что такое метрика?
▪️Фреймворки для работы с метриками
OKR
▪️Цели и ключевые результаты (OKR)
▪️Книга.Измеряйте самое важное
NSM
▪️Метрика Полярной звезды (NSM)
▪️Почему Revenue и Profit плохие кандидаты в NSM
▪️Книга.The North Star Playbook
Иерархия и пирамида
▪️Дерево или иерархия метрик
▪️Пирамида метрик
▪️Построение пирамиды метрик
Опыт Amazon
▪️Опережающие и запаздывающие индикаторы
▪️Маховик Amazon
▪️Книга.Стратегия Amazon
Для конкретной задачи
▪️Фреймворк AARRR
▪️Фреймворк HEART
▪️Фреймворк PULSE
А я тем временем продолжу копаться в теме и рассказывать вам, как и зачем использовать #метрики на практике.
Последние полгода я полностью погружён в мир метрик. Да, я – тот самый человек, который на вечеринке обсуждает не отпуск, а Retention Rate. Что поделать, метрики – это невидимые герои бизнеса. Именно они говорят, жить продукту или нет, без них не принимаются никакие серьёзные решения.
Я глубоко изучил популярные фреймворки, прочитал несколько книг, прошерстил тонну статей и всё это объединил в серию постов в Telegram. Получился целый мини-курс!
Если ваши любимые цифры – это не только количество лайков на фотке с котом, но и что-то более серьёзное, вроде LTV или CAC, вам точно будет интересно! Ссылки на посты ниже – сохраняйте и делитесь с друзьями.
База
▪️Что такое метрика?
▪️Фреймворки для работы с метриками
OKR
▪️Цели и ключевые результаты (OKR)
▪️Книга.Измеряйте самое важное
NSM
▪️Метрика Полярной звезды (NSM)
▪️Почему Revenue и Profit плохие кандидаты в NSM
▪️Книга.The North Star Playbook
Иерархия и пирамида
▪️Дерево или иерархия метрик
▪️Пирамида метрик
▪️Построение пирамиды метрик
Опыт Amazon
▪️Опережающие и запаздывающие индикаторы
▪️Маховик Amazon
▪️Книга.Стратегия Amazon
Для конкретной задачи
▪️Фреймворк AARRR
▪️Фреймворк HEART
▪️Фреймворк PULSE
А я тем временем продолжу копаться в теме и рассказывать вам, как и зачем использовать #метрики на практике.
Список критериев классного джуна
Я часто провожу технические собеседования и через меня в компании попадают ребята всех грейдов. Ранее описывал свой вижн синьора, а теперь поговорим про джунов. Вот список критериев:
✅ Горящие глаза
Они важнее образования. В них виден тайфун, энергия которого позволит наработать опыт и закрепить знанием.
✅ (Само)образование
Тем не менее, образование имеет значение. В CV я рад увидеть технические вузы, математические и физические факультеты. Но я не садист и понимаю, что бэкграунд у всех разный. Знания можно добрать опытом и самообразованием. Опыт у джунов впереди, а вот обилие сертификатов с курсов может стать козырем.
✅ Пэт-проекты, стажировки, опыт работы
Джун – это не человек без опыта. Небольшой опыт может и должен быть. Он приобретается на стажировках, при создании своих проектов и проектов в рамках курсов. Работа по профилю, пусть и не продолжительная, тоже приветствуется.
✅ Ищет интересные задачи, знания, крутое окружение
Так выглядит правильная мотивация для джуна, а не деньги. Джун – это инвестиция компании с целью получить эффективного работника позже. Поэтому на первых порах искать нужно не мидловские зарплаты, а благодатную среду для обучения. Не стоит гнаться за деньгами, которые и так придут со временем.
✅ Прыгуны – на карандаше (читай: «нет»)
Если человек прыгает из компании в компанию, нигде не проработав и полугода, то он джун. Даже если совокупный опыт 5 лет. Для компании такие ребята – рискованная инвестиция. Деньги на рекрутинг, онбординг и обучение прогорят, если человек уйдет через полгода.
Если ты ищешь работу аналитика и имеешь профильный опыт от 1,5 лет, то редактируй резюме и присылай мне @romanchuk_roman. Я обязательно отвечу, а твое резюме попадет в ТОП-овые компании.
#мысли
Я часто провожу технические собеседования и через меня в компании попадают ребята всех грейдов. Ранее описывал свой вижн синьора, а теперь поговорим про джунов. Вот список критериев:
✅ Горящие глаза
Они важнее образования. В них виден тайфун, энергия которого позволит наработать опыт и закрепить знанием.
✅ (Само)образование
Тем не менее, образование имеет значение. В CV я рад увидеть технические вузы, математические и физические факультеты. Но я не садист и понимаю, что бэкграунд у всех разный. Знания можно добрать опытом и самообразованием. Опыт у джунов впереди, а вот обилие сертификатов с курсов может стать козырем.
✅ Пэт-проекты, стажировки, опыт работы
Джун – это не человек без опыта. Небольшой опыт может и должен быть. Он приобретается на стажировках, при создании своих проектов и проектов в рамках курсов. Работа по профилю, пусть и не продолжительная, тоже приветствуется.
✅ Ищет интересные задачи, знания, крутое окружение
Так выглядит правильная мотивация для джуна, а не деньги. Джун – это инвестиция компании с целью получить эффективного работника позже. Поэтому на первых порах искать нужно не мидловские зарплаты, а благодатную среду для обучения. Не стоит гнаться за деньгами, которые и так придут со временем.
✅ Прыгуны – на карандаше (читай: «нет»)
Если человек прыгает из компании в компанию, нигде не проработав и полугода, то он джун. Даже если совокупный опыт 5 лет. Для компании такие ребята – рискованная инвестиция. Деньги на рекрутинг, онбординг и обучение прогорят, если человек уйдет через полгода.
Если ты ищешь работу аналитика и имеешь профильный опыт от 1,5 лет, то редактируй резюме и присылай мне @romanchuk_roman. Я обязательно отвечу, а твое резюме попадет в ТОП-овые компании.
#мысли
Привет! За окном 7 октября, но я притворюсь, что сегодня 5-е, и поздравлю ребят, кто преподает и учит. Вы достойны не одного праздника в год, а еще одного выходного в месяц. Учителя, с праздником! Вы крутые 😎🤘🏻
А теперь дайджест.
Я советовал много статей, где авторы использовали математические модели, чтобы предсказывать поведение рынка. Но задачу можно решить, не углубляясь в формулы. Например, запустить исследование по методу Дельфи. Это анонимный опрос экспертов, который проводится в несколько этапов. На одном из них экспертам обязательно показывают предварительно обработанные результаты исследования, чтобы те скорректировали свой ответ. Метод дорогостоящий, но позволяет освежить взгляд на проблему.
Павел Каравашкин поделился принципами лидерства, которые он выработал за годы работы. Опыта у него много и есть, чему поучиться — он руководит командой разработки платформы T-API и развивает сообщество системных аналитиков в Т-Банке. Я выписал главные советы руководителям:
📌 Создавать больше, работая меньше.
📌 Работать с удовольствием.
📌 Быть верным команде, продукту, компании.
📌 Нанимать людей с подходящими софт-скилами (они очень важны!)
📌 Подкидывать идеи при беседе «один-на-один».
📌 Заработать авторитет, эффективно выполняя задачи и решая проблемы.
📌 Убедиться, что в команде нет токсичного человека.
📌 Научить команду организовать работу без руководителя.
Павел Левчук на Medium (VPN) продолжает разжевывать непростую метрику LTV. В июле я делился его статьей о том, в каких случаях полезно знать LTV. В этот раз Паша пошагово показал, как спрогнозировать метрику. Статья стартует с этапа сбора данных постепенно погружая в детали моделирования метрики путем аппроксимации кривой LTV.
А какой подход к подсчету LTV используете вы?
#дайджест
А теперь дайджест.
Я советовал много статей, где авторы использовали математические модели, чтобы предсказывать поведение рынка. Но задачу можно решить, не углубляясь в формулы. Например, запустить исследование по методу Дельфи. Это анонимный опрос экспертов, который проводится в несколько этапов. На одном из них экспертам обязательно показывают предварительно обработанные результаты исследования, чтобы те скорректировали свой ответ. Метод дорогостоящий, но позволяет освежить взгляд на проблему.
Павел Каравашкин поделился принципами лидерства, которые он выработал за годы работы. Опыта у него много и есть, чему поучиться — он руководит командой разработки платформы T-API и развивает сообщество системных аналитиков в Т-Банке. Я выписал главные советы руководителям:
📌 Создавать больше, работая меньше.
📌 Работать с удовольствием.
📌 Быть верным команде, продукту, компании.
📌 Нанимать людей с подходящими софт-скилами (они очень важны!)
📌 Подкидывать идеи при беседе «один-на-один».
📌 Заработать авторитет, эффективно выполняя задачи и решая проблемы.
📌 Убедиться, что в команде нет токсичного человека.
📌 Научить команду организовать работу без руководителя.
Павел Левчук на Medium (VPN) продолжает разжевывать непростую метрику LTV. В июле я делился его статьей о том, в каких случаях полезно знать LTV. В этот раз Паша пошагово показал, как спрогнозировать метрику. Статья стартует с этапа сбора данных постепенно погружая в детали моделирования метрики путем аппроксимации кривой LTV.
А какой подход к подсчету LTV используете вы?
#дайджест
Аналитика про аналитиков
Ты аналитик? Работаешь с данными? Ребята из NEWHR Data запускают очередное исследование рынка нашей профессии.
Я сам регулярно участвую в этом исследовании, ведь всегда интересно следить за трендами, рейтингом работодателей и уровнем зарплат.
Вот несколько инсайтов 2023 года:
➤ Зарплаты у аналитиков в прошлом году росли чаще, чем по IT-отрасли в целом. Такая же картина была в 2021-м.
➤ Более трети продуктовых и дата-аналитиков очень хотели работать в «Яндексе», «Авито» или «Авиасейлс».
➤ Плюс ребята составили список из 500+ экспертов, видеоблогов и подкастов, за которыми следят продуктовые и дата-аналитики.
Больше инфы — в полном отчёте.
⏱ Опрос займёт около 20 минут. Участники получат ранний доступ к результатам и приглашение на закрытый эфир с инсайтами исследования.
⏩ Заполнить анкету
Ты аналитик? Работаешь с данными? Ребята из NEWHR Data запускают очередное исследование рынка нашей профессии.
Я сам регулярно участвую в этом исследовании, ведь всегда интересно следить за трендами, рейтингом работодателей и уровнем зарплат.
Вот несколько инсайтов 2023 года:
➤ Зарплаты у аналитиков в прошлом году росли чаще, чем по IT-отрасли в целом. Такая же картина была в 2021-м.
➤ Более трети продуктовых и дата-аналитиков очень хотели работать в «Яндексе», «Авито» или «Авиасейлс».
➤ Плюс ребята составили список из 500+ экспертов, видеоблогов и подкастов, за которыми следят продуктовые и дата-аналитики.
Больше инфы — в полном отчёте.
⏱ Опрос займёт около 20 минут. Участники получат ранний доступ к результатам и приглашение на закрытый эфир с инсайтами исследования.
⏩ Заполнить анкету
В 1960-х в автомобилях были повсеместно установлены ремни безопасности, дабы уменьшить количество смертей при авариях. Это дало результат: гибель на дорогах сократилась на 72%. Вот только обращений в больницу стало больше. Если раньше человек погибал при ДТП, то теперь получал серьезные травмы. Люди не знали про статистику смертности. Поэтому среди населения распространилось мнение о том, что ремни безопасности повышают риск травмы.
С похожим заблуждением столкнулся математик Абрахам Вальд, описавший ошибку выжившего. Во время Второй мировой ему поручили проанализировать повреждения вернувшихся из боя самолетов, чтобы сократить потери в авиации. Он понял, что критические удары пришлись в тех зонах, которые на вернувшихся самолетах были повреждены меньше всего.
Ошибка выжившего – одна из систематических ошибок отбора. Она возникает при анализе только успешных случаев и игнорировании данных о тех, кто не прошел отбор. В итоге мы получаем неполный набор данных, смещенный в сторону успешных случаев.
При анализе клиентов мы собираем статистику «выживших». Это пользователи, которые успешно прошли сквозь воронку и дошли до покупки. Но есть и те, кто сошел с пути и потерял интерес к продукту.
Если мы игнорируем «сошедших» пользователей, то совершаем несколько ошибок. Во-первых, сужается круг потенциальных покупателей. Например, строительный магазин постоянно увеличивает выбор обоев, чтобы привлечь больше клиентов. При этом бизнес мог бы подумать над расширением выбора садовой мебели для притока других категорий покупателей.
Во-вторых, мы вычеркиваем из анализа людей, которые потерялись на этапах воронки. Так мы рискуем ошибочно приписать успех незначительным факторам или упустить ключевые, приводящие к неудаче.
Чтобы избежать ошибки выжившего, важно увидеть «пропавшие» данные и собрать реальную картину. Замечать искажения нам помогают исследования клиентов. Также существуют статистические методы, например коррекция Хекмана для учета систематических ошибок отбора.
#аномалии
С похожим заблуждением столкнулся математик Абрахам Вальд, описавший ошибку выжившего. Во время Второй мировой ему поручили проанализировать повреждения вернувшихся из боя самолетов, чтобы сократить потери в авиации. Он понял, что критические удары пришлись в тех зонах, которые на вернувшихся самолетах были повреждены меньше всего.
Ошибка выжившего – одна из систематических ошибок отбора. Она возникает при анализе только успешных случаев и игнорировании данных о тех, кто не прошел отбор. В итоге мы получаем неполный набор данных, смещенный в сторону успешных случаев.
При анализе клиентов мы собираем статистику «выживших». Это пользователи, которые успешно прошли сквозь воронку и дошли до покупки. Но есть и те, кто сошел с пути и потерял интерес к продукту.
Если мы игнорируем «сошедших» пользователей, то совершаем несколько ошибок. Во-первых, сужается круг потенциальных покупателей. Например, строительный магазин постоянно увеличивает выбор обоев, чтобы привлечь больше клиентов. При этом бизнес мог бы подумать над расширением выбора садовой мебели для притока других категорий покупателей.
Во-вторых, мы вычеркиваем из анализа людей, которые потерялись на этапах воронки. Так мы рискуем ошибочно приписать успех незначительным факторам или упустить ключевые, приводящие к неудаче.
Чтобы избежать ошибки выжившего, важно увидеть «пропавшие» данные и собрать реальную картину. Замечать искажения нам помогают исследования клиентов. Также существуют статистические методы, например коррекция Хекмана для учета систематических ошибок отбора.
#аномалии
В Google Analytics протокол существует с 2013 года, но Яндекс Метрика только сейчас усложнила архитектуру сбора данных и подвезла долгожданное обновление! Видимо, назрела пора отвечать на запрос рынка.
Если вы не в теме, то рассказываю. Measurement Protocol – это инструмент для отправки данных о взаимодействиях пользователей напрямую на сервера Метрики через HTTP-запросы. Например, вы можете дополнить визит пользователя информацией о тех страницах, где счетчик не установлен, обогатить данные о качестве лида или отправить офлайн-конверсию.
Measurement Protocol не заменяет автоматический сбор данных с помощью счетчика Метрики, а расширяет его возможности. Он помогает отслеживать действия пользователей как на стороне клиента, так и на стороне сервера, и собрать данные, которые не может предоставить веб-счетчик. Это полезно в условиях ограниченного клиентского сбора, например, из-за блокировщиков, отсутствия счетчика Метрики на странице или правил приватности.
Учтите, что у Measurement Protocol есть временные ограничения. Данные могут быть записаны только в течение 12 часов с момента завершения визита. Дополнение визитов по истечению 12 часов невозможно. Для внесения данных в предыдущие визиты используйте передачу офлайн-конверсий. Ребята как раз выкатили крупное обновление.
#новости #яндексметрика
Please open Telegram to view this post
VIEW IN TELEGRAM
Ура, дайджест!
Методы, которые используют в A/B-тестировании — t-тест, CUPED, CUMPED и стратификация — в своей основе опираются на линейную регрессию. Если копнуть глубже, эти подходы просто уменьшают дисперсию, добавляя в модель важные переменные. Так мы точнее можем оценить, скажем, как количество дней с активными промо-акциями влияет на недельную выручку в магазине. Разбирались в линейной регрессии ребята из команды Ad‑Hoc X5 Tech. Они добавили ссылки на другие источники, чтобы мы могли заполнить пробел знаниях, если споткнулись на одном из этапов. Мне понравился онлайн-учебник Causal Inference for The Brave and True. Пожалуй, я добавлю его в заметки.
Согласитесь, как клиентам нам удобнее связаться с интернет-магазином или техподдержкой в мессенджерах, чем использовать онлайн-консультант на сайте. Но для бизнеса уход с сайта — серая зона, где невозможна аналитика конверсий. Недавно я вспомнил про одну полезную статью, в которой специалист по сквозной аналитике Олег Рассказов предложил решение этой проблемы. Он описал схему реализации отслеживания сообщений WhatsApp, Telegram-ботов и VK сообщений. Подход эффективный, хотя и не универсальный и достаточно изощренный. Но опытному аналитику с опытом разработки будет по плечу.
Поисковое ранжирование — это алгоритм, который используют поисковые системы для оценки и сортировки результатов по уровню соответствия запросу. В итоге пользователь видит наиболее полезный и качественный результат поиска. Для такого сервиса как Авито, где вращаются миллионы объявлений и десятки категорий пользователей, ранжировать результаты крайне непросто. Как ребята справляются с этим, какие критерии качества ранжирования выделяют и на каком этапе подключается эвристика, читай в блоге AvitoTech на Хабр.
#дайджест
Методы, которые используют в A/B-тестировании — t-тест, CUPED, CUMPED и стратификация — в своей основе опираются на линейную регрессию. Если копнуть глубже, эти подходы просто уменьшают дисперсию, добавляя в модель важные переменные. Так мы точнее можем оценить, скажем, как количество дней с активными промо-акциями влияет на недельную выручку в магазине. Разбирались в линейной регрессии ребята из команды Ad‑Hoc X5 Tech. Они добавили ссылки на другие источники, чтобы мы могли заполнить пробел знаниях, если споткнулись на одном из этапов. Мне понравился онлайн-учебник Causal Inference for The Brave and True. Пожалуй, я добавлю его в заметки.
Согласитесь, как клиентам нам удобнее связаться с интернет-магазином или техподдержкой в мессенджерах, чем использовать онлайн-консультант на сайте. Но для бизнеса уход с сайта — серая зона, где невозможна аналитика конверсий. Недавно я вспомнил про одну полезную статью, в которой специалист по сквозной аналитике Олег Рассказов предложил решение этой проблемы. Он описал схему реализации отслеживания сообщений WhatsApp, Telegram-ботов и VK сообщений. Подход эффективный, хотя и не универсальный и достаточно изощренный. Но опытному аналитику с опытом разработки будет по плечу.
Поисковое ранжирование — это алгоритм, который используют поисковые системы для оценки и сортировки результатов по уровню соответствия запросу. В итоге пользователь видит наиболее полезный и качественный результат поиска. Для такого сервиса как Авито, где вращаются миллионы объявлений и десятки категорий пользователей, ранжировать результаты крайне непросто. Как ребята справляются с этим, какие критерии качества ранжирования выделяют и на каком этапе подключается эвристика, читай в блоге AvitoTech на Хабр.
#дайджест
Читать статьи — хорошо. Но даже лучшие из них не заменят полноценной книги.
📚 Доверительное А/В-тестирование / Trustworthy Online Controlled Experiments
Авторы: Рон Кохави / Ron Kohavi, Диана Тан / Diane Tang, Я Сюй / Ya Xu
Проведение А/В-теста в первый раз — как задача со звездочкой. Вот прошел очередной час и ты уже мечтаешь найти решебник с ответами, как когда-то в детстве мы списывали готовые домашки по математике. К сожалению, все решебники остались в школе. Но ответы найти можно. Правда потребуются несколько свободных вечеров и небольшая книга на 300 страниц.
Ее авторы — люди, которые понимают природу эксперимента. Рон Кохави возглавлял команды экспериментальных платформ в Amazon и Microsoft. Я Сюй — руководитель команды дата-саентистов в LinkedIn, кандидат математических наук со степенью в экономике. Диана Тан заслужила звание Google Fellow, высший уровень признания инженерных достижений в компании.
Когда я впервые раскрыл книгу, на меня смотрела седьмая глава о метриках для эксперимента. Я продолжил листать. Там было все, о чем я так или иначе рассказываю в блоге: терминология, пример постановки эксперимента от А до Я, проверка достоверности результатов, углубленная мат.статистика и часто обделенная этичность экспериментов.
Я стараюсь публиковать важную теорию и безумно благодарен вам, что вы ее читаете и реагируете. Но чего в блоге воплотить не могу, так это детализацию и последовательность изложения. На такое способен только хороший учебник. Например, этот.
🔗Книгу на русском ищи на OZON. Издание на английском — на Аmazon.
Пробежаться по содержанию можно на Google Книги.
#книга
📚 Доверительное А/В-тестирование / Trustworthy Online Controlled Experiments
Авторы: Рон Кохави / Ron Kohavi, Диана Тан / Diane Tang, Я Сюй / Ya Xu
Проведение А/В-теста в первый раз — как задача со звездочкой. Вот прошел очередной час и ты уже мечтаешь найти решебник с ответами, как когда-то в детстве мы списывали готовые домашки по математике. К сожалению, все решебники остались в школе. Но ответы найти можно. Правда потребуются несколько свободных вечеров и небольшая книга на 300 страниц.
Ее авторы — люди, которые понимают природу эксперимента. Рон Кохави возглавлял команды экспериментальных платформ в Amazon и Microsoft. Я Сюй — руководитель команды дата-саентистов в LinkedIn, кандидат математических наук со степенью в экономике. Диана Тан заслужила звание Google Fellow, высший уровень признания инженерных достижений в компании.
Когда я впервые раскрыл книгу, на меня смотрела седьмая глава о метриках для эксперимента. Я продолжил листать. Там было все, о чем я так или иначе рассказываю в блоге: терминология, пример постановки эксперимента от А до Я, проверка достоверности результатов, углубленная мат.статистика и часто обделенная этичность экспериментов.
Я стараюсь публиковать важную теорию и безумно благодарен вам, что вы ее читаете и реагируете. Но чего в блоге воплотить не могу, так это детализацию и последовательность изложения. На такое способен только хороший учебник. Например, этот.
🔗Книгу на русском ищи на OZON. Издание на английском — на Аmazon.
Пробежаться по содержанию можно на Google Книги.
#книга
Нужно поработать в разных компаниях, чтобы быть действительно опытным
Я часто вижу людей, особенно на руководящих постах, которые выросли и построили карьеру в одной-единственной компании. Это не плохо. К такому склонны трудолюбивые и надежные сотрудники. Но их главный минус — отсутствие насмотренности.
Ребята часто не осознают, как по-разному можно настроить процессы и подходить к решению вопросов. Такой сотрудник воспринимает внутреннюю кухню альма-матер как абсолютную истину. В итоге человек закостеневает и начинает узко мыслить.
Я не призываю каждые два года менять работу. Наоборот, я за выстраивание доверительных и долгосрочных отношений с работодателем. Но нужен баланс. Если вы работаете в компании долго и чувствуете, что перестали учиться, пора переходить на новое место. При прочих равных, человек, поработавший в нескольких компаниях, знаком с бОльшим количеством технологий и более подкован в вопросах менеджмента и фреймворков.
Если есть причины не менять работу, то старайтесь развивать насмотренность осознанно. Например, смените проект или команду внутри компании, участвуйте в нетворкингах с коллегами, обменивайтесь опытом и мнениями.
Чтобы не быть зажатым в рамках майндсета одной компании, ищите альтернативный опыт вовне: посещайте профильные конференции (в идеале — оффлайн), регулярно читайте блоги коллег, слушайте подкасты, общайтесь в telegram-сообществах. Главное — добирайте насмотренность. Иначе можно застрять в прошлом и отстать от рынка.
🤔Что думаете, стоит ли периодически менять компании? Или вы за стабильность?
#мысли
Я часто вижу людей, особенно на руководящих постах, которые выросли и построили карьеру в одной-единственной компании. Это не плохо. К такому склонны трудолюбивые и надежные сотрудники. Но их главный минус — отсутствие насмотренности.
Ребята часто не осознают, как по-разному можно настроить процессы и подходить к решению вопросов. Такой сотрудник воспринимает внутреннюю кухню альма-матер как абсолютную истину. В итоге человек закостеневает и начинает узко мыслить.
Я не призываю каждые два года менять работу. Наоборот, я за выстраивание доверительных и долгосрочных отношений с работодателем. Но нужен баланс. Если вы работаете в компании долго и чувствуете, что перестали учиться, пора переходить на новое место. При прочих равных, человек, поработавший в нескольких компаниях, знаком с бОльшим количеством технологий и более подкован в вопросах менеджмента и фреймворков.
Если есть причины не менять работу, то старайтесь развивать насмотренность осознанно. Например, смените проект или команду внутри компании, участвуйте в нетворкингах с коллегами, обменивайтесь опытом и мнениями.
Чтобы не быть зажатым в рамках майндсета одной компании, ищите альтернативный опыт вовне: посещайте профильные конференции (в идеале — оффлайн), регулярно читайте блоги коллег, слушайте подкасты, общайтесь в telegram-сообществах. Главное — добирайте насмотренность. Иначе можно застрять в прошлом и отстать от рынка.
🤔Что думаете, стоит ли периодически менять компании? Или вы за стабильность?
#мысли
Доброго послепраздничного утра всем!
Все начинается с простого. Так подумал Rohit Patel, руководитель отдела по работе с данными в Meta* GenAI, и принялся объяснять, как работают большие языковые модели с помощью базовой арифметики. Цель статьи — демистифицировать LLM, сделав концепции доступными для всех. Несмотря на название, легким материал не назовешь. Автор рассказывает о структуре и обучении нейронных сетей и разъясняет, как машина может угадывать и генерировать предложения. Если вы давно порывались разобраться в теме, статья станет хорошим началом для первого погружения.
* деятельность организации запрещена на территории РФ
Один крупный региональный банк выкупил банк поменьше и собирается объединить две клиентские базы. Дата-инженеры переглянулись — задача ведь со звездочкой. Во-первых, нужно учесть пересечение клиентских записей. Во-вторых, избавиться от уже имеющихся внутри систем дубликатов — повторных записей с ошибками, опечатками и устаревшими данными вроде девичьих фамилий. При этом нужно умудриться не объединить братьев-близнецов с созвучными именами. В-третьих, не допустить ошибок, переписав кредит на другое имя. Ребята из HFLabs решили задачу за три месяца. Их алгоритм способен за час найти дубликаты среди 100 миллионов записей.
Опытные дата-аналитики знают все про хранение и версионирование кода, понимают разницу между Git и GitHub, правильно форматируют SQL-запросы и шарят за CI/CD. Слишком много новых слов? Не унывай! Настя Кузнецова и Дмитрий Аношин подготовили две статьи о том, как работать с SQL-запросами. Первая статья объясняет, почему хранить варианты кода в виде файлов на Google Диске — плохая идея. Вторую можно назвать гайдом по работе с Git применительно к SQL-запросам.
#дайджест
Все начинается с простого. Так подумал Rohit Patel, руководитель отдела по работе с данными в Meta* GenAI, и принялся объяснять, как работают большие языковые модели с помощью базовой арифметики. Цель статьи — демистифицировать LLM, сделав концепции доступными для всех. Несмотря на название, легким материал не назовешь. Автор рассказывает о структуре и обучении нейронных сетей и разъясняет, как машина может угадывать и генерировать предложения. Если вы давно порывались разобраться в теме, статья станет хорошим началом для первого погружения.
* деятельность организации запрещена на территории РФ
Один крупный региональный банк выкупил банк поменьше и собирается объединить две клиентские базы. Дата-инженеры переглянулись — задача ведь со звездочкой. Во-первых, нужно учесть пересечение клиентских записей. Во-вторых, избавиться от уже имеющихся внутри систем дубликатов — повторных записей с ошибками, опечатками и устаревшими данными вроде девичьих фамилий. При этом нужно умудриться не объединить братьев-близнецов с созвучными именами. В-третьих, не допустить ошибок, переписав кредит на другое имя. Ребята из HFLabs решили задачу за три месяца. Их алгоритм способен за час найти дубликаты среди 100 миллионов записей.
Опытные дата-аналитики знают все про хранение и версионирование кода, понимают разницу между Git и GitHub, правильно форматируют SQL-запросы и шарят за CI/CD. Слишком много новых слов? Не унывай! Настя Кузнецова и Дмитрий Аношин подготовили две статьи о том, как работать с SQL-запросами. Первая статья объясняет, почему хранить варианты кода в виде файлов на Google Диске — плохая идея. Вторую можно назвать гайдом по работе с Git применительно к SQL-запросам.
#дайджест