tgoop.com »
United States »
Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение » Telegram Web
🕵️♂️ Data Science-челлендж для тех, кто не боится настоящих ошибок
Про data leakage знают все. Но теория — это просто.
А как насчёт практики: сможете ли вы найти, где модель обучается на «будущем»?
👍 Ваш кейс: вы — дата-сайентист в авиакомпании.
Ваша задача — предсказать вероятность аварии до вылета. У вас реальные данные: техобслуживание, параметры двигателей, логи. Всё выглядит надёжно. Но... сколько утечек вы допустите, прежде чем поймёте, почему F1-score такой высокий?
👍 Проверьте себя
1️⃣ Вопрос
❓ Можно ли использовать это для предсказания до взлета?
Ответ: → Нельзя. Это данные из будущего. Temporal Leakage. Удаляйте все пост-фактум признаки.
✅ +12 баллов за правильный ответ
2️⃣ Вопрос
❓ Вроде логично?
Ответ:→ Нет. Вы зашили таргет в признаки. Это прямая утечка.
✅ +1 балл за правильный ответ
3️⃣ Вопрос
❓ Стоит ли их оставлять?
Ответ:→ Нет. Это Entity Leakage. Модель может просто запомнить, что «этот борт не ломается».
✅ +2 балла за правильный ответ
4️⃣ Вопрос
❓ Это важно?
Ответ:→ Да. Если train использует рейсы из будущего, а test — из прошлого, это Temporal Leakage.
✅ +1 балл за правильный ответ
5️⃣ Вопрос
❓ Есть риск?
Ответ: → Да. Это Data Analysis Leakage — модель знает про тест заранее.
✅ +1 балл за правильный ответ
Максимум баллов — 17.
Набрали больше 14? Значит, умеете не просто строить модели, а и замечать опасные утечки.
Меньше 10? Самое время пересмотреть подход к построению пайплайнов и анализу данных.
💬 Делитесь результатами и находками в комментариях — особенно если нашли что-то, что мы упустили.
Библиотека дата-сайентиста #междусобойчик
Когда модель слишком хороша, чтобы быть правдой — скорее всего, где-то утечка.
Про data leakage знают все. Но теория — это просто.
А как насчёт практики: сможете ли вы найти, где модель обучается на «будущем»?
Ваша задача — предсказать вероятность аварии до вылета. У вас реальные данные: техобслуживание, параметры двигателей, логи. Всё выглядит надёжно. Но... сколько утечек вы допустите, прежде чем поймёте, почему F1-score такой высокий?
Вы используете данные из чёрного ящика и пост-полётные отчёты (Altitude, Alerts, Warnings, Outcome).
❓ Можно ли использовать это для предсказания до взлета?
Ответ:
Вы добавили колонку history_file — из какого .csv пришёл самолёт: no_accidents.csv или previous_accidents.csv.
❓ Вроде логично?
Ответ:
В датасете есть Tail# и Flight# — уникальные ID самолёта и рейса.
❓ Стоит ли их оставлять?
Ответ:
Вы делите данные случайным образом (random split), не учитывая дату рейса (Date).
❓ Это важно?
Ответ:
Вы считаете корреляции, запускаете PCA — до split'а на train/test.
❓ Есть риск?
Ответ:
Максимум баллов — 17.
Набрали больше 14? Значит, умеете не просто строить модели, а и замечать опасные утечки.
Меньше 10? Самое время пересмотреть подход к построению пайплайнов и анализу данных.
💬 Делитесь результатами и находками в комментариях — особенно если нашли что-то, что мы упустили.
Библиотека дата-сайентиста #междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10👍4🔥1
🚀 Модели, конференции и релизы:
— CVPR 2025 — главная конференция по компьютерному зрению уже в июне: новые статьи, прорывы и тренды
— OpenAI o3-pro — новая reasoning-модель с пошаговым решением задач и улучшенной стабильностью
— Magistral от Mistral — open-source reasoning-модель с мультилингвальностью и высокой скоростью
— Блог Сэма Альтмана — как мы вступаем в эру суперразума: когнитивные агенты, наука и роботы до 2027
— Scikit-learn 1.7 — свежий релиз с полезными улучшениями
🧠 Исследования и практика:
— Claude Code Tips — как в Anthropic используют Claude 4 как код-ассистента и агент
— Футбол + байесовщина — предсказание матчей в реальном времени: статистика в действии
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤2🔥1
Forwarded from Библиотека задач по Data Science | тесты, код, задания
Data Engineer — от 400 000 до 500 000 ₽, гибрид (Москва)
Дата-аналитик (Бизнес-юнит) — от 200 000 ₽, гибрид (Санкт-Петербург)
Product Lead (Acquisition), гибрид (Санкт-Петербург, Тбилиси)
ML Engineer (Почта) — от 200 000 до 500 000 ₽, гибрид (Москва)
Data Engineer, удалёнка
Data Governance Analyst, удалёнка (Москва)
Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
🛠 How-to: что полезного появилось в NumPy 2.3.0 — и как это использовать
NumPy 2.3.0 — не просто «ещё один апдейт», а шаг в будущее Python-научных расчётов. Вот как можно применять новые фичи уже сейчас — и чем они вам помогут.
1️⃣ Быстрая нарезка строк: numpy.strings.slice
Новая C-ускоренная функция для нарезки строк в массиве:
➡️ Поддерживает шаг, отрицательные индексы, работает на массиве сразу
➡️ Быстрее, чем
Где использовать:
— При очистке или стандартизации текстов
— При подготовке NLP-данных
— При обработке колонок со строками в датафреймах
2️⃣ Проверка на уникальность через set
Актуально всегда, но особенно в свете ускорений для Python без GIL:
➡️ Раньше → медленно на больших массивах
➡️ Теперь → работает быстро даже в многопотоке, особенно с
3️⃣ Ускоряйте поиск через set
До:
Теперь:
➡️ Используйте
4️⃣ Параллельные сборки через OpenMP
Теперь можно собирать NumPy с OpenMP:
Зачем:
— Ускорение NumPy-функций в CPU-heavy задачах
— Поддержка многопотока без GIL (free-threaded Python)
Подходит для:
— Data processing pipelines
— Объёмных array-вычислений
— Самописных модулей с NumPy в backend
5️⃣ Поддержка Windows on ARM (предварительно)
Если вы на ARM-ноутбуке (например, Surface или Snapdragon), NumPy теперь работает. Поддержка пока базовая, но этого уже достаточно для простых задач и Jupyter-анализа.
6️⃣ Free-threaded Python: под капотом
Пока что для большинства — «магия под капотом». Но если вы:
— Пишете ML/DS пайплайны
— Используете
— Работаете с multiprocessing/shared memory
➡️ Вам станет проще и быстрее. NumPy уже готов к миру без GIL.
🔗 Документация с интерактивными примерами: https://clc.to/YxihAw
Библиотека дата-сайентиста #буст
NumPy 2.3.0 — не просто «ещё один апдейт», а шаг в будущее Python-научных расчётов. Вот как можно применять новые фичи уже сейчас — и чем они вам помогут.
Новая C-ускоренная функция для нарезки строк в массиве:
import numpy as np
arr = np.array(["пример", "строка", "массив"], dtype="U")
sliced = np.strings.slice(arr, start=1, stop=-1)
print(sliced) # ['риме' 'трок' 'асси']
str[i:j]
в циклеГде использовать:
— При очистке или стандартизации текстов
— При подготовке NLP-данных
— При обработке колонок со строками в датафреймах
Актуально всегда, но особенно в свете ускорений для Python без GIL:
numbers = [1, 2, 3, 2, 4]
is_unique = len(numbers) == len(set(numbers))
free-threaded Python
До:
if "слово" in words: # медленно, если words — список
Теперь:
word_set = set(words)
if "слово" in word_set: # мгновенно
set()
для ускорения любых операций типа in
, особенно в циклах.Теперь можно собирать NumPy с OpenMP:
CFLAGS="-fopenmp" python -m pip install .
Зачем:
— Ускорение NumPy-функций в CPU-heavy задачах
— Поддержка многопотока без GIL (free-threaded Python)
Подходит для:
— Data processing pipelines
— Объёмных array-вычислений
— Самописных модулей с NumPy в backend
Если вы на ARM-ноутбуке (например, Surface или Snapdragon), NumPy теперь работает. Поддержка пока базовая, но этого уже достаточно для простых задач и Jupyter-анализа.
Пока что для большинства — «магия под капотом». Но если вы:
— Пишете ML/DS пайплайны
— Используете
concurrent.futures
или async
— Работаете с multiprocessing/shared memory
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍2
💀 Джуны: game over или новый уровень сложности
Рынок труда меняется: рекрутеры всё чаще ищут только сеньоров, AI автоматизирует задачи, которые раньше поручали джунам, а число выпускников буткемпов и курсов продолжает расти. Кажется, что для новичков всё закрыто…
Но так ли это на самом деле?
🤔 В новом материале разбираемся, что происходит с IT-рынком, почему джуниорам стало сложнее пробиться, и главное — какие стратегии работают в новых условиях.
Читайте:
➡️ Почему джуны — не «ненужные»
➡️ Как искусственный интеллект меняет роль начинающих
➡️ Какие навыки реально нужны на старте
➡️ Как адаптироваться, если только входите в профессию
👌 Ссылка на материал: https://proglib.io/sh/CXgFTZzRdc
Библиотека дата-сайентиста #буст
Рынок труда меняется: рекрутеры всё чаще ищут только сеньоров, AI автоматизирует задачи, которые раньше поручали джунам, а число выпускников буткемпов и курсов продолжает расти. Кажется, что для новичков всё закрыто…
Но так ли это на самом деле?
🤔 В новом материале разбираемся, что происходит с IT-рынком, почему джуниорам стало сложнее пробиться, и главное — какие стратегии работают в новых условиях.
Читайте:
👌 Ссылка на материал: https://proglib.io/sh/CXgFTZzRdc
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤3🤩2
💔AI vs Developer: who wins?
Бигтех уже режет найм разработчиков. Вайб-кодинг повсюду. Джуны не нужны. Но так ли это на самом деле?
Мы хотим разобраться, как ИИ влияет на рынок труда в IT. В реальности, а не в головах CEO или HR. Поэтому приглашаем пройти опрос.
Результаты нашего исследования позволят выяснить, сколько разработчиков потеряли работу из-за ИИ? Какие навыки сейчас ценятся больше всего? Кто зарабатывает больше — те, кто использует ИИ или игнорирует?
👾 Расскажите свою историю, чтобы помочь комьюнити: https://clc.to/aFntFw
Бигтех уже режет найм разработчиков. Вайб-кодинг повсюду. Джуны не нужны. Но так ли это на самом деле?
Мы хотим разобраться, как ИИ влияет на рынок труда в IT. В реальности, а не в головах CEO или HR. Поэтому приглашаем пройти опрос.
Результаты нашего исследования позволят выяснить, сколько разработчиков потеряли работу из-за ИИ? Какие навыки сейчас ценятся больше всего? Кто зарабатывает больше — те, кто использует ИИ или игнорирует?
👾 Расскажите свою историю, чтобы помочь комьюнити: https://clc.to/aFntFw
💦 River — библиотека для машинного обучения на лету
Если вы работаете с потоковыми данными или большими объёмами информации, которые поступают непрерывно, вам не всегда подойдёт классический подход к обучению моделей.
✅ River — это Python-библиотека для онлайн-обучения моделей машинного обучения. Она позволяет обновлять модель на лету, без необходимости переобучения на полном датасете.
Поддерживает:
— KNN, деревья решений, наивные байесовские модели
— Рекомендательные системы
— Линейные модели, ансамбли и многое другое
Подходит для:
— рекомендательных систем
— предсказания аномалий
— адаптивной аналитики
— мониторинга и real-time решений
🔗 Ссылка на GitHub: https://clc.to/k07Nfg
Библиотека дата-сайентиста #буст
Если вы работаете с потоковыми данными или большими объёмами информации, которые поступают непрерывно, вам не всегда подойдёт классический подход к обучению моделей.
Поддерживает:
— KNN, деревья решений, наивные байесовские модели
— Рекомендательные системы
— Линейные модели, ансамбли и многое другое
Подходит для:
— рекомендательных систем
— предсказания аномалий
— адаптивной аналитики
— мониторинга и real-time решений
🔗 Ссылка на GitHub: https://clc.to/k07Nfg
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍4🔥1🎉1
🔥 Не пропустите событие лета для DS-комьюнити
23 июня, 19:00 Мск — бесплатный вебинар с Никитой Зелинским «AI-агенты для DS: обзор курса и практические кейсы»
😤 Пока все обсуждают, «как бы внедрить LLM», мы покажем, как строить полноценных AI-агентов, которые делают работу вместо тебя. За час Никита разложит по полочкам:
— архитектуру курса и ключевые модули
— частые ошибки студентов, о которых не принято говорить вслух
— реальные юзкейсы: от чат-ассистентов до систем поддержки решений в проде
➡️ Что почитать от Никиты до Веба:
— Как adversarial-атаки живут даже при смене модели (и почему «подвинуть кровати в борделе» не спасёт)
— Самый быстрый пакетный менеджер uv и эксперимент «pip vs uv»
— 17 методов XAI и 20 метрик на NIPS’24: как не утонуть в «объяснимости»
⚡️ Хотели задать Никите свой каверзный вопрос? Ловите шанс: только в прямом эфире — отвечаем на всё, что обычно «остаётся за кадром».
⏰ МЕСТ МАЛО регистрация закроется, как только забьём комнату. Действуй сейчас → https://clc.to/1iGw6Q
23 июня, 19:00 Мск — бесплатный вебинар с Никитой Зелинским «AI-агенты для DS: обзор курса и практические кейсы»
— архитектуру курса и ключевые модули
— частые ошибки студентов, о которых не принято говорить вслух
— реальные юзкейсы: от чат-ассистентов до систем поддержки решений в проде
— Как adversarial-атаки живут даже при смене модели (и почему «подвинуть кровати в борделе» не спасёт)
— Самый быстрый пакетный менеджер uv и эксперимент «pip vs uv»
— 17 методов XAI и 20 метрик на NIPS’24: как не утонуть в «объяснимости»
⚡️ Хотели задать Никите свой каверзный вопрос? Ловите шанс: только в прямом эфире — отвечаем на всё, что обычно «остаётся за кадром».
⏰ МЕСТ МАЛО регистрация закроется, как только забьём комнату. Действуй сейчас → https://clc.to/1iGw6Q
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍1
🎬 Что посмотреть: 10 инструментов и техник Polars, которые прокачают ваши навыки в Data Science
В новом эпизоде подкаста Talk Python To Me рассказывают, почему Polars — отличная современная альтернатива Pandas для работы с данными.
Обсуждаем полезные библиотеки и расширения для Polars, которые делают работу удобнее и эффективнее.
Например:
✅ Patito — сочетание Pydantic и Polars для валидации данных
✅ polars\_encryption — добавление AES-шифрования для отдельных колонок
Если вы работаете с данными или хотите прокачать навыки в Data Science — этот эпизод точно для вас!
👉 Ссылка: https://clc.to/CjS-OA
Библиотека дата-сайентиста #буст
В новом эпизоде подкаста Talk Python To Me рассказывают, почему Polars — отличная современная альтернатива Pandas для работы с данными.
Обсуждаем полезные библиотеки и расширения для Polars, которые делают работу удобнее и эффективнее.
Например:
Если вы работаете с данными или хотите прокачать навыки в Data Science — этот эпизод точно для вас!
👉 Ссылка: https://clc.to/CjS-OA
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍1👏1
🎯 Как устроен процесс постановки задач в DS-проектах
Вопрос от нашего подписчика:
Работа дата-сайентиста редко начинается с чёткой фразы: «Построй, пожалуйста, модель классификации».
Чаще — с размытого бизнес-вопроса:
🗣 «Как нам уменьшить отток?»
🗣 «Можно ли предсказать спрос?»
🗣 «А что если применить ML и сделать лучше?»
Чтобы такие вопросы превратились в работающие ML-решения, нужен чёткий процесс постановки и валидации задачи:
1️⃣ Формулировка бизнес-проблемы
В идеале, формулировка задачи — совместная работа: PM или бизнес-стейкхолдер озвучивает цель (например, сократить убытки), а DS помогает уточнить, можно ли это формализовать и измерить.
Важно сразу понять:
— Что считается «успехом»?
— Какое решение будет полезно и внедряемо?
— Какие есть ограничения по данным, времени, интерпретируемости?
2️⃣ Перевод в ML-форму
Бизнес-вопрос → ML-задача.
Пример:
> Удержать пользователей → Задача бинарной классификации: уйдёт или нет?
На этом этапе определяем:
— Формат задачи: классификация, регрессия, кластеризация?
— Целевая переменная (target) и доступные фичи
— Источники данных и объём истории
3️⃣ Сбор и анализ данных
Иногда именно на этом этапе становится ясно, что:
— таргета нет,
— данные грязные или разрозненные,
— «то, что хотели предсказать», уже известно слишком поздно.
EDA (Exploratory Data Analysis) часто помогает откатиться назад и переформулировать задачу.
4️⃣ Формулировка гипотез и метрик
Пример гипотезы:
«Если мы предскажем churn за 7 дней, это даст маркетингу время для реакции».
Важно:
— Выбрать метрику качества, понятную бизнесу (например, Precision\@k, uplift, ROI)
— Понять, как будет выглядеть A/B или offline-валидация
— Зафиксировать baseline (что будет, если не использовать ML)
5️⃣ Ретроспектива и переопределение
Даже после запуска — постановка задачи не заканчивается.
Важно отслеживать:
— работает ли модель в реальности?
— совпадают ли результаты offline и online?
— не поменялись ли условия, под которые она была обучена?
💬 А как у вас в команде формируются ML-задачи? Кто участвует, что помогает, а что мешает? Расскажите в комментариях 👇
Библиотека дата-сайентиста #междусобойчик
Вопрос от нашего подписчика:
Кто в команде формулирует задачу для дата-сайентиста и как понять, что мы вообще решаем ту самую проблему?
Работа дата-сайентиста редко начинается с чёткой фразы: «Построй, пожалуйста, модель классификации».
Чаще — с размытого бизнес-вопроса:
🗣 «Как нам уменьшить отток?»
🗣 «Можно ли предсказать спрос?»
🗣 «А что если применить ML и сделать лучше?»
Чтобы такие вопросы превратились в работающие ML-решения, нужен чёткий процесс постановки и валидации задачи:
В идеале, формулировка задачи — совместная работа: PM или бизнес-стейкхолдер озвучивает цель (например, сократить убытки), а DS помогает уточнить, можно ли это формализовать и измерить.
Важно сразу понять:
— Что считается «успехом»?
— Какое решение будет полезно и внедряемо?
— Какие есть ограничения по данным, времени, интерпретируемости?
Бизнес-вопрос → ML-задача.
Пример:
> Удержать пользователей → Задача бинарной классификации: уйдёт или нет?
На этом этапе определяем:
— Формат задачи: классификация, регрессия, кластеризация?
— Целевая переменная (target) и доступные фичи
— Источники данных и объём истории
Иногда именно на этом этапе становится ясно, что:
— таргета нет,
— данные грязные или разрозненные,
— «то, что хотели предсказать», уже известно слишком поздно.
EDA (Exploratory Data Analysis) часто помогает откатиться назад и переформулировать задачу.
Пример гипотезы:
«Если мы предскажем churn за 7 дней, это даст маркетингу время для реакции».
Важно:
— Выбрать метрику качества, понятную бизнесу (например, Precision\@k, uplift, ROI)
— Понять, как будет выглядеть A/B или offline-валидация
— Зафиксировать baseline (что будет, если не использовать ML)
Даже после запуска — постановка задачи не заканчивается.
Важно отслеживать:
— работает ли модель в реальности?
— совпадают ли результаты offline и online?
— не поменялись ли условия, под которые она была обучена?
💬 А как у вас в команде формируются ML-задачи? Кто участвует, что помогает, а что мешает? Расскажите в комментариях 👇
Библиотека дата-сайентиста #междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍4
Юлия, мидл дата-сайнтист, делится опытом использования AI для анализа данных, автоматизации процессов и построения моделей машинного обучения.
Какие AI-инструменты помогают вам в работе? Пишите в комментариях 👇
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍6👾1
Яндекс начал внедрять в свои сервисы рекомендательные системы нового поколения — на базе больших генеративных моделей.
Это модели с трансформерной архитектурой, заточенной под анализ последовательных действий пользователя (user behavior modeling). Они учитывают в разы больше обезличенного контекста: от последовательности событий до типа взаимодействия.
Подход к обучению модели строился на двух принципах. Во-первых, исследователи смотрели целиком на всю анонимизированную историю пользователя. При этом добавляя глубину контекста взаимодействия: в какое время оно происходило, на каком устройстве был пользователь, на какой страничке продукта.
Историю пользователя можно разложить на некоторую последовательность троек вида (context, item, feedback), где context — это контекст взаимодействия, item — объект, с которым взаимодействует пользователь, а feedback — реакция пользователя на взаимодействие.
Во-вторых, определили две новых задачи задачи обучения. Первая — Next Item Prediction: предсказать, с каким айтемом будет взаимодействовать пользователь. Вторая — Feedback Prediction, предсказывание обратной связи. Подробнее почитать о том, как в компании совместили это в единую задачу обучения, можно на Хабре.
➡️ Что уже получилось
🔵Яндекс Музыка ещё в 2023 году внедрила в рекомендации генеративные нейросети, но новая модель в несколько раз больше. Новые модели в Яндекс Музыке работают онлайн - моментально реагируя на действия пользователей. В результате, повысилось и разнообразие рекомендаций и стало на 20% больше лайков на впервые услышанные в Моей волне треки.
🔵 В Яндекс Маркете алгоритмы теперь учитывают почти два года истории действий. Рекомендации стали учитывать сезонные паттерны — например, напоминать про баскетбольный мяч весной, если полгода назад вы интересовались кроссовками.
На сегодняшний день компания — одна из немногих в мире, кто разработал и внедрил такие системы в продакшн.
Это модели с трансформерной архитектурой, заточенной под анализ последовательных действий пользователя (user behavior modeling). Они учитывают в разы больше обезличенного контекста: от последовательности событий до типа взаимодействия.
Подход к обучению модели строился на двух принципах. Во-первых, исследователи смотрели целиком на всю анонимизированную историю пользователя. При этом добавляя глубину контекста взаимодействия: в какое время оно происходило, на каком устройстве был пользователь, на какой страничке продукта.
Историю пользователя можно разложить на некоторую последовательность троек вида (context, item, feedback), где context — это контекст взаимодействия, item — объект, с которым взаимодействует пользователь, а feedback — реакция пользователя на взаимодействие.
Во-вторых, определили две новых задачи задачи обучения. Первая — Next Item Prediction: предсказать, с каким айтемом будет взаимодействовать пользователь. Вторая — Feedback Prediction, предсказывание обратной связи. Подробнее почитать о том, как в компании совместили это в единую задачу обучения, можно на Хабре.
➡️ Что уже получилось
🔵Яндекс Музыка ещё в 2023 году внедрила в рекомендации генеративные нейросети, но новая модель в несколько раз больше. Новые модели в Яндекс Музыке работают онлайн - моментально реагируя на действия пользователей. В результате, повысилось и разнообразие рекомендаций и стало на 20% больше лайков на впервые услышанные в Моей волне треки.
🔵 В Яндекс Маркете алгоритмы теперь учитывают почти два года истории действий. Рекомендации стали учитывать сезонные паттерны — например, напоминать про баскетбольный мяч весной, если полгода назад вы интересовались кроссовками.
На сегодняшний день компания — одна из немногих в мире, кто разработал и внедрил такие системы в продакшн.
❤6👍4🔥1