Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение 6555

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆎 Что делать, если A/B-тесты врут

Классическая схема A/B-разбиения работает, только если пользователи не влияют друг на друга. Но что, если это не так?
⠀
Такси, доставка, соцсети — в таких системах старый добрый user_id → контроль / тест уже не спасает. Метрики искажаются, а выводы могут привести к ошибочным решениям.
⠀
👉 В карточках — 5 важных выводов.

🔗 В статье — разбор альтернатив: https://proglib.io/sh/lNqAnLfe9J

Библиотека дата-сайентиста #буст

👍5🔥2❤1

1.62K views18:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

😱 Завтра цена на курс «AI-агенты для DS» вырастет

Пока вы думаете — другие уже покупают. Что вы теряете, откладывая решение? Как минимум — 10 000 рублей, именно столько вы переплатите завтра. Как максимум — шанс войти в топ-1% дата-сайентистов, которые умеют строить AI-агенты.

🎓 Чему вы научитесь на курсе:
— адаптировать LLM под разные предметные области и данные
— собирать свою RAG-систему: от ретривера и реранкера до генератора и оценки качества
— строить AI-агентов с нуля — на основе сценариев, функций и взаимодействия с внешней средой

Решение за вами.

👉 Купить курс по старой цене

proglib.academy

Курс|AI-агенты для DS-специалистов

На курсе ты разберёшься, как работают AI-агенты и как их применять в работе — от текстовых помощников до систем, помогающих принимать решения. Разберем архитектуру агентов, связку с внешними API, пайплайны действий и популярные библиотеки. Курс включает реальные…

❤1

1.46K views07:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Были или не было? 😆

Библиотека дата-сайентиста #развлекалово

😁8👍4💯1

1.54K views09:09

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🕵️‍♂️ Data Science-челлендж для тех, кто не боится настоящих ошибок

Когда модель слишком хороша, чтобы быть правдой — скорее всего, где-то утечка.

Про data leakage знают все. Но теория — это просто.
А как насчёт практики: сможете ли вы найти, где модель обучается на «будущем»?

👍

Ваш кейс: вы — дата-сайентист в авиакомпании.

Ваша задача — предсказать вероятность аварии до вылета. У вас реальные данные: техобслуживание, параметры двигателей, логи. Всё выглядит надёжно. Но... сколько утечек вы допустите, прежде чем поймёте, почему F1-score такой высокий?

👍

Проверьте себя

1️⃣

Вопрос

Вы используете данные из чёрного ящика и пост-полётные отчёты (Altitude, Alerts, Warnings, Outcome).

❓ Можно ли использовать это для предсказания до взлета?

Ответ: → Нельзя. Это данные из будущего. Temporal Leakage. Удаляйте все пост-фактум признаки.
✅ +12 баллов за правильный ответ

2️⃣

Вопрос

Вы добавили колонку history_file — из какого .csv пришёл самолёт: no_accidents.csv или previous_accidents.csv.

❓ Вроде логично?

Ответ: → Нет. Вы зашили таргет в признаки. Это прямая утечка.
✅ +1 балл за правильный ответ

3️⃣

Вопрос

В датасете есть Tail# и Flight# — уникальные ID самолёта и рейса.

❓ Стоит ли их оставлять?

Ответ: → Нет. Это Entity Leakage. Модель может просто запомнить, что «этот борт не ломается».
✅ +2 балла за правильный ответ

4️⃣

Вопрос

Вы делите данные случайным образом (random split), не учитывая дату рейса (Date).

❓ Это важно?

Ответ: → Да. Если train использует рейсы из будущего, а test — из прошлого, это Temporal Leakage.
✅ +1 балл за правильный ответ

5️⃣

Вопрос

Вы считаете корреляции, запускаете PCA — до split'а на train/test.

❓ Есть риск?

Ответ: → Да. Это Data Analysis Leakage — модель знает про тест заранее.
✅ +1 балл за правильный ответ

Максимум баллов — 17.
Набрали больше 14? Значит, умеете не просто строить модели, а и замечать опасные утечки.
Меньше 10? Самое время пересмотреть подход к построению пайплайнов и анализу данных.

💬 Делитесь результатами и находками в комментариях — особенно если нашли что-то, что мы упустили.

Библиотека дата-сайентиста #междусобойчик

Please open Telegram to view this post

VIEW IN TELEGRAM

❤10👍4🔥1

1.69K views13:09

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

✈️

Свежие новости из мира AI и Data Science

🚀 Модели, конференции и релизы:
— CVPR 2025 — главная конференция по компьютерному зрению уже в июне: новые статьи, прорывы и тренды
— OpenAI o3-pro — новая reasoning-модель с пошаговым решением задач и улучшенной стабильностью
— Magistral от Mistral — open-source reasoning-модель с мультилингвальностью и высокой скоростью
— Блог Сэма Альтмана — как мы вступаем в эру суперразума: когнитивные агенты, наука и роботы до 2027
— Scikit-learn 1.7 — свежий релиз с полезными улучшениями

🧠 Исследования и практика:
— Claude Code Tips — как в Anthropic используют Claude 4 как код-ассистента и агент
— Футбол + байесовщина — предсказание матчей в реальном времени: статистика в действии

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤2🔥1

1.86K views13:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Библиотека задач по Data Science

❤1

1.63K views07:20

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Что выведет код?

Anonymous Quiz

378 voters1.65K views07:20

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💫

Топ-вакансий для дата-сайентистов за неделю

Data Engineer —‍ от 400 000 до 500 000 ₽, гибрид (Москва)

Дата-аналитик (Бизнес-юнит) —‍ от 200 000 ₽, гибрид (Санкт-Петербург)

Product Lead (Acquisition), гибрид (Санкт-Петербург, Тбилиси)

ML Engineer (Почта) —‍ от 200 000 до 500 000 ₽, гибрид (Москва)

Data Engineer, удалёнка

Data Governance Analyst, удалёнка (Москва)

➡️ Еще больше топовых вакансий — в нашем канале Data jobs

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

1.65K views18:34

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🛠 How-to: что полезного появилось в NumPy 2.3.0 — и как это использовать

NumPy 2.3.0 — не просто «ещё один апдейт», а шаг в будущее Python-научных расчётов. Вот как можно применять новые фичи уже сейчас — и чем они вам помогут.

1️⃣

Быстрая нарезка строк: numpy.strings.slice

Новая C-ускоренная функция для нарезки строк в массиве:

import numpy as np

arr = np.array(["пример", "строка", "массив"], dtype="U")
sliced = np.strings.slice(arr, start=1, stop=-1)
print(sliced)  # ['риме' 'трок' 'асси']

➡️ Поддерживает шаг, отрицательные индексы, работает на массиве сразу
➡️ Быстрее, чем str[i:j] в цикле

Где использовать:
— При очистке или стандартизации текстов
— При подготовке NLP-данных
— При обработке колонок со строками в датафреймах

2️⃣

Проверка на уникальность через set

Актуально всегда, но особенно в свете ускорений для Python без GIL:

numbers = [1, 2, 3, 2, 4]
is_unique = len(numbers) == len(set(numbers))

➡️ Раньше → медленно на больших массивах
➡️ Теперь → работает быстро даже в многопотоке, особенно с free-threaded Python

3️⃣

Ускоряйте поиск через set

До:

if "слово" in words:  # медленно, если words — список

Теперь:

word_set = set(words)
if "слово" in word_set:  # мгновенно

➡️ Используйте set() для ускорения любых операций типа in, особенно в циклах.

4️⃣

Параллельные сборки через OpenMP

Теперь можно собирать NumPy с OpenMP:

CFLAGS="-fopenmp" python -m pip install .

Зачем:
— Ускорение NumPy-функций в CPU-heavy задачах
— Поддержка многопотока без GIL (free-threaded Python)

Подходит для:
— Data processing pipelines
— Объёмных array-вычислений
— Самописных модулей с NumPy в backend

5️⃣

Поддержка Windows on ARM (предварительно)

Если вы на ARM-ноутбуке (например, Surface или Snapdragon), NumPy теперь работает. Поддержка пока базовая, но этого уже достаточно для простых задач и Jupyter-анализа.

6️⃣

Free-threaded Python: под капотом

Пока что для большинства — «магия под капотом». Но если вы:
— Пишете ML/DS пайплайны
— Используете concurrent.futures или async
— Работаете с multiprocessing/shared memory

➡️ Вам станет проще и быстрее. NumPy уже готов к миру без GIL.

🔗

Документация с интерактивными примерами: https://clc.to/YxihAw

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍2

1.7K views09:09

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💀 Джуны: game over или новый уровень сложности

Рынок труда меняется: рекрутеры всё чаще ищут только сеньоров, AI автоматизирует задачи, которые раньше поручали джунам, а число выпускников буткемпов и курсов продолжает расти. Кажется, что для новичков всё закрыто…

Но так ли это на самом деле?

🤔 В новом материале разбираемся, что происходит с IT-рынком, почему джуниорам стало сложнее пробиться, и главное — какие стратегии работают в новых условиях.

Читайте:
➡️ Почему джуны — не «ненужные»
➡️ Как искусственный интеллект меняет роль начинающих
➡️ Какие навыки реально нужны на старте
➡️ Как адаптироваться, если только входите в профессию

👌 Ссылка на материал: https://proglib.io/sh/CXgFTZzRdc

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤3🤩2

1.88K views18:36

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💔AI vs Developer: who wins?

Бигтех уже режет найм разработчиков. Вайб-кодинг повсюду. Джуны не нужны. Но так ли это на самом деле?

Мы хотим разобраться, как ИИ влияет на рынок труда в IT. В реальности, а не в головах CEO или HR. Поэтому приглашаем пройти опрос.

Результаты нашего исследования позволят выяснить, сколько разработчиков потеряли работу из-за ИИ? Какие навыки сейчас ценятся больше всего? Кто зарабатывает больше — те, кто использует ИИ или игнорирует?

👾 Расскажите свою историю, чтобы помочь комьюнити: https://clc.to/aFntFw

1.66K views06:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💦 River — библиотека для машинного обучения на лету

Если вы работаете с потоковыми данными или большими объёмами информации, которые поступают непрерывно, вам не всегда подойдёт классический подход к обучению моделей.

✅ River — это Python-библиотека для онлайн-обучения моделей машинного обучения. Она позволяет обновлять модель на лету, без необходимости переобучения на полном датасете.

Поддерживает:
— KNN, деревья решений, наивные байесовские модели
— Рекомендательные системы
— Линейные модели, ансамбли и многое другое

Подходит для:
— рекомендательных систем
— предсказания аномалий
— адаптивной аналитики
— мониторинга и real-time решений

🔗 Ссылка на GitHub: https://clc.to/k07Nfg

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍4🔥1🎉1

1.75K views08:08

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Не пропустите событие лета для DS-комьюнити

23 июня, 19:00 Мск — бесплатный вебинар с Никитой Зелинским «AI-агенты для DS: обзор курса и практические кейсы»

😤 Пока все обсуждают, «как бы внедрить LLM», мы покажем, как строить полноценных AI-агентов, которые делают работу вместо тебя. За час Никита разложит по полочкам:
— архитектуру курса и ключевые модули
— частые ошибки студентов, о которых не принято говорить вслух
— реальные юзкейсы: от чат-ассистентов до систем поддержки решений в проде

➡️ Что почитать от Никиты до Веба:

— Как adversarial-атаки живут даже при смене модели (и почему «подвинуть кровати в борделе» не спасёт)
— Самый быстрый пакетный менеджер uv и эксперимент «pip vs uv»
— 17 методов XAI и 20 метрик на NIPS’24: как не утонуть в «объяснимости»

⚡️ Хотели задать Никите свой каверзный вопрос? Ловите шанс: только в прямом эфире — отвечаем на всё, что обычно «остаётся за кадром».

⏰ МЕСТ МАЛО регистрация закроется, как только забьём комнату. Действуй сейчас → https://clc.to/1iGw6Q

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍1

1.48K views16:58

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Библиотека дата-сайентиста #развлекалово

😁8🔥3👍1

1.58K views18:22

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎬 Что посмотреть: 10 инструментов и техник Polars, которые прокачают ваши навыки в Data Science

В новом эпизоде подкаста Talk Python To Me рассказывают, почему Polars — отличная современная альтернатива Pandas для работы с данными.

Обсуждаем полезные библиотеки и расширения для Polars, которые делают работу удобнее и эффективнее.

Например:
✅ Patito — сочетание Pydantic и Polars для валидации данных
✅ polars\_encryption — добавление AES-шифрования для отдельных колонок

Если вы работаете с данными или хотите прокачать навыки в Data Science — этот эпизод точно для вас!

👉 Ссылка: https://clc.to/CjS-OA

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍1👏1

1.44K views07:04

2025/07/08 18:00:08
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>