Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⚙️

AI-инструменты в работе дата-сайнтиста

Юлия, мидл дата-сайнтист, делится опытом использования AI для анализа данных, автоматизации процессов и построения моделей машинного обучения.

Какие AI-инструменты помогают вам в работе? Пишите в комментариях 👇

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1.4K views09:40

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Яндекс начал внедрять в свои сервисы рекомендательные системы нового поколения — на базе больших генеративных моделей.

Это модели с трансформерной архитектурой, заточенной под анализ последовательных действий пользователя (user behavior modeling). Они учитывают в разы больше обезличенного контекста: от последовательности событий до типа взаимодействия.

Подход к обучению модели строился на двух принципах. Во-первых, исследователи смотрели целиком на всю анонимизированную историю пользователя. При этом добавляя глубину контекста взаимодействия: в какое время оно происходило, на каком устройстве был пользователь, на какой страничке продукта.

Историю пользователя можно разложить на некоторую последовательность троек вида (context, item, feedback), где context — это контекст взаимодействия, item — объект, с которым взаимодействует пользователь, а feedback — реакция пользователя на взаимодействие.

Во-вторых, определили две новых задачи задачи обучения. Первая — Next Item Prediction: предсказать, с каким айтемом будет взаимодействовать пользователь. Вторая — Feedback Prediction, предсказывание обратной связи. Подробнее почитать о том, как в компании совместили это в единую задачу обучения, можно на Хабре.

➡️ Что уже получилось

🔵Яндекс Музыка ещё в 2023 году внедрила в рекомендации генеративные нейросети, но новая модель в несколько раз больше. Новые модели в Яндекс Музыке работают онлайн - моментально реагируя на действия пользователей. В результате, повысилось и разнообразие рекомендаций и стало на 20% больше лайков на впервые услышанные в Моей волне треки.

🔵 В Яндекс Маркете алгоритмы теперь учитывают почти два года истории действий. Рекомендации стали учитывать сезонные паттерны — например, напоминать про баскетбольный мяч весной, если полгода назад вы интересовались кроссовками.
На сегодняшний день компания — одна из немногих в мире, кто разработал и внедрил такие системы в продакшн.

1.3K views15:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📊

Математика для Data Science: терминология и обозначения

Для работы с данными нужны базовые математические знания. В первой статье нашего путеводителя разбираем ключевые символы и термины Data Science.

В выпуске:
• действительные и комплексные числа,
• векторы и матрицы,
• компактная запись сумм и произведений (сигма- и пи-нотация),
• обзор логарифмов.

Начинаем с основ, чтобы уверенно двигаться к сложным темам!

▶️ Читайте по ссылке: https://proglib.io/sh/pSwegRq1o0

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

1.2K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

так более профессионально 😆

Библиотека дата-сайентиста #развлекалово

1.1K views09:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

😐

Холивар: метрика Accuracy — вообще уместна ли в реальных задачах

Особенно — при дисбалансе классов.

▶️

Что такое Accuracy

Accuracy (точность классификации) — доля правильно предсказанных объектов:

accuracy = (TP + TN) / (TP + TN + FP + FN)

Но… эта метрика вводит в заблуждение, когда классы несбалансированы.

▶️

Пример

Допустим, модель предсказывает мошенничество (fraud) по транзакциям:
👉 Класс 0 — «не мошенничество» — 99.5%
👉 Класс 1 — «мошенничество» — 0.5%

# Модель всегда говорит не мошенничество
y_pred = [0] * 1000
y_true = [0]*995 + [1]*5

from sklearn.metrics import accuracy_score
accuracy_score(y_true, y_pred)  # → 0.995

📈 Accuracy = 99.5%. Но модель никогда не находит мошенников. Она бесполезна.

▶️

Почему это проблема

👉 Смещение метрики: высокий accuracy может скрывать полное отсутствие качества по минорному классу
👉 Нет контроля над важными ошибками: FP и FN не различаются по «цене»
👉 Опасно в задачах медицины, безопасности, финансов

▶️

Когда Accuracy всё-таки уместна

👉 Классы сбалансированы
👉 FP и FN одинаково критичны
👉 Модель baseline или задача игрушечная
👉 Используется совместно с другими метриками

▶️

Альтернативы

👉 Precision / Recall / F1-score
👉 ROC-AUC / PR-AUC
👉 Balanced Accuracy
👉 Cohen’s Kappa, MCC
👉 Confusion matrix — всегда полезно посмотреть

💬 А вы что используете в своих задачах с дисбалансом классов? Бывали ситуации, где accuracy сыграла с вами злую шутку?

Библиотека дата-сайентиста #междусобойчик

Please open Telegram to view this post

VIEW IN TELEGRAM

1.2K views13:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

😱 Уже завтра — вебинар про AI-агентов! Мест почти не осталось

На вебинаре вы получите то, чего нет в открытых источниках — живой разбор, примеры и прямой диалог с экспертом. Но только если придёте.

➡️ Что будет:
— покажем структуру курса и ключевые модули
— обсудим вопросы, которые обычно остаются за кадром
— разберём реальные кейсы: как применять AI-агентов — от чат-ботов до систем поддержки решений

📅 Уже 23 июня в 19:00 МСК
🎙️ Ведёт Никита Зелинский — эксперт в AI и DS

👉 Зарегистрируйтесь заранее, чтобы не забыть:
https://clc.to/_lDV0Q

🫢 Для тех, кто дочитал до конца → промокод lucky, он даст −5.000₽ на курс

1.0K views09:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📦 Polars 1.31: динамическая работа с типами данных в LazyFrame

Свежий релиз Polars приносит важное обновление: DataType Expressions, которые позволяют лениво определять типы данных выражений и колонок. Теперь можно строить более гибкие и повторно используемые запросы, не вызывая .collect_schema().

Раньше невозможно было «на лету» привести тип данных столбца, не зная его заранее. Теперь это можно сделать с помощью новой функции:

pl.dtype_of("column_name")  # вернет DataTypeExpr

Примеры использования:

lf = pl.scan_parquet("path/to/file")

lf.with_columns(
    a = pl.col("b").cast(pl.dtype_of("c"))
).collect()

Также появились удобные методы для работы с DataTypeExpr:
— .supertype_with()
— .equals() / .not_equals()
— .repr()

➡️ Это MVP-функциональность, поэтому для некоторых выражений (например, shrink_dtype, reshape) пока будет выбрасываться ошибка.

📚 Документация и детали: https://clc.to/uxiJPQ

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

1.0K views11:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👍 Свежие новости из мира AI и Data Science

🚀 Модели, платформы и агенты
— Gemini 2.5 обновлён — Google расширяет линейку: появились Flash, Pro и Flash-Lite Preview
— OpenAI: практическое руководство по агентам — как выстраивать агентную архитектуру с защитами, обратной связью и менеджером
— Midjourney запускает видео-модель — генерация 5-секундных роликов из изображений уже в браузере

🛡 Исследования и безопасность
— SHADE-Arena от Anthropic — бенчмарк для выявления скрытого вредоносного поведения моделей в сложных задачах
— Новая речь Дженсена Хуана (NVIDIA) — ключевые тренды: AI-заводы, агентные системы, новая волна вычислений
— Альтман vs Meta* — зачем Meta* предлагала \$100M бонусы и что OpenAI планирует дальше

🔍 Практика и статьи
— Генерация синтетических документов
— ML-пайплайн от А до Я
— Как обучать модели прогнозировать грозы
— Обнаружение аномалий во временных рядах
— Тест LLM на RTX 3090 vs 2×5060 Ti

🧑‍💻 Для развития
— Зачем писать промпты в 2025-м — даже если вы не программист
— Как начать изучать DS/ML сейчас
— Karpathy: Software Is Changing Again — краткий доклад о будущем ИТ в эпоху ИИ

* признанной экстремистской на территории Российской Федерации

Библиотека дата-сайентиста #свежак

1.1K viewsedited 13:11

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Библиотека задач по Data Science

1.0K views07:22

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Ответ:

Anonymous Poll

315 voters1.0K views07:22

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💫

Топ-вакансий для дата-сайентистов за неделю

Data Scientist (Junior) —‍ до 90 000 ₽, удалёнка (Москва)

Machine Learning Engineer (VK Реклама) —‍ от 350 000 ₽, гибрид (Москва)

ML researcher —‍ до 300 000 ₽, удалёнка

Data Scientist —‍ от 300 000 до 400 000 ₽, удалёнка

➡️ Еще больше топовых вакансий — в нашем канале Data jobs

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

1.0K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔴

Dataframely — проверка схем и валидация для Polars

Dataframely — это мощная библиотека для валидации данных в Polars DataFrame с поддержкой как runtime-проверок, так и статической типизации.

🔳 Особенность — удобная работа с комплексными схемами, строгими типами и кастомными правилами валидации.

Пример определения схемы пользователя:

import polars as pl
import dataframely as dy

class UserSchema(dy.Schema):
    user_id = dy.Int64(primary_key=True, min=1, nullable=False)
    age = dy.Int64(nullable=False)
    email = dy.String(nullable=False, regex=r"^[^@]+@[^@]+\.[^@]+$")
    score = dy.Float64(nullable=False, min=0.0, max=100.0)

    @dy.rule()
    def age_in_range() -> pl.Expr:
        return pl.col("age").is_between(18, 80, closed="both")

— Объявляем типы и ограничения для колонок (в том числе primary key)
— Добавляем регулярные выражения для проверки email
— Пишем кастомные правила через декоратор @dy.rule() (например, проверка возраста)

Проверка данных и автоматическое приведение типов:

validated_data = UserSchema.validate(user_data, cast=True)

cast=True помогает автоматически привести типы колонок к нужным (например, если числа загружены как строки).

🔛

Мягкая валидация с подробным анализом ошибок

Dataframely не просто выбрасывает ошибку, а даёт подробный отчёт о невалидных строках:

good_data, failure_info = UserSchema.filter(user_data, cast=True)

print("Количество валидных строк:", len(good_data))
print("Статистика ошибок:", failure_info.counts())
print("Анализ совмещённых ошибок:", failure_info.cooccurrence_counts())
print("Не прошедшие проверку данные:", failure_info.invalid())

🔛

Почему это круто:
— Типобезопасность и проверка на этапе выполнения
— Интеграция с Polars — современным и быстрым DataFrame-фреймворком
— Гибкие правила валидации (включая regex и кастомные функции)
— Подробный разбор ошибок с возможностью работать с валидными и невалидными строками отдельно

🔛 Ссылка на проект: https://clc.to/turByA

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

800 views07:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧠 Математика для Data Science: с чего начать

Если вы хотите уверенно читать статьи, книги и документацию по Data Science, без знания математического языка не обойтись. Но с чего начать, чтобы не утонуть в формулах?

📌 Мы запускаем серию статей, где по шагам разберем все ключевые темы: от базовых обозначений до сложных алгоритмов.

👀 В первой части — самые основы:
— Что такое ℝ, ℕ, ℤ, ℂ и зачем это знать
— Как устроены векторы и матрицы
— Как читать ∑ и ∏ без паники
— Почему логарифмы — лучшие друзья аналитика

🔗 Читайте первую статью и заложите прочный фундамент для освоения Data Science: https://proglib.io/sh/pSwegRq1o0

Библиотека дата-сайентиста #буст

538 views18:03

2025/06/24 22:47:49
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>