Telegram Web
This media is not supported in your browser
VIEW IN TELEGRAM
💡 Data Drift и как его «поймать»

🧠 Что такое KL divergence
KL divergence измеряет, насколько одно распределение данных отличается от другого.

🤔 Как применяется в мониторинге
После развертывания модели KL divergence помогает измерить разницу между распределением данных на тренировке (референс) и в продакшене. Если значение превышает установленный порог, это сигнализирует о возможной деградации модели.

🔹Преимущество
Чувствителен к небольшим изменениям в данных, что позволяет быстро обнаружить даже слабые признаки дрейфа.
🔸Ограничение
Может выдавать ложные срабатывания, реагируя на шум или выбросы.

Используете KL divergence или знаете другие подходы для отслеживания дрейфа? Пишите в комментариях 👇

#datadrift #KLDivergence #monitoring #machinelearning
👍91
This media is not supported in your browser
VIEW IN TELEGRAM
📊 Нужны ли дополнительные данные для модели

Если производительность модели почти не улучшается, несмотря на feature engineering и смену моделей, возможно, данных недостаточно.

Но сбор новых данных — это трудоёмко. Вот как проверить, помогут ли они:
1. Разделите обучающую выборку на k равных частей (7–12 обычно достаточно).
2. Поочерёдно обучайте модель: на 1 части, затем на 2, затем на 3, и так далее.
3. Оцените каждую модель на валидационной выборке.
4. Постройте график, который покажет зависимость производительности от объема данных.

📈 Линия растёт? Добавление данных улучшит модель.
📉 Линия стабильна? Собранные данные исчерпали потенциал.

Простой способ избежать лишней работы!

#данные #modeloptimization
🔥13👍61
🚀 Cosmograph для Python — GPU-ускоренный инструмент для интерактивной визуализации графов

Cosmograph — это мощное веб-приложение для анализа больших графов и векторных представлений (эмбеддингов) машинного обучения.

Возможности
⛓️ Панорамирование, масштабирование, подсветка и выбор узлов.
⚙️ API для изменения макета, цвета, размера и других параметров.
📦 Простая установка через pip install cosmograph.

Проект

#визуализация #графы #Jupyter
👍84😁1
🌍 Отчет «Будущее рабочих мест» от Всемирного экономического форума

Рынок труда меняется быстрее, чем мы могли себе представить, благодаря технологическим достижениям, таким как ИИ и Большие данные.

Основные выводы
📊 86% компаний ожидают, что технологии ИИ и обработки информации преобразят их бизнес к 2030 году.

📈 Самые востребованные профессии к 2030 году:
1. Специалисты по Большим данным
2. Финтех-инженеры
3. Эксперты по ИИ и машинному обучению
4. Разработчики ПО и приложений
5. Специалисты по кибербезопасности

📉 Профессии, которые теряют актуальность:
1. Клерки и кассиры
2. Административные помощники
3. Работники печатной отрасли
4. Бухгалтеры

Ваше мнение?
👍7😁6🤔2
🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
🥰1
Golang vs Python: Что выбрать для проекта

Python 🐍 — лучший выбор для Data Science 📊 и Machine Learning 🤖. Это динамично типизированный язык с огромной экосистемой библиотек (Pandas, NumPy, TensorFlow), что делает его идеальным для анализа данных и разработки моделей. Однако Python относительно медленный, так как это интерпретируемый язык.

Go (Golang) 🚀 — статически типизированный, компилируемый язык с высокой производительностью . Он идеально подходит для разработки веб-сервисов 🌐, конкурентных программ 💻 и системных инструментов 🔧 благодаря легковесным горутинам. Но его экосистема для Data Science менее развита.

Когда выбрать Python:
- Для анализа данных и разработки моделей.
- Для быстрого прототипирования.

Когда выбрать Go:
- Для высокопроизводительных веб-сервисов.
- Для системных инструментов и программ с высокой конкуренцией.

Выбор зависит от задач проекта! 🤷‍♂️

#Python #Golang
👍4🥱2
This media is not supported in your browser
VIEW IN TELEGRAM
🔢 7 способов кодирования категориальных данных

При работе с категориальными данными в машинном обучении, выбор способа их преобразования имеет решающее значение.

1. One-Hot Encoding
Каждая категория превращается в отдельный бинарный столбец.
Пример: Цвета → Зеленый: [1, 0, 0], Красный: [0, 1, 0].

2. Dummy Encoding
Как One-Hot, но один столбец исключается, чтобы избежать дублирования информации.

3. Effect Encoding
Категории кодируются бинарно, но ряды с нулями заменяются на -1 для создания баланса.

4. Label Encoding
Каждой категории присваивается уникальное числовое значение.
Пример: Зеленый = 1, Красный = 2, Черный = 3.

5. Ordinal Encoding
Порядковое кодирование, где категории ранжируются по важности.
Пример: XS = 1, S = 2, M = 3, L = 4.

6. Count Encoding
Категории заменяются частотой их встречаемости в данных.

7. Binary Encoding
Категории преобразуются в бинарный код.
Пример: Зеленый = 01, Красный = 10.

Какой метод вы используете чаще всего? 👇

#Encoding
👍121
📊 Что такое калибровка моделей

Калибровка модели измеряет, насколько предсказанные вероятности соответствуют реальной результативности. Например, если модель предсказывает вероятность 70%, она должна быть правильной 70% времени для схожих предсказаний.

Почему это важно
Два одинаково точных (90%) модели могут давать разные уровни уверенности. Одна может иметь правдоподобные вероятности, а другая — чрезмерно уверенные предсказания. В реальных приложениях важно иметь надежные вероятности, а не просто точность.

Проблемы калибровки:
- Переоценка: модель дает слишком высокие вероятности.
- Недооценка: модель дает слишком низкие вероятности.
- Комбинированная ошибка: модель то переоценивает, то недооценяет.

Подбробнее

#калибровкамоделей
👍51
🧹 Важность очистки данных: вызовы и решения

Очистка данных — это сложная и многогранная задача, особенно когда речь идет о больших наборах данных. Чем больше данных, тем сложнее их очистить. В статье рассматриваются ключевые моменты: как балансировать между удалением и заменой пропущенных значений, почему важно понимать, почему данные отсутствуют.

👩‍💻 Узнайте, как эффективно подходить к очистке данных и как это влияет на качество ваших исследований!

👉 Статья

#данные #очисткаданных
🔥5👍3
🐍🃏 Как написать пасьянс на Python

Пасьянс «Косынка» — одна из самых популярных карточных игр.

👍 В этой статье мы разберем, как реализовать «Косынку» с использованием библиотеки Tkinter: детально рассмотрим логику игры, настройки интерфейса, а также визуализацию и обработку перемещений карт.

🤓 Статья

#игрынаPython
👍3
Data Scientist vs. Data Engineer vs. Data Analyst vs. ML Engineer

Разница между профессиями Data Scientist, Data Engineer, Data Analyst и ML Engineer заключается в их ключевых задачах, инструментах и области ответственности.

#CareerInTech
😁9🔥5👍4
2025/07/12 13:34:35
Back to Top
HTML Embed Code: