tgoop.com »
United States »
Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение » Telegram Web
This media is not supported in your browser
VIEW IN TELEGRAM
💡 Data Drift и как его «поймать»
🧠 Что такое KL divergence
KL divergence измеряет, насколько одно распределение данных отличается от другого.
🤔 Как применяется в мониторинге
После развертывания модели KL divergence помогает измерить разницу между распределением данных на тренировке (референс) и в продакшене. Если значение превышает установленный порог, это сигнализирует о возможной деградации модели.
🔹Преимущество
Чувствителен к небольшим изменениям в данных, что позволяет быстро обнаружить даже слабые признаки дрейфа.
🔸Ограничение
Может выдавать ложные срабатывания, реагируя на шум или выбросы.
Используете KL divergence или знаете другие подходы для отслеживания дрейфа? Пишите в комментариях 👇
#datadrift #KLDivergence #monitoring #machinelearning
🧠 Что такое KL divergence
KL divergence измеряет, насколько одно распределение данных отличается от другого.
🤔 Как применяется в мониторинге
После развертывания модели KL divergence помогает измерить разницу между распределением данных на тренировке (референс) и в продакшене. Если значение превышает установленный порог, это сигнализирует о возможной деградации модели.
🔹Преимущество
Чувствителен к небольшим изменениям в данных, что позволяет быстро обнаружить даже слабые признаки дрейфа.
🔸Ограничение
Может выдавать ложные срабатывания, реагируя на шум или выбросы.
Используете KL divergence или знаете другие подходы для отслеживания дрейфа? Пишите в комментариях 👇
#datadrift #KLDivergence #monitoring #machinelearning
👍9❤1
This media is not supported in your browser
VIEW IN TELEGRAM
📊 Нужны ли дополнительные данные для модели
Если производительность модели почти не улучшается, несмотря на feature engineering и смену моделей, возможно, данных недостаточно.
Но сбор новых данных — это трудоёмко. Вот как проверить, помогут ли они:
1. Разделите обучающую выборку на k равных частей (7–12 обычно достаточно).
2. Поочерёдно обучайте модель: на 1 части, затем на 2, затем на 3, и так далее.
3. Оцените каждую модель на валидационной выборке.
4. Постройте график, который покажет зависимость производительности от объема данных.
📈 Линия растёт? Добавление данных улучшит модель.
📉 Линия стабильна? Собранные данные исчерпали потенциал.
Простой способ избежать лишней работы!
#данные #modeloptimization
Если производительность модели почти не улучшается, несмотря на feature engineering и смену моделей, возможно, данных недостаточно.
Но сбор новых данных — это трудоёмко. Вот как проверить, помогут ли они:
1. Разделите обучающую выборку на k равных частей (7–12 обычно достаточно).
2. Поочерёдно обучайте модель: на 1 части, затем на 2, затем на 3, и так далее.
3. Оцените каждую модель на валидационной выборке.
4. Постройте график, который покажет зависимость производительности от объема данных.
📈 Линия растёт? Добавление данных улучшит модель.
📉 Линия стабильна? Собранные данные исчерпали потенциал.
Простой способ избежать лишней работы!
#данные #modeloptimization
🔥13👍6❤1
🚀 Cosmograph для Python — GPU-ускоренный инструмент для интерактивной визуализации графов
Cosmograph — это мощное веб-приложение для анализа больших графов и векторных представлений (эмбеддингов) машинного обучения.
Возможности
⛓️ Панорамирование, масштабирование, подсветка и выбор узлов.
⚙️ API для изменения макета, цвета, размера и других параметров.
📦 Простая установка через
Проект
#визуализация #графы #Jupyter
Cosmograph — это мощное веб-приложение для анализа больших графов и векторных представлений (эмбеддингов) машинного обучения.
Возможности
⛓️ Панорамирование, масштабирование, подсветка и выбор узлов.
⚙️ API для изменения макета, цвета, размера и других параметров.
📦 Простая установка через
pip install cosmograph
.Проект
#визуализация #графы #Jupyter
👍8❤4😁1
🌍 Отчет «Будущее рабочих мест» от Всемирного экономического форума
Рынок труда меняется быстрее, чем мы могли себе представить, благодаря технологическим достижениям, таким как ИИ и Большие данные.
Основные выводы
📊 86% компаний ожидают, что технологии ИИ и обработки информации преобразят их бизнес к 2030 году.
📈 Самые востребованные профессии к 2030 году:
1. Специалисты по Большим данным
2. Финтех-инженеры
3. Эксперты по ИИ и машинному обучению
4. Разработчики ПО и приложений
5. Специалисты по кибербезопасности
📉 Профессии, которые теряют актуальность:
1. Клерки и кассиры
2. Административные помощники
3. Работники печатной отрасли
4. Бухгалтеры
Ваше мнение?
Рынок труда меняется быстрее, чем мы могли себе представить, благодаря технологическим достижениям, таким как ИИ и Большие данные.
Основные выводы
📊 86% компаний ожидают, что технологии ИИ и обработки информации преобразят их бизнес к 2030 году.
📈 Самые востребованные профессии к 2030 году:
1. Специалисты по Большим данным
2. Финтех-инженеры
3. Эксперты по ИИ и машинному обучению
4. Разработчики ПО и приложений
5. Специалисты по кибербезопасности
📉 Профессии, которые теряют актуальность:
1. Клерки и кассиры
2. Административные помощники
3. Работники печатной отрасли
4. Бухгалтеры
Ваше мнение?
👍7😁6🤔2
Forwarded from Библиотека задач по Data Science | тесты, код, задания
🧑💻 Статьи для IT: как объяснять и распространять значимые идеи
Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.
Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.
Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.
👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.
Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.
Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.
👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
🥰1
❓ Golang vs Python: Что выбрать для проекта
Python 🐍 — лучший выбор для Data Science 📊 и Machine Learning 🤖. Это динамично типизированный язык с огромной экосистемой библиотек (Pandas, NumPy, TensorFlow), что делает его идеальным для анализа данных и разработки моделей. Однако Python относительно медленный, так как это интерпретируемый язык.
Go (Golang) 🚀 — статически типизированный, компилируемый язык с высокой производительностью ⚡. Он идеально подходит для разработки веб-сервисов 🌐, конкурентных программ 💻 и системных инструментов 🔧 благодаря легковесным горутинам. Но его экосистема для Data Science менее развита.
Когда выбрать Python:
- Для анализа данных и разработки моделей.
- Для быстрого прототипирования.
Когда выбрать Go:
- Для высокопроизводительных веб-сервисов.
- Для системных инструментов и программ с высокой конкуренцией.
Выбор зависит от задач проекта! 🤷♂️
#Python #Golang
Python 🐍 — лучший выбор для Data Science 📊 и Machine Learning 🤖. Это динамично типизированный язык с огромной экосистемой библиотек (Pandas, NumPy, TensorFlow), что делает его идеальным для анализа данных и разработки моделей. Однако Python относительно медленный, так как это интерпретируемый язык.
Go (Golang) 🚀 — статически типизированный, компилируемый язык с высокой производительностью ⚡. Он идеально подходит для разработки веб-сервисов 🌐, конкурентных программ 💻 и системных инструментов 🔧 благодаря легковесным горутинам. Но его экосистема для Data Science менее развита.
Когда выбрать Python:
- Для анализа данных и разработки моделей.
- Для быстрого прототипирования.
Когда выбрать Go:
- Для высокопроизводительных веб-сервисов.
- Для системных инструментов и программ с высокой конкуренцией.
Выбор зависит от задач проекта! 🤷♂️
#Python #Golang
👍4🥱2
This media is not supported in your browser
VIEW IN TELEGRAM
🔢 7 способов кодирования категориальных данных
При работе с категориальными данными в машинном обучении, выбор способа их преобразования имеет решающее значение.
1. One-Hot Encoding
Каждая категория превращается в отдельный бинарный столбец.
Пример: Цвета → Зеленый: [1, 0, 0], Красный: [0, 1, 0].
2. Dummy Encoding
Как One-Hot, но один столбец исключается, чтобы избежать дублирования информации.
3. Effect Encoding
Категории кодируются бинарно, но ряды с нулями заменяются на -1 для создания баланса.
4. Label Encoding
Каждой категории присваивается уникальное числовое значение.
Пример: Зеленый = 1, Красный = 2, Черный = 3.
5. Ordinal Encoding
Порядковое кодирование, где категории ранжируются по важности.
Пример: XS = 1, S = 2, M = 3, L = 4.
6. Count Encoding
Категории заменяются частотой их встречаемости в данных.
7. Binary Encoding
Категории преобразуются в бинарный код.
Пример: Зеленый = 01, Красный = 10.
Какой метод вы используете чаще всего? 👇
#Encoding
При работе с категориальными данными в машинном обучении, выбор способа их преобразования имеет решающее значение.
1. One-Hot Encoding
Каждая категория превращается в отдельный бинарный столбец.
Пример: Цвета → Зеленый: [1, 0, 0], Красный: [0, 1, 0].
2. Dummy Encoding
Как One-Hot, но один столбец исключается, чтобы избежать дублирования информации.
3. Effect Encoding
Категории кодируются бинарно, но ряды с нулями заменяются на -1 для создания баланса.
4. Label Encoding
Каждой категории присваивается уникальное числовое значение.
Пример: Зеленый = 1, Красный = 2, Черный = 3.
5. Ordinal Encoding
Порядковое кодирование, где категории ранжируются по важности.
Пример: XS = 1, S = 2, M = 3, L = 4.
6. Count Encoding
Категории заменяются частотой их встречаемости в данных.
7. Binary Encoding
Категории преобразуются в бинарный код.
Пример: Зеленый = 01, Красный = 10.
Какой метод вы используете чаще всего? 👇
#Encoding
👍12❤1
📊 Что такое калибровка моделей
Калибровка модели измеряет, насколько предсказанные вероятности соответствуют реальной результативности. Например, если модель предсказывает вероятность 70%, она должна быть правильной 70% времени для схожих предсказаний.
Почему это важно
Два одинаково точных (90%) модели могут давать разные уровни уверенности. Одна может иметь правдоподобные вероятности, а другая — чрезмерно уверенные предсказания. В реальных приложениях важно иметь надежные вероятности, а не просто точность.
Проблемы калибровки:
- Переоценка: модель дает слишком высокие вероятности.
- Недооценка: модель дает слишком низкие вероятности.
- Комбинированная ошибка: модель то переоценивает, то недооценяет.
Подбробнее
#калибровкамоделей
Калибровка модели измеряет, насколько предсказанные вероятности соответствуют реальной результативности. Например, если модель предсказывает вероятность 70%, она должна быть правильной 70% времени для схожих предсказаний.
Почему это важно
Два одинаково точных (90%) модели могут давать разные уровни уверенности. Одна может иметь правдоподобные вероятности, а другая — чрезмерно уверенные предсказания. В реальных приложениях важно иметь надежные вероятности, а не просто точность.
Проблемы калибровки:
- Переоценка: модель дает слишком высокие вероятности.
- Недооценка: модель дает слишком низкие вероятности.
- Комбинированная ошибка: модель то переоценивает, то недооценяет.
Подбробнее
#калибровкамоделей
👍5❤1
🧹 Важность очистки данных: вызовы и решения
Очистка данных — это сложная и многогранная задача, особенно когда речь идет о больших наборах данных. Чем больше данных, тем сложнее их очистить. В статье рассматриваются ключевые моменты: как балансировать между удалением и заменой пропущенных значений, почему важно понимать, почему данные отсутствуют.
👩💻 Узнайте, как эффективно подходить к очистке данных и как это влияет на качество ваших исследований!
👉 Статья
#данные #очисткаданных
Очистка данных — это сложная и многогранная задача, особенно когда речь идет о больших наборах данных. Чем больше данных, тем сложнее их очистить. В статье рассматриваются ключевые моменты: как балансировать между удалением и заменой пропущенных значений, почему важно понимать, почему данные отсутствуют.
👩💻 Узнайте, как эффективно подходить к очистке данных и как это влияет на качество ваших исследований!
👉 Статья
#данные #очисткаданных
🔥5👍3
Forwarded from Библиотека питониста | Python, Django, Flask
🐍🃏 Как написать пасьянс на Python
Пасьянс «Косынка» — одна из самых популярных карточных игр.
👍 В этой статье мы разберем, как реализовать «Косынку» с использованием библиотеки Tkinter: детально рассмотрим логику игры, настройки интерфейса, а также визуализацию и обработку перемещений карт.
🤓 Статья
#игрынаPython
Пасьянс «Косынка» — одна из самых популярных карточных игр.
👍 В этой статье мы разберем, как реализовать «Косынку» с использованием библиотеки Tkinter: детально рассмотрим логику игры, настройки интерфейса, а также визуализацию и обработку перемещений карт.
🤓 Статья
#игрынаPython
👍3
Forwarded from Библиотека задач по Data Science | тесты, код, задания
❤6
✨ Data Scientist vs. Data Engineer vs. Data Analyst vs. ML Engineer
Разница между профессиями Data Scientist, Data Engineer, Data Analyst и ML Engineer заключается в их ключевых задачах, инструментах и области ответственности.
#CareerInTech
Разница между профессиями Data Scientist, Data Engineer, Data Analyst и ML Engineer заключается в их ключевых задачах, инструментах и области ответственности.
#CareerInTech
😁9🔥5👍4