tgoop.com »
United States »
Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение » Telegram Web
Одна из самых частых причин почему вчера работало, а сегодня нет — отсутствие версионирования данных и моделей.
Без него сложно:
Вот как это решается 👇
DVC (Data Version Control) — git-подобный инструмент для отслеживания датасетов. Работает поверх Git и хранит данные в облаке (S3, GCS и т.п.).
dvc init
dvc add data/train.csv
git add data/train.csv.dvc .gitignore
git commit -m "Добавил версию обучающего датасета"
LakeFS — альтернатива на уровне хранилища (s3), позволяет делать data branches, merges и rollback данных.
MLflow позволяет логировать, сохранять и восстанавливать модели по version/tag/commit:
import mlflow
with mlflow.start_run():
mlflow.log_param("max_depth", 5)
mlflow.log_metric("accuracy", 0.92)
mlflow.sklearn.log_model(model, "model")
DVC тоже можно использовать:
dvc add models/random_forest.pkl
git commit -m "Модель v1.0"
Храните конфиги, хэши данных, модель, метрики, код и дату запуска. Можно использовать:
— MLflow Tracking
— Sacred + Omniboard
— W\&B Experiments
Добавьте в pipeline:
— автоматическое логирование модели,
— проверку отклонений метрик,
— тегирование релизов модели,
— деплой только при прохождении проверок.
-
model_v1.2.0.pkl говорит больше, чем model_final_v4.pkl
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2🔥2
❗ Первый вебинар нашего курса по AI-агентам уже прошёл!
Запись уже выложили на обучающей платформе — можно влетать и догонять с комфортом.
Первые слушатели уже оставили фидбэки — и, кажется, мы попали в точку:
— «теперь наконец понял, как выбирать модели под задачу — раньше брал первую попавшуюся»
— «без лишнего, по делу, в лайве — кайф»
— «огонь, ожидания 100% оправданы лично у меня»
Если хотели вписаться, но сомневались — ещё не поздно. Вебинары идут вживую, записи сохраняются, чат работает, материалы открыты.
⏳ Ещё можно догнать и пройти всё вместе с потоком.
👉 Залетай на курс
Запись уже выложили на обучающей платформе — можно влетать и догонять с комфортом.
Первые слушатели уже оставили фидбэки — и, кажется, мы попали в точку:
— «теперь наконец понял, как выбирать модели под задачу — раньше брал первую попавшуюся»
— «без лишнего, по делу, в лайве — кайф»
— «огонь, ожидания 100% оправданы лично у меня»
Если хотели вписаться, но сомневались — ещё не поздно. Вебинары идут вживую, записи сохраняются, чат работает, материалы открыты.
⏳ Ещё можно догнать и пройти всё вместе с потоком.
👉 Залетай на курс
👍1
🎯 Промпт для анализа и улучшения мониторинга ML-моделей в продакшене
Хотите вовремя замечать деградацию моделей и реагировать на изменения? Этот промпт поможет оптимизировать систему мониторинга и алертов.
✍️ Промпт:
📌 Что получите:
• Аудит текущей системы мониторинга
• Конкретные шаги и инструменты для улучшения
• План для своевременного обнаружения и устранения проблем
Библиотека дата-сайентиста #буст
Хотите вовремя замечать деградацию моделей и реагировать на изменения? Этот промпт поможет оптимизировать систему мониторинга и алертов.
Проанализируй текущий мониторинг ML-моделей в продакшене.
Опиши, как настроены: сбор метрик, детекция дрейфа данных и моделей, оповещения.
Дай рекомендации по:
• Инструментам для мониторинга (Prometheus, Grafana, Evidently, WhyLabs и др.)
• Метрикам и порогам для алертов
• Автоматической реакции на аномалии
• Логированию и трассировке ошибок
• Визуализации и отчетности
📌 Что получите:
• Аудит текущей системы мониторинга
• Конкретные шаги и инструменты для улучшения
• План для своевременного обнаружения и устранения проблем
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍3🔥1😁1🥱1
📬 «Кажется, я слишком рано начинаю кодить…» — история подписчика
На самом деле, вы не одиноки. Такой подход — распространённая ловушка даже среди опытных специалистов. Почему так происходит?
▶️ Потому что этап проектирования ML-задачи часто воспринимается как «бумажная работа», хотя именно он отличает эксперимент в ноутбуке от реальной работающей системы, внедрённой в продукт.
На что стоит обратить внимание до начала разработки
1⃣ Как устроены ваши данные?
— Есть ли временная структура? Тогда нельзя мешать строки случайно.
— Возможен ли data leakage?
— Хватает ли данных для всех классов или сегментов?
2⃣ Как делите данные на train / validation / test?
— По пользователям, по времени, по объектам?
— Отражает ли такое разбиение реальный сценарий в продакшене?
3⃣ Какие ограничения существуют?
— Сколько времени можно тратить на инференс?
— Где будет работать модель — в облаке, на сервере или на клиентском устройстве?
— Будет ли переобучение и как часто?
4⃣ Какая метрика действительно важна?
— Кто будет интерпретировать результат?
— Не приведёт ли фокус на «среднюю метрику» к ошибкам в критичных случаях?
5⃣ Как модель будет использоваться в продукте?
— Кто и как будет применять результат?
— Какие требования к explainability?
— Как встроить модель в существующий пайплайн?
Cоветы:
▶️ Перед тем как писать код, зафиксируйте ключевые параметры задачи в документе:
— цель,
— доступные источники данных,
— ограничения,
— целевую метрику,
— требования к внедрению.
▶️ Используйте ML Canvas — структуру, помогающую спланировать проект как с технической, так и с бизнес-стороны.
▶️ Возьмите за правило: потратить один день на проектирование — чтобы сэкономить три на переделках.
📣 А как вы подходите к постановке ML-задач? Что обязательно продумываете перед началом?
Библиотека дата-сайентиста #междусобойчик
«Работая в ML, начинаю понимать, что недостаточно времени уделяю именно дизайну задачи. Часто сразу перехожу к моделированию, а потом сталкиваюсь с проблемами: не продумано, как формировать обучающую и тестовую выборки, где брать фичи, какие модели подойдут, как организовать пайплайн, чтобы результат можно было внедрить. И всё приходится переделывать заново».
На самом деле, вы не одиноки. Такой подход — распространённая ловушка даже среди опытных специалистов. Почему так происходит?
На что стоит обратить внимание до начала разработки
— Есть ли временная структура? Тогда нельзя мешать строки случайно.
— Возможен ли data leakage?
— Хватает ли данных для всех классов или сегментов?
— По пользователям, по времени, по объектам?
— Отражает ли такое разбиение реальный сценарий в продакшене?
— Сколько времени можно тратить на инференс?
— Где будет работать модель — в облаке, на сервере или на клиентском устройстве?
— Будет ли переобучение и как часто?
— Кто будет интерпретировать результат?
— Не приведёт ли фокус на «среднюю метрику» к ошибкам в критичных случаях?
— Кто и как будет применять результат?
— Какие требования к explainability?
— Как встроить модель в существующий пайплайн?
Cоветы:
— цель,
— доступные источники данных,
— ограничения,
— целевую метрику,
— требования к внедрению.
📣 А как вы подходите к постановке ML-задач? Что обязательно продумываете перед началом?
Библиотека дата-сайентиста #междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤2
Media is too big
VIEW IN TELEGRAM
Как относитесь к созданию своего жпт не через конструктор, а хардкорно через код?
🔥 — я своего завайбкодил
🏃♀️ Ссылка на курс
🔥 — я своего завайбкодил
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
Если вы работаете с временными рядами в Python — обязательно попробуйте sktime.
sktime
— это библиотека с единой и удобной обёрткой для задач машинного обучения на временных рядах.Поддерживает:
forecasting
)Features:
scikit-learn
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2🔥1
🎯 Как продвинуть резюме в ТОП на HeadHunter: 9 рабочих приёмов
Обновили резюме — а в ответ тишина? Ни просмотров, ни откликов?
Всё потому, что просто «быть» на HeadHunter мало — нужно правильно продавать себя алгоритму.
В нашей новой статье вы узнаете:
— Как реально работает выдача HH
— Почему ваше резюме могут не заметить
— 9 способов вырваться в ТОП — от ключевых слов до правильного времени публикации
👉 Если ищете работу в IT (и не только), прочитайте обязательно: https://proglib.io/sh/rStRsQJzH1
Библиотека дата-сайентиста #буст
Обновили резюме — а в ответ тишина? Ни просмотров, ни откликов?
Всё потому, что просто «быть» на HeadHunter мало — нужно правильно продавать себя алгоритму.
В нашей новой статье вы узнаете:
— Как реально работает выдача HH
— Почему ваше резюме могут не заметить
— 9 способов вырваться в ТОП — от ключевых слов до правильного времени публикации
👉 Если ищете работу в IT (и не только), прочитайте обязательно: https://proglib.io/sh/rStRsQJzH1
Библиотека дата-сайентиста #буст
🔥3❤2👍2
Самые догадливые, пишите ответ в комментах 👇
Небольшая подсказка — это термин относится к AI или DS.
Прячем ответы под спойлер, чтобы не спалить остальным.
Библиотека дата-сайентиста #междусобойчик
Небольшая подсказка — это термин относится к AI или DS.
Прячем ответы под спойлер, чтобы не спалить остальным.
Библиотека дата-сайентиста #междусобойчик
❤1👍1🤔1
Создавать LLM-приложения — особенно мультимодальные и в реальном времени — сложно: куча обработок, API-вызовов, асинхронности и нестабильной логики.
Это абстракция над обработкой данных, где всё — поток:
Входы, выходы и даже промежуточные шаги обрабатываются как асинхронные стримы
ProcessorParts
.Вы комбинируете видеопоток, аудио, текст, модель — и получаете живое, отзывчивое LLM-приложение, работающее в реальном времени.
Что внутри:
— Модульный дизайн — разбивайте логику на независимые блоки
— Асинхронность и параллелизм — быстрый отклик, меньше лагов
— Поддержка Gemini API и Live-модели
— Легко пишите кастомные процессоры
— Умеет работать с текстом, изображениями, аудио, JSON — в одном потоке
— Утилиты для объединения, разделения и управления потоками
Установка:
pip install genai-processors
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍4🔥1
🧠 Контекст-инжиниринг и LLM
— Context Engineering Guide — промпт-инжиниринг эволюционирует: теперь важен не только prompt, но весь контекст
— Unsupervised Elicitation of Language Models — Антропик обучил Claude 3.5 без разметки
— Open Source RL Libraries for LLMs — сравнение RLHF-фреймворков: TRL, Verl, OpenRLHF и др.
🔬 Глубже в ML/AI
— PyTorch in One Hour — краткий и ценный гайд по PyTorch
— ML Papers Explained — ключевые концепты и статьи по ML объяснены на практике
— Топ вопросов с DS-собесов — классика ML, метрики, линейные модели
💡 Технологии и исследования
— AI как люди — исследование: ИИ-модели синхронизируются при общении так же, как мозги животных
— Медицинский ИИ от Google — MedGemma 27B и MedSigLIP для диагностики и анализа изображений
— Bыпуклость в обучении — как искусственный интеллект начинает думать почти как человек
🌐 Будущее AI
— OpenAI запускает браузер — ИИ-браузер против Chrome
— AWS и Anthropic запускают маркетплейс агентов
— Сутскевер стал CEO Safe Superintelligence
📌 Подборка статей
— Агентные системы и LLM в 2027
— Готовимся к собесу: positional encodings
— Поисковый сервис Яндекс Лавки
— Оптимизация модели Mamba на CPU
— ML в логистике
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤2🔥2
Forwarded from Библиотека задач по Data Science | тесты, код, задания
❤1
От аналитики до AI — магистратура УрФУ в сфере машинного обучения
Машинное обучение, Big Data, ИИ — эти термины уже не просто тренды, а профессии будущего. Если ты хочешь не просто освоить эти области, а стать профессионалом, который решает реальные задачи, то онлайн-магистратура УрФУ и Нетологии по Инженерии машинного обучения — то, что нужно.
🔹 Что будет в программе:
-Создание ML-моделей и автоматизация процессов: от нейросетей до систем прогнозирования.
-Работа с Big Data, проектирование архитектуры хранения данных, настройка ETL-процессов.
-Практика на реальных проектах, участие в Kaggle-соревнованиях и хакатонах.
-Полный цикл разработки систем ИИ — от математических основ до продакшн-решений.
🔹 Два диплома по окончании обучения: от УРФУ и от Нетологии
🔹 Гибкий формат: обучайся онлайн, совмещая учебу с работой. Становись специалистом, развивай карьеру и начинай применять знания уже во время учебы.
➡️ Подробнее о магистратуре: https://netolo.gy/egvq
Машинное обучение, Big Data, ИИ — эти термины уже не просто тренды, а профессии будущего. Если ты хочешь не просто освоить эти области, а стать профессионалом, который решает реальные задачи, то онлайн-магистратура УрФУ и Нетологии по Инженерии машинного обучения — то, что нужно.
🔹 Что будет в программе:
-Создание ML-моделей и автоматизация процессов: от нейросетей до систем прогнозирования.
-Работа с Big Data, проектирование архитектуры хранения данных, настройка ETL-процессов.
-Практика на реальных проектах, участие в Kaggle-соревнованиях и хакатонах.
-Полный цикл разработки систем ИИ — от математических основ до продакшн-решений.
🔹 Два диплома по окончании обучения: от УРФУ и от Нетологии
🔹 Гибкий формат: обучайся онлайн, совмещая учебу с работой. Становись специалистом, развивай карьеру и начинай применять знания уже во время учебы.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍1🤩1
☝️ Последний шанс купить курсы Proglib Academy с доступом навсегда!
Это не просто летняя распродажа, это финал эпохи. Мы дарим скидку 40% на все курсы, включая полностью обновлённый курс по Python (предложение НЕ ДЕЙСТВУЕТ только на курс по AI-агентам для DS-специалистов).
Но главное: с 1 августа доступ ко всем новым курсам станет ограниченным. Успейте инвестировать в свои знания на самых выгодных условиях!
👉 Выбрать курс
Это не просто летняя распродажа, это финал эпохи. Мы дарим скидку 40% на все курсы, включая полностью обновлённый курс по Python (предложение НЕ ДЕЙСТВУЕТ только на курс по AI-агентам для DS-специалистов).
Но главное: с 1 августа доступ ко всем новым курсам станет ограниченным. Успейте инвестировать в свои знания на самых выгодных условиях!
👉 Выбрать курс
❤1🥱1
Data Scientist (ML engineer) | Middle-Senior — от 230 000 до 320 000 ₽, удалёнка
Веб-аналитик — от 2500 до 3500 $, удалёнка
Data Engineer (CV) — до 4 000 $, офис (Москва)
Data Scientist (Антифрод) — от 269 000 до 524 000 ₽, удалёнка
Middle/Senior Data Scientist (команда ИИ и аналитика) — от 200 000 до 350 000 ₽, удалёнка
Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1😁1