Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение 6543

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤖 Бэкенд под ML-проекты: что может пойти не так

Модель — это всего лишь верхушка айсберга.

В реальных условиях основными источниками проблем становятся не алгоритмы, а архитектура и инфраструктура:
✔️ различия между offline и online логикой,
✔️ проседание по latency,
✔️ неконсистентные признаки,
✔️ неустойчивые A/B-эксперименты,
✔️ и многое другое.

В статье — подробный разбор архитектурных ловушек, реальных кейсов и инженерных решений, которые помогают внедрять ML в продакшен без боли.

📎 Читайте статью и делитесь с командой: https://proglib.io/sh/xCfXt2pH4j

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5🔥4👍3👏1💯1

1.82K views17:51

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎯 Команда дня: строгая типизация NumPy массивов

Обычно мы пишем так:

def f(x: np.ndarray): ...

🙅‍♂️ Но это не защищает от ошибок — форма и тип данных не проверяются.

✔️ Вместо этого — используем обобщённые типы:

from numpy import ndarray, dtype, uint8, bool_, float64

def process(
    x: ndarray[tuple[int], dtype[bool_]],
    y: ndarray[tuple[int, int, int], dtype[uint8]],
) -> ndarray[tuple[int], dtype[float64]]:
    ...

Теперь mypy и pyright ловят ошибки до запуска:
🙅‍♂️ неверная размерность,
🙅‍♂️ неподходящий dtype.

👉

Хотите проверку ещё и в рантайме?

✔️ Используйте static_frame:

import static_frame as sf

@sf.CallGuard.check
def f(x: ndarray[tuple[int], dtype[np.number]]): ...

При передаче неверного массива — будет чёткое сообщение об ошибке.

Полезно для:
— ML / data science
— научных расчётов
— оптимизации с NumPy и Numba

Примеры:
— ndarray[tuple[int], dtype[bool_]] — 1D массив булей
— ndarray[tuple[int, int], dtype[np.str_]] — 2D массив строк
— ndarray[tuple[int], dtype[np.number]] — массив любых чисел

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍1🤩1

1.8K views06:51

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Всегда, снова и опять 😆

Библиотека дата-сайентиста #развлекалово

😁9💯2

1.67K views18:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤔 Почему ИИ-агенты — технологический тренд №1 в 2025 году?

Так заявил сам Gartner, а эксперт нашего курса по AI-агентам Никита Зелинский @datarascals объяснил, почему:

Агентские системы известны с прошлого века, и все это время применялись в производстве и логистике. Но широкое распространение LLM дало новый импульс этой технологии в двух направлениях.

Во-первых, LLM стали использовать как универсальный оркестратор агентов. Это означает, что под каждый входящий запрос система составляет последовательность действий — планирует пайплайн, который состоит из применения различных инструментов или обращения к другим агентам, с возможными циклами и обращениями к общей памяти (с возможностью не только чтения но и записи / удаления).

Во-вторых, LLM служат инструментом, который позволяет легко настраивать системы на тысячи агентов на естественном языке.

Поэтому на первом занятии курса «AI-агенты для DS-специалистов» мы рассмотрим, как выбрать конкретную LLM с учетом имеющихся ограничений и как оценить стоимость такого решения.

Остаться без денег неожиданно легко — Никита сам столкнулся с тем, что генерация всего 70 тестовых вопросов для RAG-системы через GPT-4o обошлась в 30 долларов... Будем разбираться, как этого избежать и не только!

🤓 В следующем посте расскажем, как правильно выбрать LLM для использования в агентских системах.

👉 А пока — приходите на наш курс по AI-агентам. Приятная цена действует до 14 июня!

1.61K viewsedited 18:59

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⭐️

Чек-лист: как правильно работать с pandas

Работаете с табличными данными?

Эти простые советы сэкономят вам время, память и нервы:

✔️

Используйте векторизацию вместо apply

Быстрее, короче, читаемее:

# Вместо apply
df["log"] = np.log(df["x"])

✔️

Считайте в столбцах, а не в цикле по строкам

Избавьтесь от .iterrows() — векторные операции эффективнее:

df["sum"] = df["a"] + df["b"]

✔️

Используйте `category` для колонок с повторяющимися строками

Существенно уменьшает потребление памяти:

df["country"] = df["country"].astype("category")

✔️

Загружайте только нужные данные

Не тратьте ресурсы на лишние строки и столбцы:

pd.read_csv("big.csv", usecols=["col1", "col2"], nrows=100_000)

✔️

Сохраняйте данные одним вызовом, а не в цикле

Сначала собираем — потом записываем:

df.to_csv("result.csv", index=False)

✔️

Контролируйте использование памяти

Проверяйте «тяжёлые» столбцы

df.memory_usage(deep=True)

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤3🔥1😁1

1.43K views06:57

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🫣 Устали от HR-сказок про «дружный коллектив» и «печеньки в офисе»?

Давайте честно поговорим о том, что действительно происходит на IT-рынке. Не в розовых презентациях, а в реальной жизни разработчиков, тестировщиков, аналитиков и всех, кто живет кодом.

🧐 Мы проводим исследование, чтобы выяснить:

— Как часто мы прыгаем между компаниями (и почему)
— Какие красные флаги заставляют бежать без оглядки
— Где реально находят работу
— Что бесит в HR больше всего
— Сколько кругов собеседований — это уже перебор

Результаты покажут реальную картину рынка. Без приукрашиваний. Может, компании поймут, что нужно менять, а специалисты — куда двигаться дальше.

😈 Опрос займет 5 минут, но результаты будут работать на всех нас → https://clc.to/9aaXVg

1.62K views10:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

✍️

Вопрос подписчика: как вы обычно чистите текст перед обработкой?

Сегодня делимся вопросом от подписчика — он работает с NLP и решил уточнить у сообщества.

💬 Вот что он пишет:

Если использую базовые векторизации вроде Bag-of-Words или TF-IDF — стараюсь максимально «очистить» текст:
удаляю пунктуацию, стоп-слова, лемматизирую, нормализую регистр и т.п.

Но если работаю с моделями вроде spaCy или gensim, где контекст важен — то минимальная предобработка: стараюсь сохранить структуру.

А как подходите к этому вы?

А как делаете вы?
➡️ Минимализм или агрессивная очистка?
➡️ Меняется ли подход в зависимости от модели?

👇 Поделитесь своими практиками в комментариях!

Библиотека дата-сайентиста #междусобойчик

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

1.6K views17:53

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎯 Анализ и прогнозирование временных рядов на Python!

Если вы хотите разобраться, как работать с временными рядами и строить точные прогнозы — этот курс именно для вас.

Будь вы новичком или уже знакомы с темой, вы найдёте в курсе всё необходимое: от базовых понятий до продвинутых моделей.

📦 В курсе разбираются:
— Простое, двойное и тройное экспоненциальное сглаживание (метод Холта-Винтерса)
— Метрики оценки моделей: MAE, RMSE, MAPE
— Продвинутые модели прогнозирования: ARIMA, SARIMA, SARIMAX
— Препроцессинг ежедневных данных и кросс-валидация для временных рядов
— Настройка гиперпараметров и проверка качества прогноза

📌 Вы научитесь:
— Готовить временные ряды к моделированию
— Строить и обучать модели в Python
— Оценивать точность и надёжность прогнозов
— Делать обоснованные предсказания на будущее

🔗 Ссылка на курс: https://clc.to/3GDKJg

Библиотека дата-сайентиста #буст

🔥5❤3👍3

1.73K views06:52

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

😵‍💫 Как правильно выбрать LLM для использования в агентских системах

Модели могут выдумывать факты, ссылаться на несуществующие источники и уверенно врать. Особенно часто это происходит при работе с редкими языками или специфическими тематиками.

Поэтому на первом занятии курса «AI-агенты для DS-специалистов» разберем, как с этим бороться. И это только первый из пяти уроков!

🔍 Выбор правильной модели
Не все LLM одинаково полезны. Обсудим квантизованные модели, instruct-версии и мультилингвальные решения. Узнаем, где больше галлюцинаций — в базовых моделях или после дообучения.

💰 Токенизация и стоимость
Разные языки «съедают» разное количество токенов. Покажем, как это влияет на цену API и почему русский текст может стоить дороже английского.

⚡️ Температура и Guardrails
Настройка temperature помогает контролировать креативность модели. А системы Guardrails — отсекать неподходящие ответы еще до генерации.

🧠 Память vs контекст
Казалось бы, зачем RAG, если есть модели с контекстом более 10М токенов? Но не все токены равнозначны. Разберем, когда внешние источники все еще нужны.

В конце создадим простых агентов на LangChain с подключением к внешним источникам и инструментам поиска — и у вас уже будет кейс по созданию собственного AI-агента.

👉 Присоединяйтесь к курсу — приятная цена действует до 14 июня!

❤1

1.72K views09:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧪 Что делать, если классическая схема A/B-теста не работает

A/B-тестирование — золотой стандарт продуктовой аналитики. Оно помогает принимать решения на основе данных, а не догадок.

Но есть нюанс: вся методика держится на важном допущении — независимости поведения пользователей.

⚠️ А если это допущение нарушено? Например, когда один пользователь влияет на другого: в соцсетях, маркетплейсах, рекомендательных системах — в таких случаях классическая схема даёт сбой.

Что с этим делать? Какие альтернативы существуют?

Разбираемся, когда A/B не работает — и чем его заменить: https://proglib.io/sh/lNqAnLfe9J

Библиотека дата-сайентиста #буст

❤2👍2

1.74K views17:52

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🥴 Средний разработчик меняет работу каждые 1,5 года

И это не потому, что мы такие непостоянные. Просто рынок показывает свое истинное лицо быстрее, чем успевают напечатать визитки.

Поэтому мы собираем инсайды от тех, кто находится в окопах digital-трансформации каждый день. От джуниоров, которые только въезжают в профессию, до сеньоров, повидавших всякого.

😳 О чем говорим откровенно:
— Job-hopping и что за этим стоит
— Red flags, которые мгновенно убивают мотивацию
— Реальные источники вакансий (не те, что рекламируют)
— Боль от общения с рекрутерами
— Сколько этапов отбора — норма, а сколько — издевательство

Когда мы объединим опыт сотен IT-специалистов, получится настоящая карта того, как устроена индустрия. Не по версии HR-отделов, а по версии тех, кто пишет код, тестирует продукты и двигает технологии вперед.

🚀 Участвовать в исследовании → https://clc.to/9aaXVg

1.72K views07:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

интересно, сработает ли 😄

Библиотека дата-сайентиста #развлекалово

😁12👍2👏1

1.8K views09:12

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💬

Холивар: MLflow vs Weights & Biases — что выбрать и зачем?

Если вы хоть раз строили ML-пайплайн всерьёз — вы сталкивались с вопросом:

Чем трекать эксперименты, метрики, параметры и артефакты?

Кто-то клянётся в верности MLflow, кто-то уже не представляет жизни без Weights & Biases (W\&B).
Так кто прав?

⭐

Сторонники MLflow говорят

✔️ Open-source, без ограничений:
Можно поднять свой сервер, всё под контролем.

✔️ Просто, понятно и стабильно:
Всё нужное — логгинг, артефакты, модели, REST API — уже есть.

✔️ Интеграция с кучей фреймворков:
Поддерживает sklearn, PyTorch, TensorFlow, Spark и даже Java/R.

✔️ Безопасность и приватность:
Ничего не утекает в облако — всё у тебя на машине или в корпоративном кластерe.

⭐

Сторонники W\&B отвечают

✔️ Удобство и интерфейс:
Визуализации, дашборды, сравнение экспериментов — всё за 5 минут.

✔️ Сильная экосистема:
Кроме логгинга — есть hyperparameter sweeps, модели, dataviz, CI, репорты.

✔️ Отличная поддержка и документация:
Работает «из коробки», даже джуны могут сразу в бой.

✔️ Сотрудничество и коллаборации:
Проект можно удобно шерить в команде, вести историю, оставлять заметки.

⭐

Что вызывает споры:
— MLflow кажется «голым» без UI, но легко кастомизируется.
— W\&B — мощный, но требует подключения к внешнему сервису (и может быть платным).
— Один ориентирован на независимость и продакшн, другой — на удобство и скорость R\&D.
— MLflow можно встроить в CI/CD и жить без браузера. W\&B — это скорее облачная платформа с хорошим UX.

👉

А вы что используете в продакшене или pet-проектах?
MLflow, W\&B, а может вообще свой YAML + Excel?

Библиотека дата-сайентиста #междусобойчик

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍1

1.67K views13:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

✈️

Свежие новости из мира AI и Data Science

👍 Технологии, модели и тренды:
— Google Gemini 2.5 Pro — новая превью-версия самой мощной модели Google, уже вырвалась в лидеры LMArena и WebDev Arena. Меньше месяца после последнего релиза — и снова прорыв.
— ElevenLabs v3 — самая выразительная AI TTS-модель, поддержка множества языков, включая арабский, африкаанс и мандарин. Новый стандарт для голосовых приложений.
— OpenAI и ChatGPT-5 — разбираем слухи, утечки и возможные фичи следующей версии ChatGPT. Что нового и чего ждать?

🧠 Исследования, статьи и практики:
— AI лучше человека в тестах на эмоциональный интеллект — исследование Женевского и Бернского университетов: ChatGPT и другие ИИ превосходят людей в распознавании и интерпретации эмоций.
— Сколько действительно запоминают LLM-модели? — методика оценки «запоминания» vs. «обобщения» в языковых моделях.
— Themis AI от MIT — стартап, обучающий ИИ понимать, чего он не знает. Подход к контролю неопределённости.
— ICLR 2025 и доверие к ИИ — новые подходы к обучению на субъективных данных, оценке качества моделей и внедрению человеческих суждений.

🎙 AI в обществе и индустрии:
— Demis Hassabis (DeepMind): «AI изменит рынок труда за 5 лет» — CEO Google DeepMind выступил на Google I/O и подкасте Hard Fork, обозначив AGI как ключевую технологию будущего.
— MCP-серверы: что это и зачем они нужны? — скоро на слуху у всех, особенно в проектах с тяжёлыми ML-нагрузками.

📘 Обучение, процессы и инструменты:
— Лучшие нейросети для суммаризации текста — подборка инструментов для пересказа, анализа и работы с текстами.
— Как наладить работу в кросс-функциональной команде Data Science + Dev — опыт Lamoda в совмещении ML и инженерии.

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍1🔥1

1.6K views12:52

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

❗Вакансии «Библиотеки программиста»

Привет! Мы ищем контент-менеджеров, которые будут вести наши телеграм-каналы о разработке.

👾 Требования:
— знать принципы залетающего контента
— разбираться в темах, связанных с разработкой

Большим плюсом будет навык программирования на каких-либо языках.

✨ Условия:
— удаленка
— частичная занятость
— сдельная оплата в зависимости от количества задач

🔥 Оставляйте отклик, и мы свяжемся с вами: https://forms.gle/o4BZnsQ526JoqsCq9

1.99K views16:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Библиотека задач по Data Science

1.77K views07:25

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Что выведет код?

Anonymous Quiz

152 voters1.68K views07:25

2025/07/08 23:32:46
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>