tgoop.com »
United States »
Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение » Telegram Web
💬 Вопрос от подписчика: правда ли, что в AI всё не про нейросети, а про грязную работу с данными
✅ Краткий ответ: да, грязной работы больше, чем кажется.
В реальной практике машинного обучения и data science доля «магии» моделей — процентов 10–20. Остальное:
✅ Очистка данных (пропуски, выбросы, баги в логах)
✅ Построение признаков (особенно если данные табличные)
✅ Корректная постановка задачи (что вообще нужно: классификация? ранжирование?)
✅ Проверка данных на утечку или data leakage
✅ Разработка пайплайна для inference
✅ Оценка на offline и онлайн метриках
✅ Мониторинг модели на проде (модели деградируют, и часто незаметно)
Если вы работаете с LLM — то здесь «грязная работа» переезжает в другие места:
✅ Подбор и генерация промтов
✅ Выбор правильного контекста (RAG)
✅ Обработка нестабильных ответов
✅ Постобработка текста
✅ И опять же — валидация, оценка, сбор фидбека
Модели важны, но... чаще всего «достаточно хорошие» уже есть.
Большинство задач в проде не требуют state-of-the-art: достаточно стабильной, воспроизводимой модели, которая работает лучше, чем бизнес-правила.
Модель — это не цель, а инструмент. Иногда даже логистическая регрессия лучше, чем сложная нейросеть (если её проще объяснить и внедрить).
🔄 А вот тот эффект обратной связи — это не миф:
Пример: вы обучили рекомендательную модель на старых данных → модель начала влиять на поведение пользователей → данные изменились → старая метрика уже не отражает качество → вы обновляете модель на новых данных → ещё больше смещений. Добро пожаловать в feedback loops.
Это очень частая история в проде.
👉 А у вас так же? Сколько процентов времени уходит на работу с данными, а не с моделями?
Библиотека дата-сайентиста #междусобойчик
Я читал, что в реальных проектах по AI основная работа — это не модные модели, а банальная подготовка данных: удаление пропусков, нормализация, фичи, постановка задачи.
Кто-то ещё писал, что с приходом LLM'ов «prompt engineering — это новое программирование».
Это реально так? Или в индустрии всё ещё крутятся вокруг алгоритмов?
В реальной практике машинного обучения и data science доля «магии» моделей — процентов 10–20. Остальное:
Если вы работаете с LLM — то здесь «грязная работа» переезжает в другие места:
Модели важны, но... чаще всего «достаточно хорошие» уже есть.
Большинство задач в проде не требуют state-of-the-art: достаточно стабильной, воспроизводимой модели, которая работает лучше, чем бизнес-правила.
Модель — это не цель, а инструмент. Иногда даже логистическая регрессия лучше, чем сложная нейросеть (если её проще объяснить и внедрить).
🔄 А вот тот эффект обратной связи — это не миф:
Пример: вы обучили рекомендательную модель на старых данных → модель начала влиять на поведение пользователей → данные изменились → старая метрика уже не отражает качество → вы обновляете модель на новых данных → ещё больше смещений. Добро пожаловать в feedback loops.
Это очень частая история в проде.
👉 А у вас так же? Сколько процентов времени уходит на работу с данными, а не с моделями?
Библиотека дата-сайентиста #междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤3💯1
🧠 «Поиграйся с LLM, почитай про агентов — и сам поймёшь, как это работает»
Это один из самых бесполезных советов, который мы слышали в адрес тех, кто хочет разобраться в AI-агентах.
Поиграйся — это как?
Потыкать пару промптов в ChatGPT и решить, что теперь ты можешь строить мультиагентные системы? 🤡 Ну-ну.
AI-агенты — это не «очередная обёртка над GPT». Это архитектура. Состояния, инструменты, цепочки вызовов, память, оценка качества и адекватность поведения.
➡️ Чтобы разобраться, нужно:
— понимать, как устроен LLM под капотом
— уметь подключать внешние данные (RAG, retrievers, rerankers)
— уметь масштабировать и дебажить поведение агентов
— разбираться в фреймворках вроде AutoGen, CrewAI, LangChain
— знать, как всё это тащится в прод
Если вы реально хотите не «поиграться», а научиться собирать рабочие агентные системы — у нас стартует курс по разработке ИИ-агентов 5го июля
P.S: не упусти свой шанс, промокод:LASTCALL на 10.000₽
Это один из самых бесполезных советов, который мы слышали в адрес тех, кто хочет разобраться в AI-агентах.
Поиграйся — это как?
Потыкать пару промптов в ChatGPT и решить, что теперь ты можешь строить мультиагентные системы? 🤡 Ну-ну.
AI-агенты — это не «очередная обёртка над GPT». Это архитектура. Состояния, инструменты, цепочки вызовов, память, оценка качества и адекватность поведения.
➡️ Чтобы разобраться, нужно:
— понимать, как устроен LLM под капотом
— уметь подключать внешние данные (RAG, retrievers, rerankers)
— уметь масштабировать и дебажить поведение агентов
— разбираться в фреймворках вроде AutoGen, CrewAI, LangChain
— знать, как всё это тащится в прод
Если вы реально хотите не «поиграться», а научиться собирать рабочие агентные системы — у нас стартует курс по разработке ИИ-агентов 5го июля
P.S: не упусти свой шанс, промокод:
❤1
🎧 Что послушать: из ноутбука в продакшн: реальный путь Data Scientist’а
Работаете в Jupyter, а хотите в прод?
Этот выпуск подкаста — как раз об этом.
🔍 Тема — как перейти от локальных ноутбуков и экспериментального анализа к настоящим production-системам в Data Science.
Обсуждают подходы, инструменты и культуру разработки, когда DS — это не просто ресёрч, а часть продукта.
➡️ Cсылка на подкаст: https://clc.to/A0ezRA
Библиотека дата-сайентиста #буст
Работаете в Jupyter, а хотите в прод?
Этот выпуск подкаста — как раз об этом.
🔍 Тема — как перейти от локальных ноутбуков и экспериментального анализа к настоящим production-системам в Data Science.
Обсуждают подходы, инструменты и культуру разработки, когда DS — это не просто ресёрч, а часть продукта.
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤2🔥2
😤 Пока вы думаете — остальные уже учатся строить системы, которые работают за них
⚡24 часа до старта курса по AI-агентам. Самое время задуматься о прокачке скиллов, потому что места ограничены!
Если вы до сих пор думаете, что LLM — это просто «вызов через API», то вы рискуете очень скоро оказаться за бортом индустрии.
Модели больше не в центре. Решают те, кто умеет собирать интеллектуальные системы, а не просто «дообучать модельку».
➡️ Что вы потеряете, если не впишетесь:
— навык, который уже востребован на рынке
— понимание, как из GPT сделать полноценного помощника, агента или продукт
— шанс догнать тех, кто уже перешёл на следующий уровень
📌 Курс стартует уже завтра
— 5 вебинаров, живая практика, код, разборы, продовые кейсы
— без «посмотрите статью», только то, что реально нужно
Спикеры: Никита Зелинский (МТС), Диана Павликова, Макс Пташник, Дима Фомин — те, кто реально собирает агентные системы, а не просто про них пишет.
❗Старт уже завтра — забронируйте место на курсе сейчас
⚡24 часа до старта курса по AI-агентам. Самое время задуматься о прокачке скиллов, потому что места ограничены!
Если вы до сих пор думаете, что LLM — это просто «вызов через API», то вы рискуете очень скоро оказаться за бортом индустрии.
Модели больше не в центре. Решают те, кто умеет собирать интеллектуальные системы, а не просто «дообучать модельку».
➡️ Что вы потеряете, если не впишетесь:
— навык, который уже востребован на рынке
— понимание, как из GPT сделать полноценного помощника, агента или продукт
— шанс догнать тех, кто уже перешёл на следующий уровень
📌 Курс стартует уже завтра
— 5 вебинаров, живая практика, код, разборы, продовые кейсы
— без «посмотрите статью», только то, что реально нужно
Спикеры: Никита Зелинский (МТС), Диана Павликова, Макс Пташник, Дима Фомин — те, кто реально собирает агентные системы, а не просто про них пишет.
❗Старт уже завтра — забронируйте место на курсе сейчас
❤1👍1
Большие языковые модели (LLM) не читают текст так, как мы — они видят токены. Это не совсем слова и не просто символы. Зачем вообще нужен токенизация и почему слова — не лучший вариант? Рассказываем.
Слова — неудобны: их много, они часто пишутся с ошибками, в разных языках — разные формы.
Если модель не видела слово раньше, она теряется.
Слова вроде
running
, runs
, runner
— все о разном, хотя корень один. Слово как единица — слишком «грубая».До LLM токенизацией занимались FastText и char embeddings:
— FastText разбивал слова на подстроки (например,
unhappiness
→ un
, happi
, ness
) и пытался понять смысл по кусочкам.— Character embeddings брали каждый символ как токен. Работает для опечаток, но плохо понимает смысл (
dock
≈ duck
? Нет же).Современные LLM (GPT, Claude и др.) используют Byte-Pair Encoding (BPE):
— Начинаем с символов, потом часто встречающиеся пары объединяем.
— Пример:
lowering
→ low
, er
, ing
— Получаем разумные токены, экономим память и длину последовательностей.
— Byte-level токенизация: работает напрямую с байтами (даже с эмодзи и редкими символами).
— Морфемная токенизация: разбивает слова по смысловым единицам (
misunderstanding
→ mis
, understand
, ing
). Хорошо для языков со сложной грамматикой, но требует знаний языка.На горизонте — Large Concept Models (LCM):
Они строят представление сразу на уровне фраз или предложений, а не отдельных токенов:
— Больше смысла, меньше ошибок
— Лучшая многозадачность и кросс-языковое понимание
— Меньше параметров = ниже стоимость
📌 Если вам интересны детали токенизации, статья обязательно к прочтению: https://clc.to/6bmuZA
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍2🔥1
🔥 Сегодня стартует курс по AI-агентам!
Онбординг уже сегодня, но ещё можно вписаться — ПОСЛЕДНИЙ ШАНС это сделать.
Мы больше года собирали мультиагентные системы: экспериментировали, переделывали и в итоге — оформили всё в 5 плотных вебинаров.
😤 «А можно ли вообще научиться чему-то за 5 вебинаров?!»
Если вы хотите просто послушать — нет
Если хотите разбираться и делать — да
➡️ На курсе:
— мы не читаем слайдики, а работаем в коде в реальном времени
— можно задавать вопросы прямо на вебинаре
— после каждого вебинара есть домашка и поддержка в чате
И главное — вы получаете системное понимание, а не набор хаотичных туториалов.
⚡️Если вы думаете, что успеете потом — не успеете.
Старт сегодня:
— а те, кто вписался сейчас, будут вас опережать — в проектах, на грейде и в зарплате
Знакомьтесь, эксперт нашего курса:
Никита Зелинский — Chief Data Scientist МТС, Head of ML Platforms, руководитель центра компетенций по Data Science.
❗Стартуем сегодня — забронируй свое место
Онбординг уже сегодня, но ещё можно вписаться — ПОСЛЕДНИЙ ШАНС это сделать.
Мы больше года собирали мультиагентные системы: экспериментировали, переделывали и в итоге — оформили всё в 5 плотных вебинаров.
😤 «А можно ли вообще научиться чему-то за 5 вебинаров?!»
Если вы хотите просто послушать — нет
Если хотите разбираться и делать — да
➡️ На курсе:
— мы не читаем слайдики, а работаем в коде в реальном времени
— можно задавать вопросы прямо на вебинаре
— после каждого вебинара есть домашка и поддержка в чате
И главное — вы получаете системное понимание, а не набор хаотичных туториалов.
⚡️Если вы думаете, что успеете потом — не успеете.
Старт сегодня:
— а те, кто вписался сейчас, будут вас опережать — в проектах, на грейде и в зарплате
Знакомьтесь, эксперт нашего курса:
Никита Зелинский — Chief Data Scientist МТС, Head of ML Platforms, руководитель центра компетенций по Data Science.
❗Стартуем сегодня — забронируй свое место
❤1
🧠 Генеративные модели: будущее науки или оружие дезинформации
Сегодня генеративные нейросети умеют создавать тексты, изображения, аудио и видео, практически неотличимые от реальных. GPT, DALL·E, Sora, StyleGAN — эти технологии открывают перед человечеством огромные научные перспективы… но вместе с ними и новые риски.
Возможности:
✅ Автоматизация научных открытий
✅ Генерация синтетических данных для обучения моделей
✅ Помощь в программировании, анализе текстов и данных
✅ Поиск и формулировка научных гипотез
✅ Разработка лекарств и новых материалов
Угрозы:
➡️ Deepfake-контент и фейковые аудиозаписи
➡️ Генерация недостоверной информации и псевдонауки
➡️ Снижение доверия к подлинным источникам
➡️ Отсутствие прозрачности в происхождении данных
➡️ Этические и правовые вызовы
Что делать
Важно развивать не только технологии, но и инфраструктуру доверия: цифровую маркировку контента, прозрачные модели, фильтрацию, этические рамки.
Возможно, будущее потребует и нового уровня цифровой грамотности и критического мышления.
📣 А как Вы считаете: генеративный ИИ — это инструмент прогресса или угроза для общества?
❤️ — Безусловно, инструмент прогресса
👍 — Скорее угроза, чем польза
Библиотека дата-сайентиста #междусобойчик
Сегодня генеративные нейросети умеют создавать тексты, изображения, аудио и видео, практически неотличимые от реальных. GPT, DALL·E, Sora, StyleGAN — эти технологии открывают перед человечеством огромные научные перспективы… но вместе с ними и новые риски.
Возможности:
Угрозы:
Что делать
Важно развивать не только технологии, но и инфраструктуру доверия: цифровую маркировку контента, прозрачные модели, фильтрацию, этические рамки.
Возможно, будущее потребует и нового уровня цифровой грамотности и критического мышления.
📣 А как Вы считаете: генеративный ИИ — это инструмент прогресса или угроза для общества?
❤️ — Безусловно, инструмент прогресса
👍 — Скорее угроза, чем польза
Библиотека дата-сайентиста #междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍4👏1🌚1
⚙️ Инструменты и фреймворки
— Scikit‑LLM 0.4.2 — привычный интерфейс fit()/predict() из Scikit‑Learn теперь и для LLM‑задач: классификация, zero‑shot‑лейблинг, суммирование и др.
💻 Железо
— Blackwell: огромный GPU NVIDIA — GB202 (750 мм², 92,2 млрд транзисторов) почти догоняет AMD MI300X по FP32 и опережает B200 по памяти.
📑 Шпаргалки и подборки
— Top 50 LLM Interview Questions — краткий конспект ключевых тем по LLM (автор Hao Hoang).
— LLM Research Papers 2025 — список лучших работ 2025 года.
🩺 AI в медицине
— Path to Medical Superintelligence — Diagnostic Orchestrator от Microsoft AI диагностирует 85 % случаев NEJM, в 4 раза точнее врачей.
🧠 Опыт
— Vision Transformer с нуля — как «научить» трансформер смотреть.
— Кросс‑валидация во временных рядах — не перепутайте порядок данных.
— 16 промптов для памяти ChatGPT — увеличиваем полезный контекст.
— 10 000 лошадей «в лицо» — кейс по CV и эксперименты с датасетом.
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤3👍2
Forwarded from Библиотека задач по Data Science | тесты, код, задания
Что выведет код?
Anonymous Quiz
57%
pl.read_csv()
20%
pd.read_csv()
11%
pl.open_csv()
12%
pl.load_csv()
❤1
ML / Data Science Lead (Marketing + Dynamic Pricing + Out-of-Stock) — от 470 000 до 480 000 ₽, удалёнка
Senior Marketing Analyst, удалёнка
Lead Data Engineer — от 450 000 до 550 000 ₽, удалёнка
Middle+/Senior Data Scientist — до 3 500 $, удалёнка
Quant Researcher — от 350 000 до 450 000 ₽, удалёнка
Data Engineer — от 3 300 $, офис (Тбилиси)
Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1👍1😁1
Пропущенные данные — распространённая проблема в реальных проектах. Причины могут быть разными: ошибки при сборе, повреждение файлов, неполные опросы и прочее.
Представляем три продвинутых способа иммутации пропусков с использованием Pandas и Scikit-learn:
Использует модели, например, Байесовскую регрессию или случайный лес, чтобы последовательно заполнять пропуски, обучаясь на известных данных.
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
iterative_imputer = IterativeImputer(random_state=42, max_iter=10)
df_imputed = pd.DataFrame(iterative_imputer.fit_transform(df), columns=df.columns)
print(df_imputed.isnull().sum().sum()) # Пропусков больше нет
Можно менять модель, например, использовать RandomForestRegressor для иммутации.
Заполняет пропуски, опираясь на похожие строки с известными значениями. Вес соседей можно задавать по расстоянию или равномерно.
from sklearn.impute import KNNImputer
knn_imputer = KNNImputer(n_neighbors=5, weights='distance')
df_knn = pd.DataFrame(knn_imputer.fit_transform(df), columns=df.columns)
print(df_knn.isnull().sum().sum())
Запускаем разные иммутационные модели, получаем несколько вариантов заполненных данных, а затем выбираем лучший результат, ориентируясь на ключевые признаки:
from sklearn.linear_model import BayesianRidge
from sklearn.ensemble import ExtraTreesRegressor, RandomForestRegressor
imputers = {
'bayesian_ridge': IterativeImputer(estimator=BayesianRidge(), random_state=42),
'extra_trees': IterativeImputer(estimator=ExtraTreesRegressor(n_estimators=10, random_state=42), random_state=42),
'rf_regressor': IterativeImputer(estimator=RandomForestRegressor(n_estimators=10, random_state=42), random_state=42)
}
imputed_datasets = {}
for name, imputer in imputers.items():
imputed_datasets[name] = pd.DataFrame(imputer.fit_transform(df), columns=df.columns)
print(f"{name}: Средний доход = {imputed_datasets[name]['income'].mean():.2f}")
— KNN хорошо подходит для небольших числовых датасетов, но требует ресурсов на больших.
— Ансамблевые методы дают лучшее качество, но сложнее и тяжелее в вычислениях.
— MICE — золотая середина для многих задач.
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍2🔥1🥰1👏1
🚀Kafka must-have инструмент для современных проектов MLOps!
Присоединяйся к вебинару и узнай, как настроить Kafka для обработки потоковых данных и интегрировать её в MLOps-проекты. Вебинар проходит в рамках подписки на курсы OTUS, которая даёт возможность приобрести 3 курса по цене одного.
🔑 Что будет:
— Практическое и теоретическое руководство по настройке Kafka в Docker и взаимодействию с ней через Python.
— Обзор инструментов для работы с Kafka: поднятие UI-интерфейса и управление потоками данных.
— Примеры использования Kafka для связи микросервисов и обзор ключевых функций, делающих её незаменимой брокером сообщений.
— Как использовать Kafka в MLOps: сбор данных для ML-моделей, мониторинг их работы и интеграция предсказаний в реальном времени.
🚀Регистрация по ссылке - https://otus.pw/18rU/
Подробнее о подписке OTUS - https://otus.pw/SMQu/
👉 Запишись сейчас, количество мест ограничено!
Присоединяйся к вебинару и узнай, как настроить Kafka для обработки потоковых данных и интегрировать её в MLOps-проекты. Вебинар проходит в рамках подписки на курсы OTUS, которая даёт возможность приобрести 3 курса по цене одного.
🔑 Что будет:
— Практическое и теоретическое руководство по настройке Kafka в Docker и взаимодействию с ней через Python.
— Обзор инструментов для работы с Kafka: поднятие UI-интерфейса и управление потоками данных.
— Примеры использования Kafka для связи микросервисов и обзор ключевых функций, делающих её незаменимой брокером сообщений.
— Как использовать Kafka в MLOps: сбор данных для ML-моделей, мониторинг их работы и интеграция предсказаний в реальном времени.
🚀Регистрация по ссылке - https://otus.pw/18rU/
Подробнее о подписке OTUS - https://otus.pw/SMQu/
👉 Запишись сейчас, количество мест ограничено!
👍2❤1
🔥 Как НЛМК отслеживает ковши с расплавленным чугуном — и зачем это нужно
Раньше ковши искали по рации. Сегодня — за ними следит цифровая система: знает, где каждый ковш, сколько в нём чугуна, куда он движется и не перегрелась ли футеровка.
В новом кейсе рассказываем:
— почему стандартные RFID-метки плавились и что сделали вместо
— как устроена цифровая модель предприятия
— что даёт это внедрение: меньше простоев, теплопотерь и аварий
👷♂️ Спойлер:теперь даже ковши «думают».
📌 Читать: https://proglib.io/sh/mXKzViUZen
Библиотека дата-сайентиста #буст
Раньше ковши искали по рации. Сегодня — за ними следит цифровая система: знает, где каждый ковш, сколько в нём чугуна, куда он движется и не перегрелась ли футеровка.
В новом кейсе рассказываем:
— почему стандартные RFID-метки плавились и что сделали вместо
— как устроена цифровая модель предприятия
— что даёт это внедрение: меньше простоев, теплопотерь и аварий
👷♂️ Спойлер:
📌 Читать: https://proglib.io/sh/mXKzViUZen
Библиотека дата-сайентиста #буст
❤1👍1😁1