Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение 6625

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Сеньор сказал: «Ты сможешь!». И вот я смог... 🤣

Библиотека дата-сайентиста #развлекалово

😁6👍2💯2

1.13K views08:27

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Сегодня стартует курс по AI-агентам!

Онбординг уже сегодня, но ещё можно вписаться — ПОСЛЕДНИЙ ШАНС это сделать.

Мы больше года собирали мультиагентные системы: экспериментировали, переделывали и в итоге — оформили всё в 5 плотных вебинаров.

😤 «А можно ли вообще научиться чему-то за 5 вебинаров?!»

Если вы хотите просто послушать — нет
Если хотите разбираться и делать — да

➡️ На курсе:
— мы не читаем слайдики, а работаем в коде в реальном времени
— можно задавать вопросы прямо на вебинаре
— после каждого вебинара есть домашка и поддержка в чате

И главное — вы получаете системное понимание, а не набор хаотичных туториалов.

⚡️Если вы думаете, что успеете потом — не успеете.
Старт сегодня:
— а те, кто вписался сейчас, будут вас опережать — в проектах, на грейде и в зарплате

Знакомьтесь, эксперт нашего курса:
Никита Зелинский — Chief Data Scientist МТС, Head of ML Platforms, руководитель центра компетенций по Data Science.

❗Стартуем сегодня — забронируй свое место

❤1

1.07K views10:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧠 Генеративные модели: будущее науки или оружие дезинформации

Сегодня генеративные нейросети умеют создавать тексты, изображения, аудио и видео, практически неотличимые от реальных. GPT, DALL·E, Sora, StyleGAN — эти технологии открывают перед человечеством огромные научные перспективы… но вместе с ними и новые риски.

Возможности:
✅ Автоматизация научных открытий

✅ Генерация синтетических данных для обучения моделей

✅ Помощь в программировании, анализе текстов и данных

✅ Поиск и формулировка научных гипотез

✅ Разработка лекарств и новых материалов

Угрозы:
➡️ Deepfake-контент и фейковые аудиозаписи

➡️ Генерация недостоверной информации и псевдонауки

➡️ Снижение доверия к подлинным источникам

➡️ Отсутствие прозрачности в происхождении данных

➡️ Этические и правовые вызовы

Что делать

Важно развивать не только технологии, но и инфраструктуру доверия: цифровую маркировку контента, прозрачные модели, фильтрацию, этические рамки.

Возможно, будущее потребует и нового уровня цифровой грамотности и критического мышления.

📣 А как Вы считаете: генеративный ИИ — это инструмент прогресса или угроза для общества?

❤️ — Безусловно, инструмент прогресса
👍 — Скорее угроза, чем польза

Библиотека дата-сайентиста #междусобойчик

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍4👏1🌚1

1.09K views13:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕

Свежие новости для дата‑сайентистов

⚙️ Инструменты и фреймворки
— Scikit‑LLM 0.4.2 — привычный интерфейс fit()/predict() из Scikit‑Learn теперь и для LLM‑задач: классификация, zero‑shot‑лейблинг, суммирование и др.

💻 Железо
— Blackwell: огромный GPU NVIDIA — GB202 (750 мм², 92,2 млрд транзисторов) почти догоняет AMD MI300X по FP32 и опережает B200 по памяти.

📑 Шпаргалки и подборки
— Top 50 LLM Interview Questions — краткий конспект ключевых тем по LLM (автор Hao Hoang).
— LLM Research Papers 2025 — список лучших работ 2025 года.

🩺 AI в медицине
— Path to Medical Superintelligence — Diagnostic Orchestrator от Microsoft AI диагностирует 85 % случаев NEJM, в 4 раза точнее врачей.

🧠 Опыт
— Vision Transformer с нуля — как «научить» трансформер смотреть.
— Кросс‑валидация во временных рядах — не перепутайте порядок данных.
— 16 промптов для памяти ChatGPT — увеличиваем полезный контекст.
— 10 000 лошадей «в лицо» — кейс по CV и эксперименты с датасетом.

Библиотека дата-сайентиста #свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5❤3👍2

1.15K views12:51

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Библиотека задач по Data Science

❤1

1.05K views07:10

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Что выведет код?

Anonymous Quiz

❤1

281 voters1.1K views07:10

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💰

Топ-вакансий для дата-сайентистов за неделю

ML / Data Science Lead (Marketing + Dynamic Pricing + Out-of-Stock) —‍ от 470 000 до 480 000 ₽, удалёнка

Senior Marketing Analyst, удалёнка

Lead Data Engineer —‍ от 450 000 до 550 000 ₽, удалёнка

Middle+/Senior Data Scientist —‍ до 3 500 $, удалёнка

Quant Researcher —‍ от 350 000 до 450 000 ₽, удалёнка

Data Engineer —‍ от 3 300 $, офис (Тбилиси)

➡️ Еще больше топовых вакансий — в нашем канале Data jobs

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1😁1

991 views18:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

↔️

Как не потерять данные из-за пропусков: практические стратегии

Пропущенные данные — распространённая проблема в реальных проектах. Причины могут быть разными: ошибки при сборе, повреждение файлов, неполные опросы и прочее.

Представляем три продвинутых способа иммутации пропусков с использованием Pandas и Scikit-learn:

1️⃣

Множественная иммутация с помощью цепочек уравнений (MICE)

Использует модели, например, Байесовскую регрессию или случайный лес, чтобы последовательно заполнять пропуски, обучаясь на известных данных.

from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer

iterative_imputer = IterativeImputer(random_state=42, max_iter=10)
df_imputed = pd.DataFrame(iterative_imputer.fit_transform(df), columns=df.columns)
print(df_imputed.isnull().sum().sum())  # Пропусков больше нет

Можно менять модель, например, использовать RandomForestRegressor для иммутации.

2️⃣

Иммутация с помощью K-ближайших соседей (KNN)

Заполняет пропуски, опираясь на похожие строки с известными значениями. Вес соседей можно задавать по расстоянию или равномерно.

from sklearn.impute import KNNImputer

knn_imputer = KNNImputer(n_neighbors=5, weights='distance')
df_knn = pd.DataFrame(knn_imputer.fit_transform(df), columns=df.columns)
print(df_knn.isnull().sum().sum())

3️⃣

Ансамблевая иммутация разными моделями

Запускаем разные иммутационные модели, получаем несколько вариантов заполненных данных, а затем выбираем лучший результат, ориентируясь на ключевые признаки:

from sklearn.linear_model import BayesianRidge
from sklearn.ensemble import ExtraTreesRegressor, RandomForestRegressor

imputers = {
    'bayesian_ridge': IterativeImputer(estimator=BayesianRidge(), random_state=42),
    'extra_trees': IterativeImputer(estimator=ExtraTreesRegressor(n_estimators=10, random_state=42), random_state=42),
    'rf_regressor': IterativeImputer(estimator=RandomForestRegressor(n_estimators=10, random_state=42), random_state=42)
}

imputed_datasets = {}
for name, imputer in imputers.items():
    imputed_datasets[name] = pd.DataFrame(imputer.fit_transform(df), columns=df.columns)
    print(f"{name}: Средний доход = {imputed_datasets[name]['income'].mean():.2f}")

➡️

Итоги:
— KNN хорошо подходит для небольших числовых датасетов, но требует ресурсов на больших.
— Ансамблевые методы дают лучшее качество, но сложнее и тяжелее в вычислениях.
— MICE — золотая середина для многих задач.

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍2🔥1🥰1👏1

693 views07:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚀Kafka must-have инструмент для современных проектов MLOps!

Присоединяйся к вебинару и узнай, как настроить Kafka для обработки потоковых данных и интегрировать её в MLOps-проекты. Вебинар проходит в рамках подписки на курсы OTUS, которая даёт возможность приобрести 3 курса по цене одного.

🔑 Что будет:
— Практическое и теоретическое руководство по настройке Kafka в Docker и взаимодействию с ней через Python.
— Обзор инструментов для работы с Kafka: поднятие UI-интерфейса и управление потоками данных.
— Примеры использования Kafka для связи микросервисов и обзор ключевых функций, делающих её незаменимой брокером сообщений.
— Как использовать Kafka в MLOps: сбор данных для ML-моделей, мониторинг их работы и интеграция предсказаний в реальном времени.

🚀Регистрация по ссылке - https://otus.pw/18rU/
Подробнее о подписке OTUS - https://otus.pw/SMQu/

👉 Запишись сейчас, количество мест ограничено!

👍2❤1

817 views09:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Как НЛМК отслеживает ковши с расплавленным чугуном — и зачем это нужно

Раньше ковши искали по рации. Сегодня — за ними следит цифровая система: знает, где каждый ковш, сколько в нём чугуна, куда он движется и не перегрелась ли футеровка.

В новом кейсе рассказываем:
— почему стандартные RFID-метки плавились и что сделали вместо
— как устроена цифровая модель предприятия
— что даёт это внедрение: меньше простоев, теплопотерь и аварий

👷‍♂️ Спойлер: теперь даже ковши «думают».

📌 Читать: https://proglib.io/sh/mXKzViUZen

Библиотека дата-сайентиста #буст

❤1👍1😁1

521 views18:05

2025/07/08 23:35:20
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>