Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение 6175

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.

👍1

1.86K views20:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎬 Предсказываем ваш следующий любимый фильм с NetworkX, Jaccard Similarity и cuGraph

В мире, переполненном данными, делать осознанный выбор становится сложнее. К счастью, рекомендательные системы помогают упростить этот процесс, используя мощь графов.

Почему графы?
Они отлично моделируют связи между объектами, а NetworkX — популярный инструмент для графового анализа в Python. Он удобен, богат алгоритмами и имеет активное сообщество.

❌ Но есть проблема — NetworkX не справляется с большими масштабами данных, которые нужны для рекомендаций.

Можно ли создать эффективную рекомендательную систему на графах в несколько строк кода, сочетая удобство и высокую производительность?

💡 Ответ ищите в статье: https://clc.to/hE8VPA

❤3👍3

1.93K views07:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤔 Основы математики в Machine Learning / Deep Learning

🗓 6 марта приглашаем вас на прямой эфир, где мы подробно разберем ряд Тейлора, собственные векторы и другие ключевые понятия в ML.
(ссылка)

🌟 Спикер: *Мария Горденко* – Старший преподаватель ФКН НИУ ВШЭ, НИТУ МИСИС, аспирант департамента анализа данных и искусственного интеллекта ФКН НИУ ВШЭ, а также преподаватель на курсе Алгоритмы и структуры данных в proglib academy.

Место работы: Инженер-программист, ведущий эксперт НИУ ВШЭ, цифровой ассистент и цифровой консультант НИУ ВШЭ.

😮 На вебинаре вы узнаете:

🔵 Теорию вероятностей: обсудим случайные величины, вероятность, математическое ожидание и дисперсию.

🔵 Линейную алгебру: изучим векторы, матрицы, собственные векторы и собственные значения.

🔵 Математический анализ: разберем производные и разложение функций в ряд Тейлора.

🔵 Практику: применим полученные знания на реальных кейсах из области Machine Learning и Deep Learning.

🎯 Почему это важно?
Понимание математических основ помогает глубже разобраться в работающих под капотом алгоритмах ML/DL и эффективно применять их на практике.

👉 Присоединяйтесь к нам и совершенствуйте свои навыки в машинном обучении!

📌 Регистрация по ссылке: https://proglib.io/w/6693dce7

👍1

2.06K views15:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

❗ Гессиан больше не нужен! Упрощаем оценку неопределённостей в ML.

Оценка неопределённости в нейросетях — важная, но вычислительно затратная задача. В недавнем исследовании, показано, что традиционные методы на основе Гессиана не только требовательны к ресурсам, но и порой неточны.

Что предложено:
✅ Заменяем Гессиан на единичную матрицу в аппроксимации Лапласа
✅ Улучшаем определение выбросов в данных
✅ Достигаем точности на уровне небайесовских методов

Как это работает? Читайте в статье: https://clc.to/yxJ1sQ

👍3❤2🤔1

2.19K views18:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🦆 Освоение DuckDB для тех, кто привык к pandas или Polars

Вы, возможно, слышали о впечатляющей надежности и производительности DuckDB. Возможно, вы хотите его попробовать, НО ПОГОДИТЕ! Вы — дата-сайентист и привыкли к pandas или Polars, а не к SQL. Вы умеете пользоваться SELECT, JOIN и GROUP BY, но не многим больше.

И теперь у вас вопрос: возможно ли использовать SQL для выполнения таких задач, как:

✔️ Центрирование переменной (т.е. вычитание её среднего значения)?
✔️ Ресемплирование по времени?
✔️ Вычисление скользящих статистик?

Не только возможно, но и довольно просто! Давайте разберёмся, как реализовать основные операции с датафреймами в SQL.

👍8❤1

2.34K views07:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

🔍 Топ-5 библиотек для объяснения ML моделей

🟢 SHAP (Shapley Additive Explanations)
Один из самых популярных методов объяснения модели на основе вкладов признаков.

🟢 LIME (Local Interpretable Model-agnostic Explanations)
Модель-агностичный подход, который обучает локальную интерпретируемую модель вокруг конкретного предсказания.

🟢 Eli5 (Explain Like I’m Five)
Упрощённое объяснение сложных ML-моделей, поддержка scikit-learn, Keras и других фреймворков.

🟢 AI Explainability 360 (AIX360)
Библиотека от IBM для объяснения моделей на различных типах данных: табличных, текстовых, изображениях и временных рядах.

🟢 InterpretML
Инструмент от Microsoft, который включает как интерпретируемые «прозрачные» модели, так и объяснители для «чёрных ящиков».

🔥6👍3❤1

2.5K views18:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

TSFRESH: автоматическое извлечение признаков из временных рядов

📌 TSFRESH (Time Series Feature extraction based on scalable hypothesis tests) — это мощная библиотека для автоматического извлечения признаков из временных рядов.

🔹 Использует алгоритмы из статистики, анализа временных рядов, обработки сигналов и нелинейной динамики.
🔹 Позволяет анализировать не только временные ряды в классическом понимании, но и любые последовательности событий.
🔹 Включает встроенный механизм отбора релевантных признаков.

Ссылка на проект: https://clc.to/TntpNw

👍7❤1

2.37K views07:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚀 Что должны уметь супергерои Data Science?

Data Science — это такая область, где требуется баланс между программированием, математикой и исследовательской работой. В разных компаниях ожидания от дата-саентистов могут сильно различаться: кто-то требует глубоких знаний в математике, а кто-то больше акцентирует внимание на навыках разработки. В любом случае, хороший код — это основа работы каждого супергероя DS.

Хотите узнать, как развивать навыки дата-саентиста, работать с командой и интегрировать решения с коммерческой и продуктовой разработкой?

Ответ в статье: https://clc.to/3o7TpA

❤1

2.13K views18:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Как вычислить Softmax без переполнения?

Вычисление Softmax связано с экспонентами, которые могут вызывать числовые ошибки и переполнение. Особенно при больших входных значениях.

📌 Что делать? Подробнее на картинке.

👍10❤4🔥2

2.15K views07:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤖 AI + собеседования = новый тренд?

Недавний опрос показал, что каждый десятый россиянин уже использует AI, чтобы подготовиться к собеседованию!

🔹 Лидеры — ChatGPT и GigaChat: помогают оформить резюме и сопроводительное письмо.
🔹 AI для тренировки интервью пока используют реже.
🔹 60% уверены, что нейросети реально помогают.
🔹 Но есть опасения, что AI может завышать реальные навыки.

💥 И вот пример, как AI уже меняет рынок труда:

Чунгин Ли, студент Колумбийского университета, создал InterviewCoder — AI-приложение для прохождения технических собеседований.

✔️ Стартап приносит $30K в месяц!
✔️ Он протестировал его на собеседовании в Amazon и получил офер!
✔️ Рассказал об этом в Twitter, собрал кучу просмотров, но…
✔️ Amazon разозлился, пожаловался в его университет, и теперь Чунгина могут отчислить.

Как думаете, это гениальный лайфхак или обман работодателей?

👍6❤1😁1

2.29K views11:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

✅ Промпт для обучения модели классификации

Хотите быстро натренировать ML-модель для классификации? Используйте этот промпт:

I have a dataset that contains [describe the dataset: type, structure, source, and key features]. The dataset consists of [number of rows] rows and [number of columns] columns. The features include [list of key features], and the target variable is [target feature].

Please build a machine learning model that predicts [target feature] using appropriate preprocessing, feature engineering, and model selection.

Попробуйте и расскажите, какие результаты получили!

Библиотека дата-сайентиста #буст

👍3❤1

2.27K viewsedited 07:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Proglib.academy | IT-курсы

🧮🔠 Математика в действии: решаем хитрые задачи по прогнозированию, оптимизации и логике

Статья, которая поможет развить навыки решения задач с помощью математики.

➡️ Вот что вас ждет

1️⃣ Прогнозирование численности населения — используем цепи Маркова для предсказания миграций между городом и пригородами.

2️⃣ Минимизация затрат — находим минимальное скалярное произведение векторов для оптимального распределения задач между работниками.

3️⃣ Машина времени — решаем задачу максимального числа пересекающихся временных интервалов с помощью заметающей прямой.

4️⃣ Алгоритм Целлера — вычисляем день недели по дате. Проверка на практике.

🔵 Хочешь прокачаться в математике для ML? Тогда разбирайся с этими задачами и не упусти вебинар: «Математика для ML: от теории к практике».

👉 Читать статью

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤3😁2

1.56K views10:48

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

😍 Подборка 25 полезных и бесплатных ресурсов для аналитиков

Если ты сомневаешься, стоит ли тратить время на освоение статистических методов и других сложных тем аналитики, начни с бесплатных курсов. Это отличный способ:

👍 Получить крепкую базу знаний, которая поможет понять, стоит ли углубляться дальше.
👍 Получить сертификаты, которые могут быть полезны для твоего резюме, особенно если опыта пока нет.

Ссылка на ресурсы: https://clc.to/4p3g-g

Библиотека дата-сайентиста #буст

👍3❤1

2.06K views18:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

🚀 How to: как настроить Gradient Boosting

Не выбирайте слишком много гиперпараметров. Достаточно этих пяти:
✔️ learning rate, глубина деревьев, количество деревьев, subsample ratio, L1/L2-регуляризация.

Учитывайте взаимосвязь параметров:
✔️ Меньший learning rate → нужно больше деревьев.
✔️ Глубокие деревья → нужен меньший learning rate.

Как настраивать:
✔️ Фиксируем 500–1000 деревьев.
✔️ Тюним learning rate, глубину и другие параметры.
✔️ Используем раннюю остановку (15–20 итераций без улучшений).

Полезные рекомендации:
✔️ Learning rate: 0.001–0.05, по умолчанию 0.01.
✔️ Размер датасета: для маленьких → деревья 1–3, для больших → 4–6.
✔️ Регуляризация: L2 — для коррелированных фич, L1 — для отбора важных.
✔️ subsample: 0.1–0.7, по умолчанию 0.5.
✔️ k-fold CV обязателен, для временных рядов — nested sliding CV.

🔥 Какой совет был полезен? Делитесь!

Библиотека дата-сайентиста #буст

👍10❤1🥰1🤩1

2.17K views07:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2❤1

1.99K viewsedited 14:48

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤔 Математика vs библиотеки: что важнее для Data Scientist?

Представьте задачу, которую нужно решить быстро. В одном случае вы углубляетесь в алгоритмы и теоремы, в другом — используете библиотеки для быстрого решения.

Что важнее в реальной работе: глубокое понимание математики или способность быстро применять библиотеки?

👍 — Математика решает, без неё в DS никуда
❤️ — Достаточно библиотек, главное — практика
🔥 — Комбинированный подход: баланс важен

Библиотека дата-сайентиста #междусобойчик

🔥57👍15❤3

2.16K views18:04

2025/07/09 10:16:50
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>