Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение 6145

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

😴 Скучно на выходных?

Что, если построить свою библиотеку машинного обучения с чистого листа — только с Python, NumPy и математическими формулами?

ML by Hand — библиотека, которая помогает понять, как работают нейросети изнутри. С её помощью можно обучить модели от CNN и LSTM до GPT без готовых фреймворков.

✅ Проект вдохновлён Micrograd Андрея Карпатого и идеально подойдёт тем, кто хочет разобраться в глубинной математике ИИ.

🔗 Код и подробности: https://clc.to/M2buLg

👍4😁3

2.21K views18:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 4 стратегии обучения на нескольких GPU

При обучении нейросетей важно эффективно распределять нагрузку между видеокартами. Разберем четыре ключевых подхода к параллелизации:

Model Parallelism — разделение слоев модели между GPU. Каждый GPU обрабатывает свою часть сети (например, слой 1 на первом GPU, слой 2 — на втором).
✅ Подходит для очень больших моделей
❌ Сложно синхронизировать вычисления

Tensor Parallelism — разделение нейронов внутри слоя. Один и тот же слой делится между несколькими GPU.
✅ Используется в современных LLM (GPT, LLaMA)
❌ Требует сложных алгоритмов коммуникации

Data Parallelism — разбиение данных. Одна и та же модель копируется на каждый GPU, но обучается на разных мини-батчах.
✅ Простой в реализации
❌ Ограничен размером батча

Pipeline Parallelism — послойная обработка данных. Данные передаются через несколько GPU по конвейеру.
✅ Подходит для глубоких моделей
❌ Может быть простой (idle time) между шагами

❤5👍2

2.18K views07:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

✅ Ожидание: Чёткий план, логичный перебор параметров.
😵‍💫 Реальность: Бесконечный хаос, случайные комбинации и надежда на лучшее.

😁17💯1

2.11K views18:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Shuffle Feature Importance: простая методика оценки важности признаков

Shuffle Feature Importance — интуитивно понятный метод оценки значимости признаков в модели машинного обучения. Он основан на анализе того, насколько ухудшается качество модели после случайного перемешивания значений конкретного признака.

Как это работает:
▪️ Обучение модели и оценка её качества (P₁) на исходных данных.
▪️ Перемешивание одного признака (shuffle) и повторная оценка качества модели (P₂).
▪️ Расчёт важности признака: разница между исходным и новым качеством модели (P₁ — P₂).
▪️ Повторение процедуры для всех признаков, чтобы получить сравнительную значимость.

📊 Чем сильнее падает качество после перемешивания, тем важнее признак для модели!

👍8❤2🎉1

2.11K views07:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

✨ smolmodels — машинное обучение на естественном языке

Библиотека для создания моделей машинного обучения с минимальным кодом. Просто опишите задачу словами — smolmodels выполнит всё остальное: от генерации данных до обучения и упаковки модели.

Основные возможности:
✔️ Автоматическая генерация данных
✔️ Feature engineering без ручного вмешательства
✔️ Обучение модели на основе текстового описания
✔️ Упаковка готовой модели для использования

Ссылка: https://clc.to/_tBBWg

👍3👏2❤1

2.11K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

❗Вакансии «Библиотеки программиста» — ждем вас в команде!

Мы постоянно растем и развиваемся, поэтому создали отдельную страницу, на которой будут размещены наши актуальные вакансии. Сейчас мы ищем:
👉контент-менеджеров для ведения телеграм-каналов
👉Переводчик и автор оригинальных статей

Подробности тут

Мы предлагаем частичную занятость и полностью удаленный формат работы — можно совмещать с основной и находиться в любом месте🌴

Ждем ваших откликов 👾

job.proglib.io

Вакансии в медиа «Библиотека программиста»‎

Количество проектов в редакции постоянно растет, так что нам всегда нужны специалисты

1.91K views06:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

R²: высокое значение ≠ хорошие прогнозы

R² (коэффициент детерминации) показывает, какая доля изменчивости зависимой переменной объясняется моделью.

✅ R² = 0 → Модель не объясняет данные → Плохая предсказательная способность.
✅ R² = 1 → Полное соответствие данным → Возможен оверфит.

⚠️ Главное заблуждение: высокий R² не гарантирует точных прогнозов, а лишь оценивает, насколько модель подогнана под данные.

Формула:
R² = 1 — (RSS / TSS),
где TSS — общая изменчивость, RSS — ошибка модели.

👍7❤1

2.09K viewsedited 07:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

1.89K views11:22

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Что выведет код?

Anonymous Quiz

❤1

365 voters1.92K views11:22

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👍 Автомодерация изображений: как исправлять нарушения, сохраняя количество и качество контента

Раньше объявления, нарушающие правила, просто блокировались. Теперь с помощью ML-системы их можно исправлять — это сохраняет контент, снижает затраты на модерацию и улучшает пользовательский опыт.

В статье подробно разбираются все этапы внедрения этой ML-механики: от идеи и исследования подходов до оптимизации нейросетей и вывода в продакшен.

🔗 Читайте подробнее: https://clc.to/bB7QNw

❤3👍2😁1🤩1

2.03K viewsedited 18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

📌 Логистическая регрессия vs. Многослойный персептрон

На изображении сравниваются два метода классификации данных: логистическая регрессия (слева) и многослойный персептрон (MLP, справа) после 25 эпох обучения.

✅ Результаты показывают, что MLP лучше справляется с нелинейно разделимыми данными, в отличие от логистической регрессии, которая проводит лишь простую линейную границу.

❤3👍2🔥1

2.01K viewsedited 07:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Data jobs — вакансии по data science, анализу данных, аналитике, искусственному интеллекту

📝 Почему твое резюме собирает мало просмотров: 6 главных ошибок и как их исправить

Гайд о том, как в несколько раз увеличить количество просмотров вашего резюме с помощью проверенных техник оптимизации профиля.

В этой статье мы разберем 6 ошибок, которые мешают вашему резюме появляться в поиске рекрутеров, и дадим рекомендации по их исправлению. Следуя этим советам, вы повысите видимость своего профиля и чаще будете попадать в поле зрения работодателей.

👉 Читать статью

❤1

1.67K views10:16

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔍 DeepFace — инструмент для распознавания лиц в Python

DeepFace — это лёгкий фреймворк для анализа лиц и их характеристик (возраст, пол, эмоции, раса). Он объединяет передовые модели, такие как VGG-Face, FaceNet, OpenFace, DeepID, ArcFace и другие.

Ссылка: https://clc.to/QiY9Dg

❤4👍2👏1

2.12K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

📌 Как строится процесс разработки ML-решений?

Построение ML-решений — это командный процесс, требующий участия разных специалистов. От идеи до внедрения проходит несколько этапов:

👍 Визуализация отлично показывает, как все роли взаимодействуют друг с другом.

👍2❤1

2.24K viewsedited 07:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔍 Заполнение пропущенных значений в данных

Реальные датасеты часто содержат пропуски, что мешает обучению моделей.

В этом туториале разберём различные стратегии заполнения пропусков с помощью scikit-learn и научимся подготавливать данные для машинного обучения.

👍4❤1🔥1😁1

2.47K views11:28

2025/07/10 08:14:50
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>