tgoop.com »
United States »
Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение » Telegram Web
This media is not supported in your browser
VIEW IN TELEGRAM
Gaussian Mixture Models (GMM) — это мощный инструмент для тех случаев, когда данные сложно разбить на чёткие кластеры. Вместо привязки к одному кластеру, GMM работает с вероятностями, что особенно полезно при перекрывающихся группах.
В отличие от жёсткой кластеризации (например, KMeans), GMM:
— Строит пробабилистическую модель: каждое наблюдение принадлежит к каждому кластеру с определённой вероятностью
— Подходит для кластеров разного размера и формы
— Работает даже при перекрывающихся распределениях
GMM моделирует данные как смесь нескольких нормальных распределений. Алгоритм использует Expectation-Maximization (EM):
1. E-шаг: оценивает вероятность принадлежности каждой точки к каждому кластеру
2. M-шаг: обновляет параметры (среднее, ковариацию) каждого распределения на основе оценок
— R: пакет
mclust
с визуализацией и автоматическим выбором модели— Python:
sklearn.mixture.GaussianMixture
, pgmpy
, pomegranate
from sklearn.mixture import GaussianMixture
gmm = GaussianMixture(n_components=3)
gmm.fit(X)
labels = gmm.predict(X)
probs = gmm.predict_proba(X)
gmm.bic(X), gmm.aic(X)
— Мягкая кластеризация: каждая точка — не только метка, но и вероятность
— Гибкость в формах и плотностях кластеров
— Можно использовать для density estimation и анализов аномалий
— Нужно заранее задавать число кластеров
— Могут возникать проблемы с инициализацией (зависимость от начальных условий)
— Предполагается, что компоненты — именно гауссовы, что не всегда так
— Детекция аномалий (особенно в кибербезопасности)
— Сегментация изображений
— Обработка речи и звука
— Финансовое моделирование и risk scoring
— Понимание скрытых закономерностей в данных пользователей
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10⚡1❤1
Когда сроки горят, а разработчиков не хватает
Нехватка квалифицированных разработчиков, срывы дедлайнов и перегруз команды — эти проблемы знакомы большинству IT-руководителей. В условиях растущей конкуренции найти баланс между качеством реализации, сроками и бюджетом становится всё сложнее, особенно когда проект требует редких компетенций или быстрого масштабирования.
Решение проблемы — задействовать дополнительные ресурсы на аутсорсе или аутстаффе. Например, обратиться в Proglib. Да-да, мы запустили свою студию веб-разработки!
Что мы предлагаем:
• Опытные специалисты для аутстаффа (frontend, backend, DevOps, UI/UX, PM, BA)
• Полноценная разработка проектов под ключ
• Гибкое масштабирование команды под потребности клиента
• Прозрачная коммуникация и регулярная отчетность
Для каждого проекта формируется индивидуальная команда, исходя из конкретных потребностей заказчика.
Заполните форму, чтобы ускорить свою разработку 👉 https://forms.yandex.ru/u/67e548a4eb614622efa0bcb2/
Нехватка квалифицированных разработчиков, срывы дедлайнов и перегруз команды — эти проблемы знакомы большинству IT-руководителей. В условиях растущей конкуренции найти баланс между качеством реализации, сроками и бюджетом становится всё сложнее, особенно когда проект требует редких компетенций или быстрого масштабирования.
Решение проблемы — задействовать дополнительные ресурсы на аутсорсе или аутстаффе. Например, обратиться в Proglib. Да-да, мы запустили свою студию веб-разработки!
Что мы предлагаем:
• Опытные специалисты для аутстаффа (frontend, backend, DevOps, UI/UX, PM, BA)
• Полноценная разработка проектов под ключ
• Гибкое масштабирование команды под потребности клиента
• Прозрачная коммуникация и регулярная отчетность
Для каждого проекта формируется индивидуальная команда, исходя из конкретных потребностей заказчика.
Заполните форму, чтобы ускорить свою разработку 👉 https://forms.yandex.ru/u/67e548a4eb614622efa0bcb2/
❤2
Forwarded from Библиотека питониста | Python, Django, Flask
Когда Django-запросы вытягивают из базы больше данных, чем нужно, это тормозит работу приложения. Чтобы ускорить выполнение и уменьшить нагрузку, можно использовать методы:
defer()
— откладывает загрузку указанных полей до их фактического использования only()
— загружает только указанные поля, остальные — по запросу exclude()
— фильтрует объекты, исключая ненужныеВ статье — практические примеры на базе веб-приложения для агентства недвижимости: как применять эти методы, чтобы получать только нужные данные и ускорять запросы.
🔗 Подробнее в статье: https://proglib.io/sh/2vagPRorTU
Библиотека питониста
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🔥1🤔1
С помощью weightwatcher — open-source библиотеки на Python — можно проанализировать обученные модели глубокого обучения и выявить:
И всё это без тренировочных или тестовых данных — анализ идёт напрямую по весам модели.
Пример использования
weightwatcher
для анализа модели:import weightwatcher as ww
import torchvision.models as models
# Загружаем предобученную модель
model = models.vgg19_bn(pretrained=True)
# Запускаем анализ
watcher = ww.WeightWatcher(model=model)
details = watcher.analyze()
# Получаем краткое резюме
summary = watcher.get_summary(details)
🔗 Ссылка на репозиторий: https://clc.to/ih8VVw
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤2⚡1🔥1
🧠 Периодическая таблица машинного обучения от MIT
В MIT создали структуру, объединяющую 20+ классических алгоритмов машинного обучения в единую таблицу — как периодическую таблицу Менделеева, но для ИИ. Она показывает, как связаны между собой разные подходы, и даже указывает на пробелы, где ещё можно открыть что-то новое.
🔍 Ключевая идея: большинство алгоритмов обучаются находить связи между точками данных. Авторы вывели одно общее уравнение, на котором строятся десятки методов — от кластеризации до современных LLM.
Что в этом крутого:
— Объединяет более 20 ML-алгоритмов через общую математическую структуру
— Позволяет комбинировать подходы и получать более мощные модели
— Уже дал новый алгоритм для кластеризации изображений, который на 8% лучше SOTA
— Делает поиск и разработку новых методов системным, а не случайным
💬 Как говорят авторы:
📌 Подробнее: https://clc.to/cp6Gig
Библиотека дата-сайентиста #свежак
В MIT создали структуру, объединяющую 20+ классических алгоритмов машинного обучения в единую таблицу — как периодическую таблицу Менделеева, но для ИИ. Она показывает, как связаны между собой разные подходы, и даже указывает на пробелы, где ещё можно открыть что-то новое.
🔍 Ключевая идея: большинство алгоритмов обучаются находить связи между точками данных. Авторы вывели одно общее уравнение, на котором строятся десятки методов — от кластеризации до современных LLM.
Что в этом крутого:
— Объединяет более 20 ML-алгоритмов через общую математическую структуру
— Позволяет комбинировать подходы и получать более мощные модели
— Уже дал новый алгоритм для кластеризации изображений, который на 8% лучше SOTA
— Делает поиск и разработку новых методов системным, а не случайным
💬 Как говорят авторы:
«Мы начали видеть машинное обучение как пространство, которое можно исследовать, а не просто гадать».
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9❤2⚡2👍2
💡 Что посмотреть: топ-3 курса для дата-сайентистов
1️⃣ Numpy For Machine Learning — освоение основ работы с массивами и математическими операциями в Python для анализа данных.
2️⃣ Scikit-Learn Tutorials - Master Machine Learning — подробное руководство по машинному обучению с использованием одного из самых популярных Python-библиотек.
3️⃣ Pandas For Machine Learning — курс по обработке и анализу данных с помощью Pandas, ключевого инструмента для работы с данными.
Библиотека дата-сайентиста #буст
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🙏3❤1🔥1
Forwarded from Библиотека джависта | Java, Spring, Maven, Hibernate
📈 Как «ленивая разработка» захватывает IT-рынок
Пока мы выстраиваем архитектуру, пишем тесты и спорим о лучших практиках, рынок всё активнее обживают те, кто вообще не пишет код. Low-code и no-code решения не просто живы — они становятся нормой для бизнеса.
Порог входа минимальный, скорость разработки — бешеная, а заказчику всё равно, написано ли это на Java или накликано в визуальном редакторе. Вопрос: как долго останется актуальной классическая разработка?
🔗 Подробнее в статье
🐸 Библиотека джависта
Пока мы выстраиваем архитектуру, пишем тесты и спорим о лучших практиках, рынок всё активнее обживают те, кто вообще не пишет код. Low-code и no-code решения не просто живы — они становятся нормой для бизнеса.
Порог входа минимальный, скорость разработки — бешеная, а заказчику всё равно, написано ли это на Java или накликано в визуальном редакторе. Вопрос: как долго останется актуальной классическая разработка?
🔗 Подробнее в статье
Please open Telegram to view this post
VIEW IN TELEGRAM
🥱4👍2❤1
🆕 Свежий релиз PyTorch 2.7
Новая версия PyTorch 2.7 приносит множество улучшений:
— Поддержка GPU-архитектуры NVIDIA Blackwell и сборки с CUDA 12.8 (Linux x86 и arm64)
—
— Mega Cache — переносимое end-to-end кэширование для
— Обновления FlexAttention
👉 Начать работу с PyTorch 2.7: https://clc.to/hZMHDQ
Библиотека дата-сайентиста #свежак
Новая версия PyTorch 2.7 приносит множество улучшений:
— Поддержка GPU-архитектуры NVIDIA Blackwell и сборки с CUDA 12.8 (Linux x86 и arm64)
—
torch.compile
теперь поддерживает Torch Function Modes, можно переопределять любые операции torch.**
под себя— Mega Cache — переносимое end-to-end кэширование для
torch
— Обновления FlexAttention
👉 Начать работу с PyTorch 2.7: https://clc.to/hZMHDQ
Библиотека дата-сайентиста #свежак
❤3🔥3👍2
Сегодня делимся вопросом от нашего подписчика, который готовится к собеседованию на позицию в топовую компанию.
💬 Вот что он пишет:
«Я сейчас готовлюсь к собеседованиям, но сталкиваюсь с проблемой в технических раундах по ML. Изучаю ISLR, делаю заметки, но не могу эффективно запомнить все детали алгоритмов. Прошло много времени с тех пор, как я углубленно изучал алгоритмы машинного обучения в университете. Как мне лучше готовиться к собеседованиям по ML, чтобы уверенно отвечать на вопросы? Как укрепить знания и эффективно запомнить алгоритмы?»
💡 Поделитесь советами и личным опытом в комментариях!
P.S. Если хотите задать вопрос, заполните нашу гугл-форму. Это займет 5 минут.
Библиотека дата-сайентиста #междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍2🔥2
🛠 Команда дня: ускоряем динамический инференс
▶️ Проблема: у модели меняется размер входов — обычно это мешает трассировке и оптимизации.
✅ Решение: torch.jit.trace умеет кэшировать разные формы входов. TorchScript сохраняет шаблоны и переиспользует их, ускоряя инференс без потерь гибкости.
Пример:
➡️ Что это даёт:
• Ускорение инференса за счёт shape specialization
• Гибкость — не нужно фиксировать размер входа
• TorchScript автоматически переиспользует кэш при повторении формы
Библиотека дата-сайентиста #буст
Пример:
import torch
from torch import nn
# Простая нейросеть
model = nn.Sequential(
nn.Linear(128, 64),
nn.ReLU(),
nn.Linear(64, 10)
)
# Пример входа для трассировки
example_input = torch.randn(1, 128)
# Трассировка модели — включаем TorchScript
traced_model = torch.jit.trace(model, example_input)
# Первый вызов с новым размером — форма кэшируется
output1 = traced_model(torch.randn(32, 128))
# Второй вызов с такой же формой — используется кэш
output2 = traced_model(torch.randn(32, 128))
# Новый батч — снова кэшируется
output3 = traced_model(torch.randn(64, 128))
• Ускорение инференса за счёт shape specialization
• Гибкость — не нужно фиксировать размер входа
• TorchScript автоматически переиспользует кэш при повторении формы
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤2⚡1👏1
Forwarded from Библиотека программиста | программирование, кодинг, разработка
🧠⚡️👟 Странные, но эффективные лайфхаки для продуктивности
Иногда самые действенные способы повысить продуктивность звучат как полный бред. Но это работает! Пользователи Reddit делятся своими «тупо-звучащими-но-реально-помогающими» секретами, которые помогут тебе наконец-то перестать прокрастинировать и начать делать дела.
ТОП-советы от пользователей Reddit — в нашей статье.
🐸 Библиотека программиста
Иногда самые действенные способы повысить продуктивность звучат как полный бред. Но это работает! Пользователи Reddit делятся своими «тупо-звучащими-но-реально-помогающими» секретами, которые помогут тебе наконец-то перестать прокрастинировать и начать делать дела.
ТОП-советы от пользователей Reddit — в нашей статье.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Собрали топовые материалы, которые наши подписчики сохраняют чаще всего.
Эту подборку мы будем регулярно пополнять, поэтому сохраняйте тонну пользы, чтобы не потерять!
1. 25 самых важных математических определений в Data Science
2. Machine Learning Crash Course — бесплатный курс от Google обновился
3. SQL для дата-сайентиста за 6 недель
4. PandasAI — библиотека для исследования данных с помощью естественного языка
5. Какие навыки нужны Data Scientist'у и как их освоить
6. Ликбез по теореме Байеса
7. Подробный гайд по описательной статистике
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5
🔥 Холивар: Jupyter Notebook — «мертв» или «живее всех живых»?
С каждым годом всё больше говорят, что Jupyter — «игрушка для новичков», «ад для reproducibility», «debug невозможен», и ему нет места в продакшне. Но с другой стороны — это удобство, интерактивность и быстрое прототипирование.
😡 Одна из проблем, с которой сталкиваются многие — это слияние ноутбуков и git-конфликты, которые могут превращать работу в настоящий кошмар. Если вам это знакомо, значит, вы просто ещё не попробовали nbdime.
Это набор утилит, которые делают сравнение и слияние ноутбуков человеческим:
•
•
•
•
•
📌 Если до этого вы просто коммитили
А теперь по-честному: используете ли Jupyter в 2025?
Давайте обсужим в комментариях!⤵️
Инструкция о том, как оставить комментарий: https://www.tgoop.com/dsproglib/6244
❤️ — Без Jupyter не обойтись, он мой главный инструмент
👍 — Ушёл на другие решения, Jupyter — это прошлый век
🤔 — Не могу выбрать, использую и Jupyter, и другие инструменты
Библиотека дата-сайентиста #междусобойчик
С каждым годом всё больше говорят, что Jupyter — «игрушка для новичков», «ад для reproducibility», «debug невозможен», и ему нет места в продакшне. Но с другой стороны — это удобство, интерактивность и быстрое прототипирование.
Это набор утилит, которые делают сравнение и слияние ноутбуков человеческим:
•
nbdiff
— сравнение ноутбуков прямо в терминале •
nbdiff-web
— визуальное сравнение с рендером ячеек •
nbmerge
— трёхсторонний merge с автоматическим разрешением конфликтов •
nbmerge-web
— тот же merge, но в браузере •
nbshow
— удобный просмотр ноутбука в консоли 📌 Если до этого вы просто коммитили
.ipynb
«как получится» — попробуйте, это может изменить ваше мнение о Jupyter.А теперь по-честному: используете ли Jupyter в 2025?
Давайте обсужим в комментариях!
Инструкция о том, как оставить комментарий: https://www.tgoop.com/dsproglib/6244
❤️ — Без Jupyter не обойтись, он мой главный инструмент
👍 — Ушёл на другие решения, Jupyter — это прошлый век
🤔 — Не могу выбрать, использую и Jupyter, и другие инструменты
Библиотека дата-сайентиста #междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
❤30🤔9👍3
🆕 Свежие новости из мира AI и Data Science
🔥 Модели, релизы и технологии:
— Scikit-learn, UMAP и HDBSCAN теперь работают на GPU — ускорение без единой строчки изменений в коде
— Свежий релиз PyTorch 2.7 — новые возможности для оптимизации, работы с графами и улучшения API
— Периодическая таблица машинного обучения от MIT — удобная визуализация ключевых алгоритмов и методов
🧠 Статьи, исследования и лучшие практики:
— Как в Авито предсказывают категории объявлений по описанию — разбор ML-решений в реальном продукте
— Mixture of Experts: когда нейросеть учится делегировать — о динамическом распределении задач между частями модели
— Организация датасетов с ClearML — практическое руководство для ML-команд
— Пайплайн распознавания номеров транспортных средств: как это устроено — кейс от МТС о построении полного конвейера
👍 Cоветы:
— Как перестать кидать Jupyter-ноутбуки по почте — гид по эффективной коллаборации с данными и моделями
Библиотека дата-сайентиста #свежак
🔥 Модели, релизы и технологии:
— Scikit-learn, UMAP и HDBSCAN теперь работают на GPU — ускорение без единой строчки изменений в коде
— Свежий релиз PyTorch 2.7 — новые возможности для оптимизации, работы с графами и улучшения API
— Периодическая таблица машинного обучения от MIT — удобная визуализация ключевых алгоритмов и методов
🧠 Статьи, исследования и лучшие практики:
— Как в Авито предсказывают категории объявлений по описанию — разбор ML-решений в реальном продукте
— Mixture of Experts: когда нейросеть учится делегировать — о динамическом распределении задач между частями модели
— Организация датасетов с ClearML — практическое руководство для ML-команд
— Пайплайн распознавания номеров транспортных средств: как это устроено — кейс от МТС о построении полного конвейера
👍 Cоветы:
— Как перестать кидать Jupyter-ноутбуки по почте — гид по эффективной коллаборации с данными и моделями
Библиотека дата-сайентиста #свежак
❤2
Forwarded from Библиотека задач по Data Science | тесты, код, задания
Power BI разработчик — от 125 000 ₽, удалёнка
Data Engineer — от 350 000 до 440 000 ₽, удалёнка
TL Data Scientist — до 459 000 ₽, удалёнка
Senior Data Analyst, удалёнка
Senior Data Scientist (Rec. System), удалёнка
Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 Вышел Apache Airflow 3.0 — крупнейшее обновление за последнее время
После месяцев активной работы сообщества мир увидел релиз Apache Airflow 3.0 — важный шаг вперёд для оркестрации данных.
Что нового:
➡️ Сервисно-ориентированная архитектура — разворачивайте только нужные компоненты, без монолита.
➡️ Планирование на основе данных — теперь можно нативно определять и отслеживать объекты данных.
➡️ Событийное управление — запускайте DAG-и не только по расписанию, но и в ответ на события.
➡️ Версионирование DAG-ов — история выполнения сохраняется даже при изменении кода.
➡️ Новый UI на React — современный, удобный, полностью переработанный веб-интерфейс.
👉 Подробнее: https://clc.to/1KZxhQ
Библиотека дата-сайентиста #свежак
После месяцев активной работы сообщества мир увидел релиз Apache Airflow 3.0 — важный шаг вперёд для оркестрации данных.
Что нового:
👉 Подробнее: https://clc.to/1KZxhQ
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7❤5👍2