tgoop.com »
United States »
Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение » Telegram Web
Media is too big
VIEW IN TELEGRAM
2027 год станет точкой невозврата для AI
Proglib рассказывает про исследование, которое завирусилось в сети в формате рилса
🥱12🌚1
Даже самая точная модель на этапе разработки может со временем «поплыть» — из-за изменений в данных, поведении пользователей или внешней среды.
В новом материале разбираемся:
— какие метрики важно отслеживать после деплоя,
— когда запускать A/B-тесты,
— как строить систему алертов и реагировать на деградацию,
— и почему переобучение — не признак провала, а часть жизненного цикла ML.
👉 Читайте статью здесь: https://proglib.io/sh/fjpFLVWn8Z
Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤2
🚀 Создавайте ML-модели с помощью естественного языка с Plexe
Почему бы не упростить создание моделей машинного обучения?
Plexe — это Python-библиотека, которая позволяет вам описывать задачу на естественном языке. После этого команда интеллектуальных агентов на базе LLM берёт всё в свои руки: от построения архитектуры до обучения и тестирования.
📌 Пример:
Основные возможности:
— Описание модели на естественном языке
— Многоагентная система (анализ, генерация кода, тесты)
— Автоматизированное построение моделей в один метод
— Поддержка распределённого обучения (Ray)
— Генерация данных и автоматический вывод схем
— Интеграция с OpenAI, Anthropic, HuggingFace и другими LLM-провайдерами
📦 Установка:
🔗 Ознакомиться с проектом и примерами: https://clc.to/Fs6A-g
Библиотека дата-сайентиста #буст
Почему бы не упростить создание моделей машинного обучения?
Plexe — это Python-библиотека, которая позволяет вам описывать задачу на естественном языке. После этого команда интеллектуальных агентов на базе LLM берёт всё в свои руки: от построения архитектуры до обучения и тестирования.
📌 Пример:
import plexe
model = plexe.Model(
intent="Предсказать тональность новостных статей",
input_schema={"headline": str, "content": str},
output_schema={"sentiment": str}
)
model.build(
datasets=[your_dataset],
provider="openai/gpt-4o-mini"
)
prediction = model.predict({
"headline": "Прорыв в области ИИ",
"content": "Учёные достигли впечатляющих результатов..."
})
Основные возможности:
— Описание модели на естественном языке
— Многоагентная система (анализ, генерация кода, тесты)
— Автоматизированное построение моделей в один метод
— Поддержка распределённого обучения (Ray)
— Генерация данных и автоматический вывод схем
— Интеграция с OpenAI, Anthropic, HuggingFace и другими LLM-провайдерами
📦 Установка:
pip install plexe
🔗 Ознакомиться с проектом и примерами: https://clc.to/Fs6A-g
Библиотека дата-сайентиста #буст
🤔7❤3🔥3👍2
🥵 Устали от статей, где эйчары рассказывают, как на самом деле выглядит рынок труда в ИТ?
Мы тоже! Поэтому решили узнать правду и представить ее всем айтишникам — но нам нужен ваш голос. Опрос займет 3 минуты, а пользы — вагон для всего сообщества.
Результаты этого исследования помогут понять, как специалистам искать работу в 2025-м (а компаниям — специалистов).
👉 Если вы готовы сделать свой вклад в исследование — велком: https://clc.to/VGgyNA
Мы тоже! Поэтому решили узнать правду и представить ее всем айтишникам — но нам нужен ваш голос. Опрос займет 3 минуты, а пользы — вагон для всего сообщества.
Результаты этого исследования помогут понять, как специалистам искать работу в 2025-м (а компаниям — специалистов).
👉 Если вы готовы сделать свой вклад в исследование — велком: https://clc.to/VGgyNA
Что посмотреть: интервью с лидерами Google об ИИ, AGI и будущем разума
На Google I/O прошла живая дискуссия с Демисом Хассабисом (CEO DeepMind), Сергеем Брином (сооснователь Google) и Алексом Кантровицем. Темой стало развитие ИИ и возможный путь к AGI — искусственному общему интеллекту.
Обсудили:
— Есть ли предел масштабированию ИИ-моделей
— Как новые методы рассуждений меняют ИИ
— Когда (и будет ли) AGI
— ИИ-агенты Project Astra и подход AlphaEvolve (самообучение ИИ)
— Уроки от Google Glass и проблемы качества данных
— И да: затронули веб, симуляции и сроки появления AGI
🔗 Смотреть видео: https://clc.to/yMl_og
Библиотека дата-сайентиста #буст
На Google I/O прошла живая дискуссия с Демисом Хассабисом (CEO DeepMind), Сергеем Брином (сооснователь Google) и Алексом Кантровицем. Темой стало развитие ИИ и возможный путь к AGI — искусственному общему интеллекту.
Обсудили:
— Есть ли предел масштабированию ИИ-моделей
— Как новые методы рассуждений меняют ИИ
— Когда (и будет ли) AGI
— ИИ-агенты Project Astra и подход AlphaEvolve (самообучение ИИ)
— Уроки от Google Glass и проблемы качества данных
— И да: затронули веб, симуляции и сроки появления AGI
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍3🔥3
✉️ Вопрос подписчика: умирает ли традиционная роль Data Scientist?
Недавно подписчик поделился наблюдением:
💡 Поделитесь наблюдениями и личным опытом в комментариях!
P.S. Если хотите задать вопрос, заполните нашу гугл-форму. Это займет 5 минут.
Библиотека дата-сайентиста #междусобойчик
Недавно подписчик поделился наблюдением:
«Я часто вижу вакансии на Data Analyst/BI (SQL, дашборды), Data Engineer (пайплайны, ETL) и AI/ML Engineer (в основном развёртывание моделей и LLM). А вот классической роли Data Scientist — с фокусом на статистическое моделирование, дизайн экспериментов и комплексное решение задач — всё меньше.
Так компании просто разбивают эту «универсальную» роль на несколько специализированных? Или рынок ушёл от «единорога», который умеет всё сразу?
Как у вас обстоят дела с этой ролью? Всё ещё занимаетесь классической аналитикой и статистикой или перешли в более узкую специализацию?»
💡 Поделитесь наблюдениями и личным опытом в комментариях!
P.S. Если хотите задать вопрос, заполните нашу гугл-форму. Это займет 5 минут.
Библиотека дата-сайентиста #междусобойчик
🤔3❤2👍1😢1
🔥 Команда дня: einsum или как реализовать multi-head self-attention без единого цикла
Если вы работаете с нейросетями, особенно с трансформерами, то, скорее всего, сталкивались с реализациями self-attention, переполненными циклами. Однако благодаря
Вот пример реализации:
💡
📌 Почему стоит обратить внимание:
— Полная векторизация — минимум циклов, максимум скорости;
— Код ближе к математике, а значит — легче проверять;
— Можно выразить довольно сложные операции с тензорами в одной строке.
Библиотека дата-сайентиста #буст
Если вы работаете с нейросетями, особенно с трансформерами, то, скорее всего, сталкивались с реализациями self-attention, переполненными циклами. Однако благодаря
np.einsum
можно выразить всю механику multi-head attention в компактной и векторизованной форме.Вот пример реализации:
def multi_head_attention(X, W_q, W_k, W_v, W_o):
d_k = W_k.shape[-1]
Q = np.einsum('si,hij->hsj', X, W_q) # (n_heads, seq_len, d_k)
K = np.einsum('si,hik->hsk', X, W_k)
V = np.einsum('si,hiv->hsv', X, W_v)
scores = Q @ K.transpose(0, 2, 1) / np.sqrt(d_k)
weights = softmax(scores, axis=-1)
output = weights @ V
projected = np.einsum('hsv,hvd->hsd', output, W_o)
return projected.transpose(1, 0, 2).reshape(seq_len, -1)
💡
einsum
— мощный инструмент для выражения сложных операций с многомерными массивами. Особенно полезен, когда нужно точно контролировать свёртки и трансформации осей. В задачах NLP и computer vision это буквально незаменимая вещь.📌 Почему стоит обратить внимание:
— Полная векторизация — минимум циклов, максимум скорости;
— Код ближе к математике, а значит — легче проверять;
— Можно выразить довольно сложные операции с тензорами в одной строке.
Библиотека дата-сайентиста #буст
👍6❤4🔥1
🎯 ТОП-5 структур данных для обработки изображений
⠀
Как компьютеры «видят» изображения?
Какие структуры помогают выделять объекты, экономить память и ускорять алгоритмы?
⠀
В этом посте — ключевые структуры, без которых не обойтись в компьютерном зрении:
🔹 Матрицы
🔹 Цепи
🔹 Графы
🔹 Пирамиды
🔹 Квадродеревья
⠀
✅ Понятные примеры, плюсы и минусы, где применяются — всё на карточках.
Если хотите узнать больше — полная статья по ссылке: https://proglib.io/sh/nitr6FEIjR
Библиотека дата-сайентиста #буст
⠀
Как компьютеры «видят» изображения?
Какие структуры помогают выделять объекты, экономить память и ускорять алгоритмы?
⠀
В этом посте — ключевые структуры, без которых не обойтись в компьютерном зрении:
🔹 Матрицы
🔹 Цепи
🔹 Графы
🔹 Пирамиды
🔹 Квадродеревья
⠀
Если хотите узнать больше — полная статья по ссылке: https://proglib.io/sh/nitr6FEIjR
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍2🔥1
Please open Telegram to view this post
VIEW IN TELEGRAM
😁7💯2
🔥 Холивар: scikit-learn — мастодонт ML или пора переходить на что-то посвежее?
🎓 С одной стороны — стабильный и понятный scikit-learn:
• простота API,
• огромная документация,
• идеально подходит для обучения и базовых ML-пайплайнов.
💥 Но многие говорят: «Он уже не тянет продакшн»:
• нет GPU,
• нет удобной работы с пайплайнами в стиле TensorFlow/PyTorch,
• нет AutoML по умолчанию.
И начинают смотреть в сторону LightGBM, XGBoost, CatBoost, PyCaret, H2O, или даже Spark ML.
👀 А кто-то вообще считает, что Scikit-learn — это «велосипед прошлого десятилетия».
Делитесь своим стеком — кто чем пользуется в 2025?
Давайте обсужим в комментариях!⤵️
Инструкция о том, как оставить комментарий: https://www.tgoop.com/dsproglib/6244
❤️ — Scikit-learn forever: надёжный, понятный, любимый
👍 — Уже давно перешёл на градиентный бустинг и AutoML
🔥 — Я вообще на PyTorch/TensorFlow, мне склерн не нужен
🤔 — Использую всё понемногу, зависит от задачи
Библиотека дата-сайентиста #междусобойчик
🎓 С одной стороны — стабильный и понятный scikit-learn:
• простота API,
• огромная документация,
• идеально подходит для обучения и базовых ML-пайплайнов.
💥 Но многие говорят: «Он уже не тянет продакшн»:
• нет GPU,
• нет удобной работы с пайплайнами в стиле TensorFlow/PyTorch,
• нет AutoML по умолчанию.
И начинают смотреть в сторону LightGBM, XGBoost, CatBoost, PyCaret, H2O, или даже Spark ML.
👀 А кто-то вообще считает, что Scikit-learn — это «велосипед прошлого десятилетия».
Делитесь своим стеком — кто чем пользуется в 2025?
Давайте обсужим в комментариях!
Инструкция о том, как оставить комментарий: https://www.tgoop.com/dsproglib/6244
❤️ — Scikit-learn forever: надёжный, понятный, любимый
👍 — Уже давно перешёл на градиентный бустинг и AutoML
🔥 — Я вообще на PyTorch/TensorFlow, мне склерн не нужен
🤔 — Использую всё понемногу, зависит от задачи
Библиотека дата-сайентиста #междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔34🔥16👍4❤3
🔥 Модели, релизы и технологии:
— Codex от OpenAI — облачный инженерный агент, который пишет код сам
— Claude 4 — новая версия от Anthropic, лидер по качеству кода
— Google I/O 2025 — анонсы по «разумному» AI: умнее, персональнее, агентнее
🧠 Статьи, исследования и лучшие практики:
— Мысль не словами, а образами — модель от Google и Кембриджа, меняющая подход к мышлению
— ML-чемпионы: код, железо, стратегия — как побеждают на соревнованиях
— «Что у меня за распределение?» — пошаговый гайд от Tinkoff
— Теневая сторона AutoML — когда no-code мешает
📘 Обучение и развитие:
— To Docker or not to Docker? — как разворачивать JupyterLab правильно
— Scikit-learn 2025 — пайплайны, которые не ломаются
— Я не люблю NumPy — честный разбор альтернатив
— Когда стоит подключать ML? — чтобы не переплатить за автоматизацию
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤2🔥1
Forwarded from Библиотека задач по Data Science | тесты, код, задания
❤2