tgoop.com »
United States »
Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение » Telegram Web
🤖 Реальный Reinforcement Learning — это вообще возможно?
📩 Вопрос от подписчика:
💬 Вопрос к вам:
🟣 Кто работает с RL в индустрии — узнаёте свои проблемы?
🟣 Model-based RL — всё ещё реалистичное направление?
🟣 Или стоит идти в сторону гибридов, имитационного обучения или вообще классического контроля?
🤝 Делитесь опытом — хочется понять, как другие решают эти практические тупики.
P.S. Если хотите задать вопрос, заполните нашу гугл-форму. Это займет 5 минут.
Библиотека дата-сайентиста #междусобойчик
📩 Вопрос от подписчика:
Пробуем применять обучение с подкреплением (RL) в реальных задачах: энергосистемы, маркетинг, логистика.
Онлайн-RL почти сразу исключается — слишком рискованно экспериментировать в проде. Симуляторов под рукой нет, так что ушли в offline-RL. Алгоритмы типа CQL показывают хорошие результаты в тестах, но:
— сложно объяснить заказчикам
— плохо вписываются в индустриальные процессы
Чуть больше надежд даёт model-based RL (особенно простые MPC-подходы). Написали даже open source-библиотеку. Но всё упирается в качество модели среды. А в логах всё как обычно:
1. Узкое покрытие действий — политика в логах субоптимальна
2. Малый объём данных (<10k переходов)
3. Много шума и частично наблюдаемые состояния (по сути POMDP)
Всё это мешает обучить надёжную модель мира, не говоря уже о рабочей политике.
💬 Вопрос к вам:
🤝 Делитесь опытом — хочется понять, как другие решают эти практические тупики.
P.S. Если хотите задать вопрос, заполните нашу гугл-форму. Это займет 5 минут.
Библиотека дата-сайентиста #междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍2
🚀 Как ускорить Python-код для ресурсоёмких задач
При работе с большими объёмами данных Python может «тормозить», особенно при обработке сотен тысяч строк или обучении сложных ML-моделей.
🎯 Ниже — два приёма, которые позволят ускорить обучение и загрузку данных в десятки раз.
1️⃣ Используйте GPU с включённым memory growth
По умолчанию TensorFlow может попытаться занять всю память видеокарты, что приводит к ошибке OOM. Решение — включить «постепенное» выделение памяти:
2️⃣ Оптимизируйте загрузку данных с `tf.data`
Загрузка Excel-файла — типичное узкое место (Disk I/O). Использование
Пример:
📎 Вывод:
GPU и
Библиотека дата-сайентиста #буст
При работе с большими объёмами данных Python может «тормозить», особенно при обработке сотен тысяч строк или обучении сложных ML-моделей.
🎯 Ниже — два приёма, которые позволят ускорить обучение и загрузку данных в десятки раз.
По умолчанию TensorFlow может попытаться занять всю память видеокарты, что приводит к ошибке OOM. Решение — включить «постепенное» выделение памяти:
gpus = tf.config.experimental.list_physical_devices('GPU')
if gpus:
for gpu in gpus:
tf.config.experimental.set_memory_growth(gpu, True)
Загрузка Excel-файла — типичное узкое место (Disk I/O). Использование
tf.data.Dataset
с prefetch
позволяет загружать и обрабатывать данные асинхронно.Пример:
dataset = tf.data.Dataset.from_generator(
data_generator,
output_signature={col: tf.TensorSpec(shape=(), dtype=tf.float32) for col in data.columns}
).shuffle(1000).batch(32).prefetch(tf.data.AUTOTUNE)
📎 Вывод:
GPU и
tf.data
с правильной настройкой дают мощный прирост производительности. Особенно важно при работе с крупными ML-пайплайнами и в продакшене.Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍4🔥1
🎧 Как работает преобразование Фурье — простыми словами и на Python
⠀
Вы, наверняка, слышали о преобразовании Фурье, но что это на самом деле и зачем оно нужно?
⠀
Мы подготовили для вас 6 простых карточек:
📍 Что делает преобразование Фурье
📍 Как разложить сигнал
📍 Как найти шум
📍 И даже как его убрать!
⠀
Листайте 👉
Если хотите узнать больше — полная статья по ссылке: https://proglib.io/sh/1DKn7CfvLQ
Библиотека дата-сайентиста #буст
⠀
Вы, наверняка, слышали о преобразовании Фурье, но что это на самом деле и зачем оно нужно?
⠀
Мы подготовили для вас 6 простых карточек:
⠀
Листайте 👉
Если хотите узнать больше — полная статья по ссылке: https://proglib.io/sh/1DKn7CfvLQ
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍2🎉2🔥1
Самые догадливые, пишите ответ в комментах 👇
Небольшая подсказка — это термин относится к AI или DS.
Прячем ответы под спойлер, чтобы не спалить остальным.
Библиотека дата-сайентиста #междусобойчик
Небольшая подсказка — это термин относится к AI или DS.
Прячем ответы под спойлер, чтобы не спалить остальным.
Библиотека дата-сайентиста #междусобойчик
❤2
🔥 Модели, релизы и технологии:
— AlphaEvolve — новый кодинг-агент для сложных алгоритмов
— Model Context Protocol (MCP) — мост между LLM и любыми API
— Hugging Face + Kaggle — совместный доступ к моделям для всех
🧠 Статьи, исследования и лучшие практики:
— Continuous Thought Machine — новая архитектура от SakanaAI, вдохновлённая биологией
— LLM превзошли врачей — OpenAI выпускает медицинский бенчмарк
— Инженерные хаки от DeepSeek — обучение и инференс без боли
— System prompt Claude — слит весь Claude на 24k токенов
📘 Обучение и развитие:
— fit() для новичков — просто и понятно
— От студента до AI-инженера — карьерный гайд
— MLечный путь 2025 — репортаж с коммьюнити-мероприятия
— Как прокачаться джуниору в ML — полезная подборка
🛠 Практика и инструменты:
— Разворачиваем нейросеть на VPS — FastAPI + Hugging Face за 15 минут
— Точная OCR через декомпозицию — кейс Avito
💬 Мнение:
— Интервью про ИИ, которое меня выбесило — критика, сатира, реакция
Библиотека дата-сайентиста #свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2🔥1
Forwarded from Библиотека задач по Data Science | тесты, код, задания
Стажёр аналитик Spark Hadoop BigData — от 60 000 до 100 000 ₽, гибрид (Москва)
Data Engineer ML — от 220 000 до 320 000 ₽, удалёнка
Data Scientist, гибрид (Москва)
Ведущий инженер поддержки Data Platform (Yandex Cloud), гибрид (Москва)
Дата Саентист (Data Scientist), офис (Москва)
Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
Платформы с Low-Code AI обещают быстрое внедрение без строчки кода. Но под нагрузкой они часто не справляются:
Вот как заставить low-code работать в реальном масштабе:
Используйте сервисы с автоскейлингом (например, Azure Kubernetes Service, AWS SageMaker Pipelines). Избегайте базовых конфигураций — они не выдерживают нагрузку.
Очищайте данные пользователя после каждого запроса. Не полагайтесь на сохранённое состояние, если не контролируете его.
Следите за:
— Временем ответа API
— Процентом ошибок
— Использованием ресурсов
— Добавьте бизнес-метрики (например, конверсия, влияние на продажи).
Размещайте модели через балансировщики нагрузки. Настройте масштабирование по CPU или задержке.
Каждое обновление — новая версия. Тестируйте в staging и проводите A/B-тесты.
Когда low-code — хороший выбор
📌 Low-code не значит «всё само заработает». Масштаб требует инженерного подхода.
Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3❤2👍2
Media is too big
VIEW IN TELEGRAM
2027 год станет точкой невозврата для AI
Proglib рассказывает про исследование, которое завирусилось в сети в формате рилса
🥱12🌚1
Даже самая точная модель на этапе разработки может со временем «поплыть» — из-за изменений в данных, поведении пользователей или внешней среды.
В новом материале разбираемся:
— какие метрики важно отслеживать после деплоя,
— когда запускать A/B-тесты,
— как строить систему алертов и реагировать на деградацию,
— и почему переобучение — не признак провала, а часть жизненного цикла ML.
👉 Читайте статью здесь: https://proglib.io/sh/fjpFLVWn8Z
Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤2
🚀 Создавайте ML-модели с помощью естественного языка с Plexe
Почему бы не упростить создание моделей машинного обучения?
Plexe — это Python-библиотека, которая позволяет вам описывать задачу на естественном языке. После этого команда интеллектуальных агентов на базе LLM берёт всё в свои руки: от построения архитектуры до обучения и тестирования.
📌 Пример:
Основные возможности:
— Описание модели на естественном языке
— Многоагентная система (анализ, генерация кода, тесты)
— Автоматизированное построение моделей в один метод
— Поддержка распределённого обучения (Ray)
— Генерация данных и автоматический вывод схем
— Интеграция с OpenAI, Anthropic, HuggingFace и другими LLM-провайдерами
📦 Установка:
🔗 Ознакомиться с проектом и примерами: https://clc.to/Fs6A-g
Библиотека дата-сайентиста #буст
Почему бы не упростить создание моделей машинного обучения?
Plexe — это Python-библиотека, которая позволяет вам описывать задачу на естественном языке. После этого команда интеллектуальных агентов на базе LLM берёт всё в свои руки: от построения архитектуры до обучения и тестирования.
📌 Пример:
import plexe
model = plexe.Model(
intent="Предсказать тональность новостных статей",
input_schema={"headline": str, "content": str},
output_schema={"sentiment": str}
)
model.build(
datasets=[your_dataset],
provider="openai/gpt-4o-mini"
)
prediction = model.predict({
"headline": "Прорыв в области ИИ",
"content": "Учёные достигли впечатляющих результатов..."
})
Основные возможности:
— Описание модели на естественном языке
— Многоагентная система (анализ, генерация кода, тесты)
— Автоматизированное построение моделей в один метод
— Поддержка распределённого обучения (Ray)
— Генерация данных и автоматический вывод схем
— Интеграция с OpenAI, Anthropic, HuggingFace и другими LLM-провайдерами
📦 Установка:
pip install plexe
🔗 Ознакомиться с проектом и примерами: https://clc.to/Fs6A-g
Библиотека дата-сайентиста #буст
🤔7❤3🔥3👍2