tgoop.com »
United States »
Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение » Telegram Web
Почему библиотека Seaborn так называется?
Anonymous Quiz
16%
В честь создателя с фамилией Seaborn
49%
Из-за морских визуализаций
9%
Просто красивое слово
25%
В честь героя сериала
🔹 AI и мульти-модальные модели
— Qwen3-Omni — первый нативный end-to-end омни-модальный AI, объединяющий текст, изображения, аудио и видео без компромиссов между модальностями.
— Google Gemini 2.5 Flash и Flash-Lite — обновлённые модели DeepMind для Vertex AI и Google AI Studio с улучшенной скоростью и качеством. Flash-Lite экономит до 50% токенов при инференсе.
— Нативная аудио-модель Google — новая модель в Gemini Live API делает голосовых агентов более надёжными и способными корректно работать с пользователем.
🔹 Исследования и новые методы
— RLPT: Reinforcement Learning on Pretraining Data — новый подход, где LLM обучаются с использованием RL напрямую на данных претрейнинга, без ручной аннотации наград.
— GPT-oss и утечки данных — анализ весов GPT-oss показал возможное использование контента с adult-сайтов и частично данных с GitHub в обучении моделей семейства GPT-5.
🔹 Практика и инструменты ML
— Как работать с нейросетями эффективно — теоретические и практические рекомендации.
— Ускорение инференса ML-моделей — советы по оптимизации без лишних затрат.
— In-context learning без тренировки — статья про имплицитную динамику обучения в контексте.
— Алгоритм Isolation Forest — метод поиска аномалий в данных.
— Опрос для data-специалистов — про стек, зарплаты и трудности работы.
— Лучшие ML-фреймворки 2025 года — обзор актуальных инструментов для разработки моделей.
— Финетюнинг без греха — как безопасно кастомизировать AI и не сломать его.
#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2❤1
⏳ Последние часы со скидкой!
Мы уже закрыли вебинар «ИИ-агенты: новая фаза развития AI», но запись всё ещё доступна.
А дальше остаётся только практика. На курсе «ИИ-агенты для DS-специалистов» ты научишься разрабатывать агентов, собирать RAG-системы и адаптировать LLM под бизнес.
⏰ Сегодня цена ещё 57.000 ₽ с промокодом datarascals.
Завтра — 69.000 ₽.
👉 Успеть оплатить до полуночи
Мы уже закрыли вебинар «ИИ-агенты: новая фаза развития AI», но запись всё ещё доступна.
А дальше остаётся только практика. На курсе «ИИ-агенты для DS-специалистов» ты научишься разрабатывать агентов, собирать RAG-системы и адаптировать LLM под бизнес.
⏰ Сегодня цена ещё 57.000 ₽ с промокодом datarascals.
Завтра — 69.000 ₽.
👉 Успеть оплатить до полуночи
Forwarded from Библиотека задач по Data Science | тесты, код, задания
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Библиотека задач по Data Science | тесты, код, задания
This media is not supported in your browser
VIEW IN TELEGRAM
Продуктивная пятница для тех кто в теме Java и ML – приходите на VK JT Meetup!
3 октября VK проводит VK JT Meetup в Нижнем — офлайн-встречу ML-инженеров и Java-разработчиков.
Лиды VK расскажут про вызовы перед бэкендером, которые возникают в процессе создания B2B-продукта. А также поделятся пошаговым гайдом по выпуску RAG в прод и процессом создания единой инфраструктуры поисковой платформы.
А после докладов вас ждут командные кейс-батлы и нетворкинг.
Приходите посоревноваться за призы в кейс-батле и пообщаться с экспертами в нетворкинг-зоне.
📍 Нижний Новгород, только офлайн
📅 3 октября, сбор с 18:00
🎟 Вход по регистрации
Реклама: ООО «ВК» ИНН 7743001840
3 октября VK проводит VK JT Meetup в Нижнем — офлайн-встречу ML-инженеров и Java-разработчиков.
Лиды VK расскажут про вызовы перед бэкендером, которые возникают в процессе создания B2B-продукта. А также поделятся пошаговым гайдом по выпуску RAG в прод и процессом создания единой инфраструктуры поисковой платформы.
А после докладов вас ждут командные кейс-батлы и нетворкинг.
Приходите посоревноваться за призы в кейс-батле и пообщаться с экспертами в нетворкинг-зоне.
📍 Нижний Новгород, только офлайн
📅 3 октября, сбор с 18:00
🎟 Вход по регистрации
Реклама: ООО «ВК» ИНН 7743001840
❤1👍1
🧩 Тонкости гиперпараметрического тюнинга
Хотите ускорить обучение XGBoost в 5–15 раз и при этом находить лучшие гиперпараметры?
В свежем видео показывают:
➡️ как использовать Optuna для автоматического тюнинга XGBoost,
➡️ почему кросс-валидация критична для реальных задач,
➡️ какие приёмы тюнинга реально работают,
➡️ и как визуализации Optuna помогают выявлять самые важные гиперпараметры.
Особый акцент — на GPU-ускорении XGBoost 3.0, которое радикально сокращает время экспериментов в табличных задачах.
🔗 Ссылка на туториал
🐸 Библиотека дата-сайентиста
#буст
Хотите ускорить обучение XGBoost в 5–15 раз и при этом находить лучшие гиперпараметры?
В свежем видео показывают:
Особый акцент — на GPU-ускорении XGBoost 3.0, которое радикально сокращает время экспериментов в табличных задачах.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2
🤖 Курс «ИИ-агенты для DS-специалистов»
Последняя возможность в этом году освоить ИИ-агентов — курс стартует уже 3 октября! Первый вебинар пройдёт в день старта, а подробности вебинара можно найти на сайте.
📚 Бонус: при оплате до 30 сентября вы получите дополнительный лонгрид для подготовки к курсу. Это отличный способ подойти к занятиям уже с базой.
🔥 А ещё после прохождения курса у вас будет достаточно знаний, чтобы участвовать в хакатоне с призовым фондом 1 125 000 ₽.
🔗 Записаться на курс и узнать подробности
Последняя возможность в этом году освоить ИИ-агентов — курс стартует уже 3 октября! Первый вебинар пройдёт в день старта, а подробности вебинара можно найти на сайте.
📚 Бонус: при оплате до 30 сентября вы получите дополнительный лонгрид для подготовки к курсу. Это отличный способ подойти к занятиям уже с базой.
🔥 А ещё после прохождения курса у вас будет достаточно знаний, чтобы участвовать в хакатоне с призовым фондом 1 125 000 ₽.
🔗 Записаться на курс и узнать подробности
👍1
Please open Telegram to view this post
VIEW IN TELEGRAM
😁7🎉1
🤖 Курс «ИИ-агенты для DS-специалистов»
Последняя возможность в этом году освоить ИИ-агентов с Proglib— старт живых вебинаров на курсе уже 3 октября!
Уже 24 студента изучают 5 лонгридов подготовительного модуля, чтобы сформировать базу к старту живых вебинаров с Никитой Зелинским.
📚 Бонус: при оплате до 30 сентября вы получите дополнительный лонгрид для подготовки к курсу. Это отличный способ подойти к занятиям уже с базой.
🔥 А ещё после прохождения курса у вас будет достаточно знаний, чтобы участвовать в хакатоне с призовым фондом 1 125 000 ₽.
🔗 Записаться на курс и узнать подробности
Последняя возможность в этом году освоить ИИ-агентов с Proglib— старт живых вебинаров на курсе уже 3 октября!
Уже 24 студента изучают 5 лонгридов подготовительного модуля, чтобы сформировать базу к старту живых вебинаров с Никитой Зелинским.
📚 Бонус: при оплате до 30 сентября вы получите дополнительный лонгрид для подготовки к курсу. Это отличный способ подойти к занятиям уже с базой.
🔥 А ещё после прохождения курса у вас будет достаточно знаний, чтобы участвовать в хакатоне с призовым фондом 1 125 000 ₽.
🔗 Записаться на курс и узнать подробности
💾 Память под контролем: RamTorch для обучения больших моделей
PyTorch library для памяти-эффективного Deep Learning, позволяющая обучать и запускать большие модели, которые не помещаются в GPU-память.
RamTorch предоставляет гибридные CPU-GPU реализации компонентов нейросетей: параметры хранятся в CPU и передаются на GPU по мере необходимости.
▶️ Такой подход значительно снижает использование GPU-памяти при сохранении высокой вычислительной эффективности за счет асинхронных CUDA потоков и интеллектуальной пакетной обработки.
Ключевые возможности:
🟡 Память-эффективные линейные слои: параметры на CPU, GPU только по необходимости
🟡 Асинхронные CUDA потоки: перекрытие вычислений и передачи данных для минимальной задержки
🟡 Поддержка ZeRO-1 Optimizer: распределение состояния оптимизатора по нескольким GPU
🟡 Drop-in замена: совместимо с существующим кодом PyTorch
Установка:
Простой пример:
📱 Репозиторий
🐸 Библиотека дата-сайентиста
#буст
PyTorch library для памяти-эффективного Deep Learning, позволяющая обучать и запускать большие модели, которые не помещаются в GPU-память.
RamTorch предоставляет гибридные CPU-GPU реализации компонентов нейросетей: параметры хранятся в CPU и передаются на GPU по мере необходимости.
Ключевые возможности:
Установка:
pip install ramtorch
Простой пример:
import torch
from ramtorch import Linear
# Standard PyTorch approach (high GPU memory usage)
# linear = torch.nn.Linear(1000, 1000)
# RamTorch approach (low GPU memory usage)
linear = Linear(1000, 1000, device="cuda")
# Use exactly like a normal PyTorch layer
x = torch.randn(32, 1000, device="cuda")
output = linear(x) # Parameters automatically transferred from CPU to GPU
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤1
This media is not supported in your browser
VIEW IN TELEGRAM
📊 Интерактивная визуализация PCA: шаг за шагом
Чтобы упростить понимание анализа главных компонент (PCA) для снижения размерности признаков, был создан интерактивный дашборд на Python + Matplotlib.
Что можно делать:
✔️ Добавлять новые точки
✔️ Перетаскивать их и наблюдать, как они проходят через весь пайплайн PCA
Этапы:
✔️ Стандартизация
✔️ Поворот в пространство главных компонент
✔️ Удаление второй компоненты
✔️ Обратная проекция
✔️ Обратная стандартизация
📉 Результат: снижение размерности на 50% при сохранении 90% дисперсии данных — всё это в реальном времени и наглядно!
🔗 Дашборд: https://clc.to/3kXBMQ
🐸 Библиотека дата-сайентиста
#буст
Чтобы упростить понимание анализа главных компонент (PCA) для снижения размерности признаков, был создан интерактивный дашборд на Python + Matplotlib.
Что можно делать:
Этапы:
📉 Результат: снижение размерности на 50% при сохранении 90% дисперсии данных — всё это в реальном времени и наглядно!
🔗 Дашборд: https://clc.to/3kXBMQ
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
🤖 Лучшие нейросети для работы с текстом в 2025 году
1⃣ Повышение уникальности текста
Обзор Arcy, ChatGPT, YandexGPT и других сервисов с ценами, функциями и советами по повышению оригинальности текстов.
🔗 https://proglib.io/sh/mcq6NFR8ty
2⃣ Написание ВКР
Выберите лучшую нейросеть для написания ВКР среди 10 проверенных сервисов.
🔗 https://proglib.io/sh/bVWPnMC1Uj
3⃣ Создание текстов в целом
Сравниваем Arcy, ChatGPT, YandexGPT, Claude и другие AI-помощники по цене, качеству и функциям.
🔗 https://proglib.io/sh/BNMvDCRY8F
4⃣ Написание докладов и рефератов
Руководство по созданию докладов с помощью AI: выбор нейросети для исследования темы, написания текста и проверки.
🔗 https://proglib.io/sh/hCBHXq6NfG
5⃣ Написание сочинений и эссе
Топ-11 нейросетей для написания сочинений в 2025 году: Arcy, ChatGPT, Gemini, Copilot и другие.
🔗 https://proglib.io/sh/rGCzS8kafI
🐸 Библиотека дата-сайентиста
#буст
Обзор Arcy, ChatGPT, YandexGPT и других сервисов с ценами, функциями и советами по повышению оригинальности текстов.
🔗 https://proglib.io/sh/mcq6NFR8ty
Выберите лучшую нейросеть для написания ВКР среди 10 проверенных сервисов.
🔗 https://proglib.io/sh/bVWPnMC1Uj
Сравниваем Arcy, ChatGPT, YandexGPT, Claude и другие AI-помощники по цене, качеству и функциям.
🔗 https://proglib.io/sh/BNMvDCRY8F
Руководство по созданию докладов с помощью AI: выбор нейросети для исследования темы, написания текста и проверки.
🔗 https://proglib.io/sh/hCBHXq6NfG
Топ-11 нейросетей для написания сочинений в 2025 году: Arcy, ChatGPT, Gemini, Copilot и другие.
🔗 https://proglib.io/sh/rGCzS8kafI
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
📌 Регрессионная импутация пропусков: детерминированная vs стохастическая
Регрессионная импутация — один из мощных методов обработки пропусков в данных. Она предсказывает недостающие значения на основе связей с другими переменными. Существует два основных подхода:
Детерминированная регрессионная импутация:
✅ Пропуски заменяются предсказанными значениями регрессионной модели.
✅ Такой метод прост и воспроизводим, но у него есть минус — все значения лежат строго на линии регрессии.
✅ Это снижает естественную изменчивость данных, занижает стандартные ошибки и может искажать статистические выводы.
Стохастическая регрессионная импутация:
✅ К предсказанным значениям добавляется случайный шум (остатки модели).
✅ Это сохраняет естественную дисперсию и делает восстановленные значения более реалистичными.
✅ Метод чуть сложнее в реализации, но лучше отражает реальное распределение признака.
Визуализация:
📊 Слева: детерминированный метод — все красные точки на линии регрессии → нет вариации.
📊 Справа: стохастический метод — красные точки с шумом ближе к реальному разбросу чёрных наблюдений.
Что выбрать?
Если важна сохранность естественной вариабельности и корректные связи между переменными — стохастическая регрессионная импутация будет предпочтительнее.
🐸 Библиотека дата-сайентиста
#буст
Регрессионная импутация — один из мощных методов обработки пропусков в данных. Она предсказывает недостающие значения на основе связей с другими переменными. Существует два основных подхода:
Детерминированная регрессионная импутация:
Стохастическая регрессионная импутация:
Визуализация:
Что выбрать?
Если важна сохранность естественной вариабельности и корректные связи между переменными — стохастическая регрессионная импутация будет предпочтительнее.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
Media is too big
VIEW IN TELEGRAM
На связи команда Kandinsky! 📱
Мы приглашаем вас пройти отбор на One Day Offer для DL- и Researcher-инженеров, чтобы мы вместе могли:
✔️ Разрабатывать и внедрять техники ускорения инференса.
✔️ Использовать и дорабатывать существующие ML-компиляторы.
✔️ Улучшать процессы обучения с помощью исследований.
Заинтриговали? Тогда регистрируйтесь по ссылке и ждите 4 октября, а мы пока приготовим для вас рабочее место! 😉
Мы приглашаем вас пройти отбор на One Day Offer для DL- и Researcher-инженеров, чтобы мы вместе могли:
✔️ Разрабатывать и внедрять техники ускорения инференса.
✔️ Использовать и дорабатывать существующие ML-компиляторы.
✔️ Улучшать процессы обучения с помощью исследований.
Заинтриговали? Тогда регистрируйтесь по ссылке и ждите 4 октября, а мы пока приготовим для вас рабочее место! 😉
❤2
📘 Полный гайд по машинному обучению — учебник на 649 страниц
Свежий PDF-учебник Introduction to Machine Learning охватывает:
✔️ Основы и теоретические принципы
✔️ Классические алгоритмы и современные методы
✔️ Техники и практики для реальных задач
Полезный ресурс как для студентов, так и для практикующих специалистов, которые хотят укрепить фундамент и систематизировать знания.
🔗 Скачать знания
🐸 Библиотека дата-сайентиста
#буст
Свежий PDF-учебник Introduction to Machine Learning охватывает:
Полезный ресурс как для студентов, так и для практикующих специалистов, которые хотят укрепить фундамент и систематизировать знания.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 Лучший визуальный гид по большим языковым моделям (LLM), который вы когда-либо видели
🐸 Библиотека дата-сайентиста
#буст
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍1
⚠️ Ошибки при использовании p-value в научных исследованиях
Неправильное применение p-value — распространённая проблема в науке. Часто значения p-value неправильно интерпретируют, что ведёт к неверным выводам.
Напомним: p-value показывает вероятность получить результаты хотя бы такими же экстремальными, как наблюдаемые, при условии, что нулевая гипотеза верна.
Основные ошибки:
📟 Чрезмерное внимание к значимости – исследователи фокусируются только на том, меньше ли p-value порога (например, 0.05), игнорируя размер эффекта и практическую значимость.
📟 P-hacking – манипуляции с данными или условиями эксперимента, чтобы получить «статистически значимые» результаты.
📟 Неправильная интерпретация – низкое p-value не доказывает альтернативную гипотезу, а высокое p-value не подтверждает нулевую.
📟 Игнорирование контекста – не учитываются предыдущие исследования, дизайн эксперимента и общая логика исследования.
🐸 Библиотека дата-сайентиста
#буст
Неправильное применение p-value — распространённая проблема в науке. Часто значения p-value неправильно интерпретируют, что ведёт к неверным выводам.
Напомним: p-value показывает вероятность получить результаты хотя бы такими же экстремальными, как наблюдаемые, при условии, что нулевая гипотеза верна.
Основные ошибки:
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤5👍3
Какой проект сделал открытые данные о изображениях популярными для соревнований по ML?
Anonymous Quiz
71%
MNIST
18%
Kaggle Titanic
4%
UCI Repository
7%
OpenML
❤1