tgoop.com »
United States »
Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение » Telegram Web
🧠 Новые методы и исследования в AI
— Modular Manifolds — новый метод обучения нейросетей, ограничивающий веса на manifolds, делает обучение стабильнее и предсказуемее.
— We reverse-engineered Flash Attention 4 — разбор нового CUDA-ядра Flash Attention 4, ускоряющего трансформеры.
— LoRA Without Regret — LoRA в задачах Reinforcement Learning может соперничать с полноценным финетюнингом, если применять большие learning rate и использовать LoRA на всех слоях.
— Pre-training under infinite compute —новое исследование показывает, как регуляризация и ансамбли моделей могут компенсировать нехватку уникальных данных при масштабировании compute.
— Google DeepMind Dreamer 4 — Dreamer 4 обучается полностью внутри собственного world model, превосходит OpenAI VPT при 100× меньших данных и обходит Gemma-3 по эффективности.
⚙️ Практика и алгоритмы
— Борьба с дисбалансом классов: стандартные методы — обзор базовых техник балансировки данных: oversampling, undersampling, SMOTE и их вариации.
— Рекомендательные системы в современном мире — подходы, метрики и современные тренды в рекомендациях — от коллаборативной фильтрации до моделей на графах и нейросетях.
— Обучение скрытых слоёв S–A–R перцептрона без вычисления градиентов — необычный подход к обучению без backpropagation — обучение скрытых слоёв через прямые зависимости сигналов, что потенциально снижает вычислительные затраты.
#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2❤1
Forwarded from Библиотека задач по Data Science | тесты, код, задания
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Библиотека задач по Data Science | тесты, код, задания
Привет, ML-специалист! 😎 Надоели базовые туториалы и предсказуемые датасеты? Пора разобраться с тем, что действительно крутит этот мир — рекомендательными системами!
Приглашаем на бесплатный вебинар продвинутого курса «Machine Learning. Advanced», где будем вскрывать матричные разложения без анестезии!
На вебинаре с Марией Тихоновой (Senior Data Scientist, SberDevices):
— Изучим специфику построения RS
— Разложим по полочкам матричные разложения
— Научимся создавать свои рекомендательные системы
Это ваш шанс не просто послушать, а протестировать обучение на курсе! А если решите остаться — ловите промокод MLADV_10 для выгодного зачисления.
👉Регистрируйтесь сейчас - напомним перед вебинаром: https://clc.to/r26eTw
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
Приглашаем на бесплатный вебинар продвинутого курса «Machine Learning. Advanced», где будем вскрывать матричные разложения без анестезии!
На вебинаре с Марией Тихоновой (Senior Data Scientist, SberDevices):
— Изучим специфику построения RS
— Разложим по полочкам матричные разложения
— Научимся создавать свои рекомендательные системы
Это ваш шанс не просто послушать, а протестировать обучение на курсе! А если решите остаться — ловите промокод MLADV_10 для выгодного зачисления.
👉Регистрируйтесь сейчас - напомним перед вебинаром: https://clc.to/r26eTw
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
This media is not supported in your browser
VIEW IN TELEGRAM
🕒 Как создать Q&A датасет за 30 минут
Представьте, вы хотите создать ML-модель, которая выступает финансовым советником.
Пользователь отправляет информацию о себе:
Модель отвечает полезным советом:
Чтобы модель давала такие советы, нужно:
1️⃣ Взять open-source LLM (например, Llama 2, Falcon 7B).
2️⃣ Дообучить её на задаче финансового консультирования.
Но для этого нужен датасет пар (вход → ответ):
✅ Вход — текст пользователя с описанием целей и актуальными новостями.
✅ Выход — корректный финансовый совет на основе данных пользователя и новостей.
🚩 Подробная статья по созданию такого датасета
🐸 Библиотека дата-сайентиста
#буст
Представьте, вы хотите создать ML-модель, которая выступает финансовым советником.
Пользователь отправляет информацию о себе:
Мне 25 лет, я разработчик с стабильным доходом. Хочу начать инвестировать в акции для долгосрочного роста. С чего начать?
Модель отвечает полезным советом:
Начните с диверсифицированного портфеля акций в разных секторах. Сосредоточьтесь на технологических компаниях, но также рассмотрите здравоохранение, энергетику и потребительские товары. Инвестируйте в индексные фонды для снижения рисков. Можно также подумать о криптовалютах для дополнительной диверсификации.
Чтобы модель давала такие советы, нужно:
Но для этого нужен датасет пар (вход → ответ):
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1👍1
🟩 Типы матриц — шпаргалка
Зная тип матрицы, проще выбирать методы решения линейных уравнений.
🐸 Библиотека дата-сайентиста
#буст
Зная тип матрицы, проще выбирать методы решения линейных уравнений.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4🥰2👍1
🏆 Плейбук Kaggle-грандмастеров: 7 проверенных техник моделирования для табличных данных
За годы участия в соревнованиях команда грандмастеров Kaggle выработала систему, которая стабильно выводит их в топ.
Неважно, миллионы строк или смещённые данные — эти 7 техник помогают быстро находить лучшие решения:
1️⃣ Расширенный EDA
Проверяйте не только пропуски и корреляции:
— сравнивайте распределения train/test,
— ищите временные тренды.
GPU позволяет делать такие анализы на миллионах строк за секунды.
2️⃣ Разнообразные бейслайны
Создавайте несколько моделей — линейные, GBDT, нейросети — и сравнивайте их.
Так быстрее понять, какие архитектуры чувствуют данные лучше.
3️⃣ Масштабное feature engineering
Генерируйте сотни и тысячи признаков.
Комбинируйте категории, делайте агрегации — с
4️⃣ Hill Climbing (пошаговое ансамблирование)
Добавляйте модели по одной, сохраняйте только те комбинации, что реально улучшают метрику.
С GPU можно протестировать тысячи ансамблей за минуты.
5️⃣ Stacking (многоуровневые ансамбли)
Стройте метамодели, обучая их на предсказаниях базовых моделей.
Отлично работает, когда разные модели ловят разные закономерности.
7️⃣ Pseudo-labeling (псевдоразметка)
Используйте лучшие модели, чтобы предсказать метки для неразмеченных данных, и дообучайтесь на них.
Больше данных — выше устойчивость.
С GPU можно пройти несколько циклов за часы, а не дни.
🚩 Подробнее в детальной статье
🐸 Библиотека дата-сайентиста
#буст
За годы участия в соревнованиях команда грандмастеров Kaggle выработала систему, которая стабильно выводит их в топ.
Неважно, миллионы строк или смещённые данные — эти 7 техник помогают быстро находить лучшие решения:
Проверяйте не только пропуски и корреляции:
— сравнивайте распределения train/test,
— ищите временные тренды.
GPU позволяет делать такие анализы на миллионах строк за секунды.
Создавайте несколько моделей — линейные, GBDT, нейросети — и сравнивайте их.
Так быстрее понять, какие архитектуры чувствуют данные лучше.
Генерируйте сотни и тысячи признаков.
Комбинируйте категории, делайте агрегации — с
cuDF
всё работает в десятки раз быстрее.Добавляйте модели по одной, сохраняйте только те комбинации, что реально улучшают метрику.
С GPU можно протестировать тысячи ансамблей за минуты.
Стройте метамодели, обучая их на предсказаниях базовых моделей.
Отлично работает, когда разные модели ловят разные закономерности.
Используйте лучшие модели, чтобы предсказать метки для неразмеченных данных, и дообучайтесь на них.
Больше данных — выше устойчивость.
С GPU можно пройти несколько циклов за часы, а не дни.
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍3❤2
💥 Весь октябрь -40% на курсы для разработчиков в proglib.academy
Бери знания под свой стек:
Python | алгоритмы | математика для Data Science | архитектура кода.
⚡️ Пока скидка действует, апдейтни свои навыки
Бери знания под свой стек:
Python | алгоритмы | математика для Data Science | архитектура кода.
Пока одни ждут «идеальный момент», другие просто учатся.
А потом берут ваши офферы.
⚡️ Пока скидка действует, апдейтни свои навыки