MACHINELEARNING_BOOKS Telegram 1191
🚀 Новое исследование: Reinforcement Learning on Pre-training Data (RLPT)
Этот метод решает главную проблему масштабирования LLM — ограниченность размеченного текста.

🌟 RLPT даёт моделям возможность учиться рассуждениям напрямую на данных предобучения, без дорогой ручной разметки.

Как это работает:
1️⃣ Модель во время обучения сама исследует данные и учится более общим стратегиям рассуждений.
2️⃣ Никакой дополнительной разметки — награды извлекаются прямо из предобучающих данных.
3️⃣ Награды за предсказание следующего сегмента позволяют масштабировать RL на этапе предобучения.

Результаты:
На Qwen3-4B-Base прирост: +3.0 (MMLU), +5.1 (MMLU-Pro), +8.1 (GPQA-Diamond), +6.0 (KOR-Bench), +6.6 (AIME24), +5.3 (AIME25).
Чем больше вычислений, тем сильнее рост.
Технология создаёт базу для дальнейших улучшений в RLVR.

📄 Подробнее: https://arxiv.org/pdf/2509.19249

#AI #RLPT #LLM #MachineLearning #NLP
3👍3🔥1



tgoop.com/machinelearning_books/1191
Create:
Last Update:

🚀 Новое исследование: Reinforcement Learning on Pre-training Data (RLPT)
Этот метод решает главную проблему масштабирования LLM — ограниченность размеченного текста.

🌟 RLPT даёт моделям возможность учиться рассуждениям напрямую на данных предобучения, без дорогой ручной разметки.

Как это работает:
1️⃣ Модель во время обучения сама исследует данные и учится более общим стратегиям рассуждений.
2️⃣ Никакой дополнительной разметки — награды извлекаются прямо из предобучающих данных.
3️⃣ Награды за предсказание следующего сегмента позволяют масштабировать RL на этапе предобучения.

Результаты:
На Qwen3-4B-Base прирост: +3.0 (MMLU), +5.1 (MMLU-Pro), +8.1 (GPQA-Diamond), +6.0 (KOR-Bench), +6.6 (AIME24), +5.3 (AIME25).
Чем больше вычислений, тем сильнее рост.
Технология создаёт базу для дальнейших улучшений в RLVR.

📄 Подробнее: https://arxiv.org/pdf/2509.19249

#AI #RLPT #LLM #MachineLearning #NLP

BY Машиннное обучение | Наука о данных Библиотека


Share with your friend now:
tgoop.com/machinelearning_books/1191

View MORE
Open in Telegram


Telegram News

Date: |

Your posting frequency depends on the topic of your channel. If you have a news channel, it’s OK to publish new content every day (or even every hour). For other industries, stick with 2-3 large posts a week. With the “Bear Market Screaming Therapy Group,” we’ve now transcended language. bank east asia october 20 kowloon The channel also called on people to turn out for illegal assemblies and listed the things that participants should bring along with them, showing prior planning was in the works for riots. The messages also incited people to hurl toxic gas bombs at police and MTR stations, he added. Polls
from us


Telegram Машиннное обучение | Наука о данных Библиотека
FROM American