MACHINELEARNING_BOOKS Telegram 1217
🧠 NVIDIA: обучай рассуждать с самого начала

Новый препринт от Nvidia показывает: если внедрять reasoning уже на этапе предобучения, модель позже показывает способности, которые нельзя восстановить даже самым тщательным дообучением.

📊 Результаты:
- +19% к точности на сложных задачах после всех стадий обучения
- Разнообразие данных на предобучении даёт +11%
- Качество данных при supervised fine-tuning даёт +15%
- Если пропустить раннее обучение рассуждению, модель отстаёт навсегда
- Добавление «грязных» данных на fine-tuning снижает точность в математике на ~5%

🧩 Этапы обучения LLM:
1. Pretraining - модель учится предсказывать следующее слово по огромному корпусу текста.
2. Supervised fine-tuning - изучает решения по пошаговым размеченным примерам.
3. Reinforcement learning - получает награды за лучшие ответы и дорабатывает поведение.

🔍 Главная идея:
Лучше «влить» рассуждение на этапе предобучения,
использовать мало, но качественных данных для fine-tuning
и закрепить поведение через RL.

📄 arxiv: https://arxiv.org/abs/2510.03264
7👍1



tgoop.com/machinelearning_books/1217
Create:
Last Update:

🧠 NVIDIA: обучай рассуждать с самого начала

Новый препринт от Nvidia показывает: если внедрять reasoning уже на этапе предобучения, модель позже показывает способности, которые нельзя восстановить даже самым тщательным дообучением.

📊 Результаты:
- +19% к точности на сложных задачах после всех стадий обучения
- Разнообразие данных на предобучении даёт +11%
- Качество данных при supervised fine-tuning даёт +15%
- Если пропустить раннее обучение рассуждению, модель отстаёт навсегда
- Добавление «грязных» данных на fine-tuning снижает точность в математике на ~5%

🧩 Этапы обучения LLM:
1. Pretraining - модель учится предсказывать следующее слово по огромному корпусу текста.
2. Supervised fine-tuning - изучает решения по пошаговым размеченным примерам.
3. Reinforcement learning - получает награды за лучшие ответы и дорабатывает поведение.

🔍 Главная идея:
Лучше «влить» рассуждение на этапе предобучения,
использовать мало, но качественных данных для fine-tuning
и закрепить поведение через RL.

📄 arxiv: https://arxiv.org/abs/2510.03264

BY Машиннное обучение | Наука о данных Библиотека




Share with your friend now:
tgoop.com/machinelearning_books/1217

View MORE
Open in Telegram


Telegram News

Date: |

Telegram offers a powerful toolset that allows businesses to create and manage channels, groups, and bots to broadcast messages, engage in conversations, and offer reliable customer support via bots. Avoid compound hashtags that consist of several words. If you have a hashtag like #marketingnewsinusa, split it into smaller hashtags: “#marketing, #news, #usa. Telegram iOS app: In the “Chats” tab, click the new message icon in the right upper corner. Select “New Channel.” Find your optimal posting schedule and stick to it. The peak posting times include 8 am, 6 pm, and 8 pm on social media. Try to publish serious stuff in the morning and leave less demanding content later in the day. Just as the Bitcoin turmoil continues, crypto traders have taken to Telegram to voice their feelings. Crypto investors can reduce their anxiety about losses by joining the “Bear Market Screaming Therapy Group” on Telegram.
from us


Telegram Машиннное обучение | Наука о данных Библиотека
FROM American