MACHINELEARNING_BOOKS Telegram 1215
✔️ Новый подход к «мышлению» малых моделей

Исследователи представили метод, позволяющий небольшим моделям рассуждать глубже - за счёт повторного объединения собственных решений.

С помощью этого цикла 4B-модель достигает уровня гораздо более крупных reasoning-моделей.

Идея основана на test-time scaling - использовании дополнительного вычислительного времени при ответе для повышения точности.

Recursive Self-Aggregation (RSA) хранит пул цепочек решений, выбирает небольшие группы, комбинирует удачные фрагменты и повторяет процесс.
Так модель «вытягивает» правильные шаги даже из неудачных попыток и улучшает их с каждым циклом.

Три параметра управляют поведением:
- pool size - охват решений
- group size - скорость смешивания
- step count - глубина размышления

Большие пулы повышают потолок качества, но требуют больше шагов или групп для распространения успешных паттернов.

Внешняя проверка не нужна - модель сама сравнивает и сшивает решения. Для выбора финального ответа достаточно простого голосования.

Дополнительно обучена aggregation-aware policy, умеющая комбинировать кандидатов - она превосходит стандартное RL и улучшает результаты в задачах по математике, коду, планированию и знаниям.

Подробнее - arxiv.org/abs/2509.26626
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥2



tgoop.com/machinelearning_books/1215
Create:
Last Update:

✔️ Новый подход к «мышлению» малых моделей

Исследователи представили метод, позволяющий небольшим моделям рассуждать глубже - за счёт повторного объединения собственных решений.

С помощью этого цикла 4B-модель достигает уровня гораздо более крупных reasoning-моделей.

Идея основана на test-time scaling - использовании дополнительного вычислительного времени при ответе для повышения точности.

Recursive Self-Aggregation (RSA) хранит пул цепочек решений, выбирает небольшие группы, комбинирует удачные фрагменты и повторяет процесс.
Так модель «вытягивает» правильные шаги даже из неудачных попыток и улучшает их с каждым циклом.

Три параметра управляют поведением:
- pool size - охват решений
- group size - скорость смешивания
- step count - глубина размышления

Большие пулы повышают потолок качества, но требуют больше шагов или групп для распространения успешных паттернов.

Внешняя проверка не нужна - модель сама сравнивает и сшивает решения. Для выбора финального ответа достаточно простого голосования.

Дополнительно обучена aggregation-aware policy, умеющая комбинировать кандидатов - она превосходит стандартное RL и улучшает результаты в задачах по математике, коду, планированию и знаниям.

Подробнее - arxiv.org/abs/2509.26626

BY Машиннное обучение | Наука о данных Библиотека




Share with your friend now:
tgoop.com/machinelearning_books/1215

View MORE
Open in Telegram


Telegram News

Date: |

Hui said the time period and nature of some offences “overlapped” and thus their prison terms could be served concurrently. The judge ordered Ng to be jailed for a total of six years and six months. Informative When choosing the right name for your Telegram channel, use the language of your target audience. The name must sum up the essence of your channel in 1-3 words. If you’re planning to expand your Telegram audience, it makes sense to incorporate keywords into your name. Members can post their voice notes of themselves screaming. Interestingly, the group doesn’t allow to post anything else which might lead to an instant ban. As of now, there are more than 330 members in the group. To delete a channel with over 1,000 subscribers, you need to contact user support
from us


Telegram Машиннное обучение | Наука о данных Библиотека
FROM American