BIGDATA_1 Telegram 968
🧠 ThinkPRM: Новый стандарт в верификации решений через Chain-of-Thought

🤖 Верификаторы пошаговых рассуждений (PRMs) — мощный инструмент масштабирования проверки решений на этапе инференса. Но их обучение требует дорогостоящей покадровой разметки.

🔍 Представляем ThinkPRMdata-efficient PRM, который генерирует цепочку верификации (Chain-of-Thought) для каждого шага решения, опираясь на всего 1% меток из PRM800K — и при этом превосходит LLM-as-a-Judge и дискриминативные PRM.


❗️Что не так с LLM-as-a-Judge:

* чувствительность к формулировке инструкции
* ошибки в логике и невалидные итоговые решения
* неправильный формат ответа
* зацикливание и “overthinking”, приводящее к превышению лимита токенов


🧪 Метод ThinkPRM:

1️⃣ Синтетические данные:

* Модель QwQ-32B-Preview генерирует цепочки верификации
* Отбираются только те, где шаги соответствуют PRM800K и укладываются в токен-бюджет

2️⃣ Обучение на 1K цепочках:

* Модель тонко настраивается на выбранных верификациях
* Тестируется на ProcessBench и сравнивается с LLM-as-a-Judge


📊 Результаты:

* 🔝 ThinkPRM превосходит базовые модели на ProcessBench, MATH-500 и AIME’24
* 🧬 На GPQA-Diamond и LiveCodeBench — выигрывает у дискриминативных моделей на 8% и 4.5%
* 📈 При том же токен-бюджете ThinkPRM эффективнее масштабирует верификацию, +7.2% на ProcessBench


💡 ThinkPRM показывает, что меньшее — значит умнее.
Настраивай, не размечай.
Проверяй умно, шаг за шагом.

Blog: https://medium.com/@techsachin/thinkprm-generative-process-reward-model-for-solution-verification-via-long-cot-reasoning-2016f1e1387d

Paper: https://arxiv.org/abs/2504.16828

Dataset: https://huggingface.co/datasets/launch/thinkprm-1K-verification-cots

Models:
- ThinkPRM-14B: https://huggingface.co/launch/ThinkPRM-14B
- ThinkPRM-1.5B: https://huggingface.co/launch/ThinkPRM-1.5B

👉 @bigdata_1
1👍1



tgoop.com/bigdata_1/968
Create:
Last Update:

🧠 ThinkPRM: Новый стандарт в верификации решений через Chain-of-Thought

🤖 Верификаторы пошаговых рассуждений (PRMs) — мощный инструмент масштабирования проверки решений на этапе инференса. Но их обучение требует дорогостоящей покадровой разметки.

🔍 Представляем ThinkPRMdata-efficient PRM, который генерирует цепочку верификации (Chain-of-Thought) для каждого шага решения, опираясь на всего 1% меток из PRM800K — и при этом превосходит LLM-as-a-Judge и дискриминативные PRM.


❗️Что не так с LLM-as-a-Judge:

* чувствительность к формулировке инструкции
* ошибки в логике и невалидные итоговые решения
* неправильный формат ответа
* зацикливание и “overthinking”, приводящее к превышению лимита токенов


🧪 Метод ThinkPRM:

1️⃣ Синтетические данные:

* Модель QwQ-32B-Preview генерирует цепочки верификации
* Отбираются только те, где шаги соответствуют PRM800K и укладываются в токен-бюджет

2️⃣ Обучение на 1K цепочках:

* Модель тонко настраивается на выбранных верификациях
* Тестируется на ProcessBench и сравнивается с LLM-as-a-Judge


📊 Результаты:

* 🔝 ThinkPRM превосходит базовые модели на ProcessBench, MATH-500 и AIME’24
* 🧬 На GPQA-Diamond и LiveCodeBench — выигрывает у дискриминативных моделей на 8% и 4.5%
* 📈 При том же токен-бюджете ThinkPRM эффективнее масштабирует верификацию, +7.2% на ProcessBench


💡 ThinkPRM показывает, что меньшее — значит умнее.
Настраивай, не размечай.
Проверяй умно, шаг за шагом.

Blog: https://medium.com/@techsachin/thinkprm-generative-process-reward-model-for-solution-verification-via-long-cot-reasoning-2016f1e1387d

Paper: https://arxiv.org/abs/2504.16828

Dataset: https://huggingface.co/datasets/launch/thinkprm-1K-verification-cots

Models:
- ThinkPRM-14B: https://huggingface.co/launch/ThinkPRM-14B
- ThinkPRM-1.5B: https://huggingface.co/launch/ThinkPRM-1.5B

👉 @bigdata_1

BY BigData




Share with your friend now:
tgoop.com/bigdata_1/968

View MORE
Open in Telegram


Telegram News

Date: |

According to media reports, the privacy watchdog was considering “blacklisting” some online platforms that have repeatedly posted doxxing information, with sources saying most messages were shared on Telegram. To edit your name or bio, click the Menu icon and select “Manage Channel.” The main design elements of your Telegram channel include a name, bio (brief description), and avatar. Your bio should be: Add up to 50 administrators How to Create a Private or Public Channel on Telegram?
from us


Telegram BigData
FROM American