AIPULSE24 Telegram 302
تشویق مدل به فکر کردن بیشتر، تنها با اضافه کردن Wait به دستور!

محققان دانشگاه استنفورد یک روش جدید برای بهینه‌سازی مدل‌های زبانی معرفی کردن. این روش که s1 نام داره، با استفاده از فقط ۱۰۰۰ نمونه آموزشی و یک تکنیک ساده به نام budget forcing تونسته عملکردی مشابه مدل‌های بزرگ OpenAI مثل o1 به دست بیاره. نکته مهم اینجاست که اکثر مدل‌های موفق در این حوزه مثل DeepSeek r1 از داده‌های آموزشی خیلی بیشتری (حدود ۸۰۰ برابر) استفاده می‌کنن.

محققان استنفورد برای انتخاب این ۱۰۰۰ نمونه از سه معیار اصلی استفاده کردن: کیفیت (داده‌های با فرمت مناسب و بدون خطا)، سختی (مسائلی که مدل‌های پایه نمی‌تونن حل کنن) و تنوع (پوشش حوزه‌های مختلف از ریاضیات تا فیزیک و علوم کامپیوتر). این انتخاب هوشمندانه باعث شده که با وجود حجم کم داده‌های آموزشی، مدل بتونه عملکرد خوبی داشته باشه.

تکنیک budget forcing که در این تحقیق معرفی شده، یک روش ساده اما موثر برای کنترل زمان فکر کردن مدل هست. این تکنیک به دو روش عمل می‌کنه: اول اینکه اگر مدل بیش از حد مشخصی فکر کنه، به طور خودکار پردازش متوقف می‌شه و مدل مجبور به ارائه پاسخ می‌شه. دوم اینکه اگر بخوایم مدل بیشتر فکر کنه، با اضافه کردن کلمه "Wait" به زنجیره استدلال، مدل تشویق می‌شه تا بیشتر روی مسئله تمرکز کنه.

در آزمون‌های مختلف، مدل s1-32B عملکرد قابل توجهی داشته. برای مثال در آزمون‌های ریاضی AIME24 به دقت ۵۶.۷ درصد و در MATH500 به دقت ۹۳ درصد رسیده. همچنین در سوالات علمی سطح دکترا (GPQA Diamond) به دقت ۵۹.۶ درصد دست پیدا کرده که نشون می‌ده این مدل می‌تونه با مدل‌های بزرگ‌تر رقابت کنه.

نکته جالب دیگه اینه که کل فرآیند آموزش این مدل فقط ۲۶ دقیقه روی ۱۶ کارت H100 طول کشیده که در مقایسه با مدل‌های مشابه که نیاز به روزها و هفته‌ها آموزش دارن، بسیار کمتره. این نشون می‌ده که با روش‌های هوشمندانه می‌شه به جای افزایش حجم داده و زمان محاسبات، به نتایج مشابه یا حتی بهتری رسید.

محققان همچنین نشون دادن که با افزایش زمان فکر کردن مدل در زمان استفاده (test-time)، دقت پاسخ‌ها بهبود پیدا می‌کنه. برای مثال در AIME24، وقتی به مدل اجازه داده شد تا ۶ بار بیشتر فکر کنه، دقت از ۵۰ درصد به ۵۷ درصد افزایش پیدا کرد. این نشون می‌ده که حتی بعد از آموزش هم می‌شه با تنظیم پارامترهای اجرا، عملکرد مدل رو بهبود داد.

نسخه کامل این مقاله رو میتونید از اینجا مشاهده کنید.

@aipulse24



tgoop.com/aipulse24/302
Create:
Last Update:

تشویق مدل به فکر کردن بیشتر، تنها با اضافه کردن Wait به دستور!

محققان دانشگاه استنفورد یک روش جدید برای بهینه‌سازی مدل‌های زبانی معرفی کردن. این روش که s1 نام داره، با استفاده از فقط ۱۰۰۰ نمونه آموزشی و یک تکنیک ساده به نام budget forcing تونسته عملکردی مشابه مدل‌های بزرگ OpenAI مثل o1 به دست بیاره. نکته مهم اینجاست که اکثر مدل‌های موفق در این حوزه مثل DeepSeek r1 از داده‌های آموزشی خیلی بیشتری (حدود ۸۰۰ برابر) استفاده می‌کنن.

محققان استنفورد برای انتخاب این ۱۰۰۰ نمونه از سه معیار اصلی استفاده کردن: کیفیت (داده‌های با فرمت مناسب و بدون خطا)، سختی (مسائلی که مدل‌های پایه نمی‌تونن حل کنن) و تنوع (پوشش حوزه‌های مختلف از ریاضیات تا فیزیک و علوم کامپیوتر). این انتخاب هوشمندانه باعث شده که با وجود حجم کم داده‌های آموزشی، مدل بتونه عملکرد خوبی داشته باشه.

تکنیک budget forcing که در این تحقیق معرفی شده، یک روش ساده اما موثر برای کنترل زمان فکر کردن مدل هست. این تکنیک به دو روش عمل می‌کنه: اول اینکه اگر مدل بیش از حد مشخصی فکر کنه، به طور خودکار پردازش متوقف می‌شه و مدل مجبور به ارائه پاسخ می‌شه. دوم اینکه اگر بخوایم مدل بیشتر فکر کنه، با اضافه کردن کلمه "Wait" به زنجیره استدلال، مدل تشویق می‌شه تا بیشتر روی مسئله تمرکز کنه.

در آزمون‌های مختلف، مدل s1-32B عملکرد قابل توجهی داشته. برای مثال در آزمون‌های ریاضی AIME24 به دقت ۵۶.۷ درصد و در MATH500 به دقت ۹۳ درصد رسیده. همچنین در سوالات علمی سطح دکترا (GPQA Diamond) به دقت ۵۹.۶ درصد دست پیدا کرده که نشون می‌ده این مدل می‌تونه با مدل‌های بزرگ‌تر رقابت کنه.

نکته جالب دیگه اینه که کل فرآیند آموزش این مدل فقط ۲۶ دقیقه روی ۱۶ کارت H100 طول کشیده که در مقایسه با مدل‌های مشابه که نیاز به روزها و هفته‌ها آموزش دارن، بسیار کمتره. این نشون می‌ده که با روش‌های هوشمندانه می‌شه به جای افزایش حجم داده و زمان محاسبات، به نتایج مشابه یا حتی بهتری رسید.

محققان همچنین نشون دادن که با افزایش زمان فکر کردن مدل در زمان استفاده (test-time)، دقت پاسخ‌ها بهبود پیدا می‌کنه. برای مثال در AIME24، وقتی به مدل اجازه داده شد تا ۶ بار بیشتر فکر کنه، دقت از ۵۰ درصد به ۵۷ درصد افزایش پیدا کرد. این نشون می‌ده که حتی بعد از آموزش هم می‌شه با تنظیم پارامترهای اجرا، عملکرد مدل رو بهبود داد.

نسخه کامل این مقاله رو میتونید از اینجا مشاهده کنید.

@aipulse24

BY AI Pulse





Share with your friend now:
tgoop.com/aipulse24/302

View MORE
Open in Telegram


Telegram News

Date: |

Ng was convicted in April for conspiracy to incite a riot, public nuisance, arson, criminal damage, manufacturing of explosives, administering poison and wounding with intent to do grievous bodily harm between October 2019 and June 2020. Telegram Channels requirements & features best-secure-messaging-apps-shutterstock-1892950018.jpg During a meeting with the president of the Supreme Electoral Court (TSE) on June 6, Telegram's Vice President Ilya Perekopsky announced the initiatives. According to the executive, Brazil is the first country in the world where Telegram is introducing the features, which could be expanded to other countries facing threats to democracy through the dissemination of false content. Private channels are only accessible to subscribers and don’t appear in public searches. To join a private channel, you need to receive a link from the owner (administrator). A private channel is an excellent solution for companies and teams. You can also use this type of channel to write down personal notes, reflections, etc. By the way, you can make your private channel public at any moment.
from us


Telegram AI Pulse
FROM American