Telegram Web
PyTorch Howsam
گفت‌وگوی لکس فریدمن و آندری کارپاتی درباره بهره‌وری، تمرکز و تعادل کار و زندگی این گفت‌وگو نکات جالبی برای من داشت. اول، خلاصه گفت‌وگو رو آوردم، بعدش مکالمه با جزئیاتش رو در ادامه گذاشتم. لینک گفت‌وگو در یوتوب خلاصه گفت‌وگو: برای کاری که میخواد انجام بده،…
گفت‌وگوی با جزئیات

لکس فریدمن: خیلی از مردم می‌خواهند بدانند که تو به عنوان یکی از پرکارترین و باهوش‌ترین افراد در تاریخ هوش مصنوعی، یک روز پربار در زندگی‌ات چطور می‌گذرد؟ چه ساعتی از خواب بیدار می‌شوی؟
آندری کارپاتی: باید بگویم که من آدم صبح‌گاهی نیستم، قطعاً یک شب‌زنده‌دارم. زمان دکترایم حتی دیرتر هم می‌خوابیدم، معمولاً تا ساعت ۳ صبح بیدار بودم. فکر می‌کنم ساعات پایانی شب بسیار ارزشمند و جذاب هستند، چون همه خوابند و هیچ حواس‌پرتی وجود ندارد. مثلاً ساعت ۸ یا ۹ صبح که شرق آمریکا بیدار می‌شود، پیام‌ها و اخبار شروع می‌شوند و حواس‌پرتی‌ها زیاد می‌شود. اما ساعت ۳ صبح همه چیز آرام است و می‌توانی روی کارت تمرکز کنی.


لکس: پس تو به طور پیش‌فرض شب‌ها کار می‌کنی. چطور بهره‌وری‌ات را در این زمان‌ها مدیریت می‌کنی؟
آندری: برای من، بهره‌وری درباره ایجاد حرکت و حفظ تمرکز روی یک مسئله است. باید بتوانی حافظه‌ات را با آن مسئله پر کنی و کاملاً درگیرش شوی. حتی وقتی دوش می‌گیری یا خوابت می‌برد، باید ذهنت درگیر آن مسئله باشد. اینطوری وقتی بیدار می‌شوی، آماده‌ای که مستقیماً روی آن کار کنی.


لکس: این فرآیند در چه بازه‌ای اتفاق می‌افتد؟ یک روز، چند روز یا بیشتر؟
آندری: نمی‌توانم فقط درباره یک روز صحبت کنم، چون این یک فرآیند است. وقتی می‌خواهم روی یک مسئله متمرکز شوم، به چند روز زمان نیاز دارم تا کاملاً درگیرش شوم و نخواهم وقفه‌ای ایجاد شود. در این دوره‌ها، کاملاً وسواس‌گونه روی آن مسئله کار می‌کنم و بهترین کارهایم را انجام می‌دهم. 😃


لکس: تو پروژه‌های جالبی را در زمان کوتاهی انجام داده‌ای. این سرعت بالا نیازمند تمرکز کامل است، درست است؟
آندری: دقیقاً. باید حافظه‌ام را با آن مسئله پر کنم و بهره‌ور باشم. همیشه یک هزینه ثابت برای شروع هر پروژه وجود دارد. مثلاً وقتی در تسلا بودم و می‌خواستم روی یک پروژه جانبی کار کنم، اول باید به کلاستر SSH می‌زدم، VS Code را راه می‌انداختم و با یک سری خطاهای احمقانه دست و پنجه نرم می‌کردم. این موانع اولیه باعث می‌شوند نتوانی مستقیماً به کارت برسی. پس باید همه این موانع را برطرف کنی تا بتوانی روی مسئله تمرکز کنی. 👌


لکس: چطور با حواس‌پرتی‌ها مقابله می‌کنی؟
آندری: حواس‌پرتی‌ها انواع مختلفی دارند: اخبار، ایمیل‌ها، یا حتی پروژه‌های جالب دیگر. باید ذهنت را کاملاً متمرکز کنی. البته من هم گاهی برای حواس‌پرتی وقت می‌گذارم، اما این وقفه‌ها نباید زیاد باشند. بیشتر روزم را روی همان مسئله اصلی صرف می‌کنم.


لکس: وقتی صبح بیدار می‌شوی، قهوه می‌نوشی و اخبار می‌خوانی. آیا سعی می‌کنی سریع‌تر به سر کار بروی یا اول می‌خواهی بدانی در دنیا چه خبر است؟
آندری: من اخبار را دنبال می‌کنم، اما نسبت به این کار مشکوک هستم. نمی‌دانم که آیا این کار واقعاً مفید است یا نه، اما در حال حاضر بخشی از روال من است. دوست دارم از اتفاقات دنیا مطلع باشم، هرچند ممکن است این کار کمی حواس‌پرتی ایجاد کند.


لکس: در یک روز کاملاً پربار، چقدر زمان را به کار روی یک چیز اختصاص می‌دهی؟
آندری: معمولاً می‌توانم چند ساعت کار کنم و بعد به استراحت یا غذا خوردن نیاز دارم. حتی در پربارترین روزها، فقط شش تا هشت ساعت کدنویسی می‌کنم. زندگی هزینه‌های خودش را دارد: رفت و آمد، صحبت با مردم، غذا خوردن و غیره. حفظ تعادل به عنوان یک انسان کار سختی است.


لکس: چه چیزی به تو انگیزه می‌دهد که روزهای سخت و طولانی را با تمرکز بالا سپری کنی؟
آندری: وقتی به یک مسئله علاقه‌مند می‌شوم، احساس می‌کنم که آن چیز باید وجود داشته باشد. این انگیزه باعث می‌شود باگ‌ها، مشکلات فنی و تصمیم‌های طراحی اشتباه را تحمل کنم. همچنین، این که دیگران از کارم قدردانی کنند و ببینم که به آن‌ها کمک می‌کنم، برایم لذت‌بخش است. اگر کارهایم را با دیگران به اشتراک نگذارم، انگیزه‌ام کمتر می‌شود. ❤️


لکس: درباره تعادل کار و زندگی چه فکر می‌کنی؟
آندری: من فکر می‌کنم تعادل خوب است، اما دوست دارم گاهی اوقات دوره‌های فشرده کار داشته باشم. این دوره‌ها، که مثلاً ماهی یک بار اتفاق می‌افتند، به من اجازه می‌دهند کاملاً درگیر یک مسئله شوم و خلاقیت‌ام را به کار بگیرم. بیشتر وقت‌ها تعادل دارم، اما این دوره‌های فشرده برایم بسیار ارزشمند هستند.


لکس: و در نهایت، آیا هنوز هم شب‌ها بیشترین بهره‌وری را داری؟
آندری: بله، اما حفظ این برنامه سخت است، به‌ویژه وقتی با دیگران همکاری می‌کنی. جامعه در یک بازه زمانی خاص زندگی می‌کند و تو مجبوری خودت را با آن تطبیق دهی. سعی می‌کنم وقتی کارهای اجتماعی دارم، زیاد الکل ننوشم تا بتوانم بعداً به کارم برگردم.
Please open Telegram to view this post
VIEW IN TELEGRAM
PyTorch Howsam
گفت‌وگوی با جزئیات لکس فریدمن: خیلی از مردم می‌خواهند بدانند که تو به عنوان یکی از پرکارترین و باهوش‌ترین افراد در تاریخ هوش مصنوعی، یک روز پربار در زندگی‌ات چطور می‌گذرد؟ چه ساعتی از خواب بیدار می‌شوی؟ آندری کارپاتی: باید بگویم که من آدم صبح‌گاهی نیستم،…
“چیزی که اخیراً امتحان می‌کنم این است: بیدار می‌شوم و مستقیم می‌روم سر کار. هیچ چیزی را چک نمی‌کنم – نه پیام‌ها، نه ایمیل‌ها، نه اخبار، هیچ چیز. در چک کردن دنیای بیرون چیزی مخرب یا حواس‌پرت‌کننده وجود دارد که کامل درکش نمی‌کنم. این کار مثل این است که حافظه موقتم (RAM) را با کلی عامل حواس‌پرتی پر کنم و نمی‌توانم توجهم را درست و کامل روی مهم‌ترین وظیفه کاری‌ام متمرکز کنم. بعد از چند ساعت، ناهار می‌خورم و در صورت تمایل، وضعیت دنیا را بررسی می‌کنم.”

در راستای پست قبلی، آرتین، این توییت از کارپاتی رو فرستاد. توی گفت‌وگوی قبلی گفته بود که صبح اخبار رو چک میکنه.
امروز، در یوتوب یک ارائه 15 دقیقه‌ای از محمد شکوهی یکتا (با سابقه کاری در هوش مصنوعی مایکروسافت، اپل و غیره) درباره فرصت‌های هوش مصنوعی دیدم. عالی بود. لینکش رو در پایین پست گذاشتم. اما، میخوام 5 تا از نکات جالبش رو هم بگم.

1️⃣فرصت‌های هوش مصنوعی رو میشه در سه حوزه اصلی بررسی کرد: آکادمیا، شرکت‌های کوچیک/استارت‌آپ‌ها و شرکت‌های بزرگ؛ این سه تا حوزه واقعا با هم فرق دارن و معمولا ترتیب ورود بهشون هم اینطوریه: اول آکادمیا، بعد شرکت‌های بزرگ و در نهایت استارت‌آپ‌ها یا شرکت‌های کوچیک‌تر.

2️⃣یه چیز مشترک بین این سه حوزه وجود داره و اونم اینه که شکستِ سریع و یادگیری از اون شکست خیلی مهمه.

3️⃣تو شرکت‌های کوچیک، معمولا جایی برای پروژه‌های بزرگ و پرریسک نیست، چون منابع محدوده و نمیشه ریسک‌های بزرگ کرد.

4️⃣یکی از مهم‌ترین مهارت‌ها در حوزه هوش مصنوعی (AI) خلاقیت هست.

5️⃣یه چیز دیگه که باید حواسمون باشه اینه که باید بیزنس رو به AI فیت کنیم، نه برعکس. یعنی اول باید مشکلات و چالش‌های بیزنس رو شناسایی کنیم و بعد ببینیم چطور می‌تونیم از AI برای حلشون استفاده کنیم، نه اینکه اول یه تکنولوژی AI داشته باشیم (مثلا LLM) و بعد دنبال کاربرد براش بگردیم. کسایی که از آکادمیا وارد صنعت میشن، معمولا چنین تفکری دارن. 😐

ویدئوی پرباری هست: لینک ویدئو در یوتوب
Please open Telegram to view this post
VIEW IN TELEGRAM
خب، این وسط که منتظر دانلود مدل جدید DeepSeek بنام deepseek-R1 هستم، یک وبلاگ خوب معرفی کنم!

آقای Maarten Grootendorst یکی از افرادی هست که وبلاگ جذاب و بروزی داره. علاوه‌براین، در ویژوالایز کردن شبکه‌ها و متدها خیلی خفنه. شکل بالا، سه نمونه از کارهایی هست که در وبلاگش گذاشته. دیروز اعلام کرد که خبرنامه وبلاگش به 10 هزار سابسکرایبر رسیده. شما هم میتونید عضو خبرنامه بشید یا اینکه مستقیم از مطالب وبلاگش استفاده کنید.

ایشون و آقای Jay Alammar باهم کتاب خیلی خوب Hands-on LLMs رو نوشتن. دو نفر که نقاشی‌شون خوبه و از کتاب هم مشخصه! هر دو خط، یک شکل! 👏


کتاب Hands-on LLMs رو هم قبلا معرفی کردم: اینجا و اینجا

لینک وبلاگ Maarten Grootendorst
Please open Telegram to view this post
VIEW IN TELEGRAM
مدل جدید DeepSeek-R1 در Ollama قرار گرفته. این مدل قابلیت استدلال داره و عملکردش مورد توجه قرار گرفته.

اگه نمی‌دونی Ollama چی هست:
یک پلتفرم ساده و متن‌باز هست که به ما امکان میده که مدل‌های هوش مصنوعی رو روی کامپیوتر خودمون اجرا کنیم. یعنی، بدون نیاز به اینترنت یا سیستم‌های خیلی قوی یا پرداخت هزینه برای سرویس‌هایی مثل OpenAI، می‌تونیم از مدل‌های پیشرفته استفاده کنیم.


لینک صفحه DeepSeek-R1 در Ollama
After DeepSeek it's Kimi Ai turn...
Kimi k1.5 is now on available on Web.

Completely FREE, unlimited use:
- Real-time web search across 100+ sites 
- Analyze 50+ file types effortlessly 
- Advanced CoT reasoning, free forever 
- Enhanced image understanding.

New MultiModal LLM From China 🇨🇳

https://kimi.ai/

Tech Report:
https://github.com/MoonshotAI/Kimi-k1.5
استارتاپ DeepSeek باعث فروش گسترده نزدیکه به 2 تریلیون دلاری در بازار فناوری شده است که انویدیا در آستانه بزرگترین کاهش تاریخ خود شده (بیش از 500 میلیارد دلار از ارزش بازار خود را از دست داده است).

به زبان ساده، DeepSeek نشان می‌دهد که مدل‌های هوش مصنوعی می‌توانند روی تراشه‌های کمتر پیشرفته و با 1/30هزینه (گزارش شده بین 5 تا 6 میلیون دلار) اجرا شوند و عملکردی به همان خوبی یا حتی بهتر داشته باشند.

غول‌های فناوری میلیاردها دلار برای هزینه‌های سرمایه‌ای (CapEx) در سال جاری متعهد شده‌اند (مثلاً مایکروسافت 80 میلیارد دلار)، اما سرمایه‌گذاران اکنون در حال بررسی بازده سرمایه‌گذاری (ROI) این پروژه‌ها هستند اگر مدل‌های کم‌هزینه‌ای مانند DeepSeek به همان خوبی عمل کنند.

هزینه آموزش مدل GPT-4 شرکت OpenAI: بیش از 600 میلیون دلار
هزینه DeepSeek: تنها 6 میلیون دلار

OpenAI: بیش از 100 دلار برای هر میلیون توکن
DeepSeek: کمتر از 4 دلار برای هر میلیون توکن

The game is changing—and fast
DeepseekAI 🐋

Janus-Pro is released, an advanced version of Janus, improving both multimodal understanding and visual generation significantly.

Janus-Pro-7B AI model outperformed OpenAI's DALL-E 3 and Stability AI's Stable Diffusion in a leaderboard ranking for image generation using text prompts.

GitHub: Janus-Pro
یک سری از دوره های nvidia مربوط به بخش DLI رایگان شده ( مدت زمان محدود )

هزینه دوره ها بین 30 تا 90 دلار هست.

لیست دوره ها

Deep Learning Institute (Self-Paced Training) :
Claim your free DLI course as a benefit of being a member of the NVIDIA Developer Program.
دو روزی از Qwen2.5-Max مدل جدید علی بابا میگذره

یه تستی از قابلیت هاش گرفتم
میشه از نظر مقایسه فنی در کنار claude گذاشت.

ازش خواستم : (پرامپت)
create a frontend for a modern note taking app (miro).
make it so that you can add sticky notes.

ایجاد رابط کاربری (فرانت اند) که یک ظاهر و برنامه ی مدرن یادداشت‌گیری باشه (مثل Miro)
و به گونه‌ای باشه که بشه یادداشت‌های چسبنده اضافه کرد.
PyTorch Howsam
دو روزی از Qwen2.5-Max مدل جدید علی بابا میگذره یه تستی از قابلیت هاش گرفتم میشه از نظر مقایسه فنی در کنار claude گذاشت. ازش خواستم : (پرامپت) create a frontend for a modern note taking app (miro). make it so that you can add sticky notes. ایجاد رابط کاربری…
نکته ی قابل توجه این بود که، بعد از تولید کد
فونت نمایش روی 14 بود
فقط اون قسمت رو انتخاب کردم و پرامپت جدید بهش دادم و بعدش کد جدید رو اصلاح کرد و مجدد اجرا کرد.
PyTorch Howsam
نکته ی قابل توجه این بود که، بعد از تولید کد فونت نمایش روی 14 بود فقط اون قسمت رو انتخاب کردم و پرامپت جدید بهش دادم و بعدش کد جدید رو اصلاح کرد و مجدد اجرا کرد.
بخش تولید عکسش هم خوب بود
پرامپت :
FRESH IDEAS Glass texture, 3D rendering of the transparent glass texture number "Howsam" with reflection and lighting effects, with a background of Programming elements.
تحقیقات امنیت Wiz :
روز گذشته در حالی که DeepSeek در بحبوحه مذاکرات با هند بود، دیتای بیش از یک میلیون چت کاربر افشا شد.
پس از اطلاع‌رسانی Wiz Research، شرکت DeepSeek به‌سرعت پایگاه داده را ایمن‌سازی کرد.
در این نفوذ، یک مهاجم نه‌تنها می‌توانست لاگ‌های حساس و پیام‌های متنی چت را بازیابی کند
بلکه می‌توانست اطلاعات محرمانه، رمزهای عبور و فایل‌های محلی را مستقیماً از سرور استخراج کند.

مایکروسافت :
مدل DeepSeek-R1 رو به Azure و GitHub اضافه کرد.

هواوی Ascend 910C :
مدل R1 ابتدا با استفاده از بیش از دو هزار GPU H800 از انویدیا آموزش داده شده است. اما نکته مهم این است که اکنون هواوی می‌تواند پردازنده‌های خود را برای اجرای این مدل به کار بگیرد.
این تحول، می‌تواند بزرگ‌ترین تهدید برای تسلط انویدیا بر بازار هوش مصنوعی باشد.
تا پیش از این، شرکت‌های چینی برای هم آموزش (Training) و هم استنتاج (Inference) مدل‌های خود به پردازنده‌های گرافیکی انویدیا و AMD وابسته بودند.
〰️ اما اکنون، هواوی در حال پر کردن این خلأ است و چین را یک قدم دیگر به خودکفایی در صنعت هوش مصنوعی نزدیک‌تر می‌کند.
🟡 مدل‌های DeepSeek هم به AWS اضافه شد.
همچنین می‌توانید از AWS Trainium و AWS Inferentia برای استقرار مدل‌های DeepSeek-R1-Distill به‌صورت مقرون‌به‌صرفه از طریق Amazon Elastic Compute Cloud (Amazon EC2) یا Amazon SageMaker AI استفاده کنید.

تایوان 🇹🇼 و ایتالیا 🇮🇹 ، استفاده از DeepSeek را در نهادهای دولتی و زیرساخت، به دلیل نگرانی‌های امنیت ملی و قوانین حفاظت از داده‌ها، ممنوع کردند.

💣 آلتمن :
من شخصاً فکر می‌کنم که باید استراتژی متفاوتی برای اوپن سورس داشته باشیم.
همه در OpenAI این دیدگاه را ندارند و همچنین این در حال حاضر بالاترین اولویت ما نیست.
ما مدل‌های بهتری تولید خواهیم کرد، اما فاصله‌ای که در سال‌های گذشته داشتیم، کمتر خواهد شد.

مدل جدید OpenAI به نام o3-mini هنوز فرآیند استدلال خود را مخفی نگه می‌دارد، ما در حال کار روی نمایش جزئیات بیشتری نسبت به امروز هستیم.
و همچنین در صورت امکان، مایل هستیم هزینه استفاده از ChatGPT را در آینده کاهش دهیم.
Fine Tune DeepSeek R1 Build a Medical Chatbot

در این ویدیو به شما نحوه‌ی فاین‌تیون کردن مدل DeepSeek R1، را با استفاده از LoRA (Low-Rank Adaptation) آموزش می‌دهد.
در این آموزش، از Kaggle، Hugging Face و Weights & Biases نیز استفاده خواهد کرد.
در پایان، شما مهارت‌های لازم برای شخصی‌سازی DeepSeek R1 در کاربردهای خاص مانند استدلال پزشکی را خواهید داشت.
بریتانیا اولین کشوری خواهد بود که استفاده از ابزارهای هوش مصنوعی برای تولید محتوای سوءاستفاده جنسی از کودکان را جرم انگاری می‌کند.

این کشور قوانینی را تصویب خواهد کرد که داشتن، ایجاد یا توزیع ابزارهای هوش مصنوعی که محتوای جنسی مرتبط با کودکان را تولید می‌کنند، غیرقانونی اعلام می‌کند.

این اقدام در راستای مقابله با پدیده‌ای است که Yvette Cooper وزیر بریتانیا، از آن به عنوان یک معضل رو به رشد یاد کرده است.

ایجاد یا توزیع ابزارهای هوش مصنوعی که تصاویر سوءاستفاده‌آمیز از کودکان را تولید می‌کنند، جرم محسوب شده و مجازات آن تا پنج سال زندان خواهد بود.
این ابزارها با استفاده از تکنیک‌هایی مانند "برهنه‌سازی" تصاویر واقعی کودکان یا "جایگزینی چهره کودکان دیگر روی تصاویر موجود" اقدام به تولید محتوای مجرمانه می‌کنند.

CSAM = Child Sex Abuse Material
شرکت بریتانیایی (Fractile) با حمایت ناتو (NATO) وارد بازی می شود.

شرکت Fractile، یک طراح تراشه بریتانیایی، در حال توسعه تراشه‌های هوش مصنوعی که از معماری محاسبات IMC برای انجام عملیات استنتاج هوش مصنوعی در دیتاسنترها استفاده می‌کند و در حال حاضر تراشه‌های آزمایشی خود را در تیم‌های لندن و بریستول تولید می‌کند.

پت گلسینگر، مدیرعامل سابق Intel، به عنوان Angel Investor به Fractile پیوست.
این همکاری به شرکت کمک کرده تا برای تولید تراشه‌های دیتاسنتر، سرمایه‌گذاری بیشتری جذب کند.
تاکنون، Fractile با حمایت ناتو، ۱۵ میلیون پوند جمع‌آوری کرده است.
تیمی از توسعه‌دهندگان AI Hugging Face، از جمله توماس وُلف، ادعا می‌کنند که نسخه‌ای open از ابزار تحقیقاتی OpenAI را ساخته‌اند.

پروژه Open Deep Research از تیم Hugging Face
شامل یک مدل هوش مصنوعی (مدل o1 از OpenAI) و Agentic Framework است که به مدل کمک می‌کند تا تحلیل‌های خود را برنامه‌ریزی کند و از ابزارهایی مانند موتورهای جستجو استفاده کند.
مدل o1 یک مدل اختصاصی و غیررایگان است، اما تیم Hugging Face می‌گوید که عملکرد بهتری نسبت به مدل‌های باز مانند DeepSeek R1 دارد.

طبق گفته‌های تیم توسعه، Open Deep Research می‌تواند به‌طور خودکار در وب جستجو کند، صفحات را اسکرول کند، فایل‌ها را تغییر دهد و حتی داده‌ها را پردازش و محاسبات انجام دهد.

در معیار GAIA (بنچمارک برای General AI Assistants)، Open Deep Research امتیاز 54٪ کسب کرده است.
در مقایسه، ابزار تحقیق عمیق OpenAI امتیاز 67.36٪ دارد.
معلم دل‌ها، معلم معلم‌ها، خوشگل پسر، آقای Andrej Karpathy، ویدئوی جدیدی منتشر کرده! 👏

موضوع ویدئو: Deep Dive into LLMs like ChatGPT

مدت زمان: 3 ساعت و 30 دقیقه

فهرست مطالب:
introduction
pretraining data (internet)
tokenization
neural network I/O
neural network internals
inference
GPT-2: training and inference
Llama 3.1 base model inference 🔴
pretraining to post-training
post-training data (conversations)
hallucinations, tool use, knowledge/working memory
knowledge of self
models need tokens to think
tokenization revisited: models struggle with spelling
jagged intelligence
supervised finetuning to reinforcement learning
reinforcement learning 🔥
DeepSeek-R1 🔥
AlphaGo
reinforcement learning from human feedback (RLHF)
preview of things to come
keeping track of LLMs
where to find LLMs
grand summary


باید در اسرع وقت زمان باز کنم و ببینمش. احتمالا مشاهده این ویدئو به یک روز کاری (8 ساعت) زمان نیاز داره.

لینک
Please open Telegram to view this post
VIEW IN TELEGRAM
آقای Sebastian Raschka بلاگ پستی درباره Reasoning در LLM-ها نوشته. در ادامه خلاصه‌ای از این پست رو آوردم. هرچند پیشنهاد میشه که پست کامل خونده بشه. لینک


قبل از DeepSeek-R1، تقویت توانایی استدلال (Reasoning) در مدل‌ها معمولا مبتنی بر فاین‌تیون باناظر و یادگیری تقویتی (SFT+RL) بود. به این شکل که بعد از مرحله Pretrain، مدل‌ها ابتدا با یادگیری باناظر و سپس با یادگیری تقویتی آموزش داده میشدن تا قابلیت استدلال بهبود پیدا کند.

با اومدن DeepSeek-R1، روش‌های کارآمد دیگه‌ای هم برای افزایش توانایی استدلال در مدل‌ها معرفی شد:
* روش فقط یادگیری تقویتی (Pure RL)
* روش فقط یادگیری باناظر (Pure SFT)

در روش Pure RL، مدل DeepSeek-R1-Zero توسعه داده شد. در این روش، به جای استفاده از فیدبک انسانی، دو Reward به نام‌های Accuracy و Format تعریف شدن. برای مثال، در پرامپت‌ها و سوال‌های کدنویسی، Accuracy Reward بر اساس تست‌کیس‌ها و کامپایلر LeetCode تعیین میشه. یعنی مدل کد تولید میکنه، کامپایلر بررسی کرده و بر اساس صحت خروجی، به مدل فیدبک میده. 👏

این روش Pure RL باعث شد که مدل بدون نیاز به فیدبک انسانی توانایی استدلالش ارتقا پیدا کنه؛ یک دستاورد کلیدی که احتمالا در ماه‌های آینده بیشتر در موردش خواهیم شنید. تصویر بالا نشون میده DeepSeek-R1-Zero که فقط با RL آموزش دیده، چگونه یک مسئله ریاضی رو حل میکنه.

روش دوم، فقط یادگیری باناظر (SFT) هست. دیپ‌سیک یک‌ سری مدل کوچک‌تر بر پایه Llama 3 و Qwen 2.5 رو با SFT آموزش داد و جالب اینکه حتی این مدل‌ها هم تنها با SFT قابلیت استدلال پیدا کردند.

البته، وقتی مدل‌های کوچک رو با روش Pure RL آموزش دادن، عملکرد چندان جالبی نداشتن. این نشون میده که مدل‌های بزرگ‌تر (مثل DeepSeek-V3) می‌تونن با Pure RL قابلیت استدلال پیدا کنند، در حالی که مدل‌های کوچک‌تر بیشتر با Pure SFT به این توانایی می‌رسن.
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/07/08 17:56:22
Back to Top
HTML Embed Code: