PyTorch Howsam
گفتوگوی لکس فریدمن و آندری کارپاتی درباره بهرهوری، تمرکز و تعادل کار و زندگی این گفتوگو نکات جالبی برای من داشت. اول، خلاصه گفتوگو رو آوردم، بعدش مکالمه با جزئیاتش رو در ادامه گذاشتم. لینک گفتوگو در یوتوب خلاصه گفتوگو: برای کاری که میخواد انجام بده،…
Please open Telegram to view this post
VIEW IN TELEGRAM
PyTorch Howsam
“چیزی که اخیراً امتحان میکنم این است: بیدار میشوم و مستقیم میروم سر کار. هیچ چیزی را چک نمیکنم – نه پیامها، نه ایمیلها، نه اخبار، هیچ چیز. در چک کردن دنیای بیرون چیزی مخرب یا حواسپرتکننده وجود دارد که کامل درکش نمیکنم. این کار مثل این است که حافظه موقتم (RAM) را با کلی عامل حواسپرتی پر کنم و نمیتوانم توجهم را درست و کامل روی مهمترین وظیفه کاریام متمرکز کنم. بعد از چند ساعت، ناهار میخورم و در صورت تمایل، وضعیت دنیا را بررسی میکنم.”
در راستای پست قبلی، آرتین، این توییت از کارپاتی رو فرستاد. توی گفتوگوی قبلی گفته بود که صبح اخبار رو چک میکنه.
در راستای پست قبلی، آرتین، این توییت از کارپاتی رو فرستاد. توی گفتوگوی قبلی گفته بود که صبح اخبار رو چک میکنه.
امروز، در یوتوب یک ارائه 15 دقیقهای از محمد شکوهی یکتا (با سابقه کاری در هوش مصنوعی مایکروسافت، اپل و غیره) درباره فرصتهای هوش مصنوعی دیدم. عالی بود. لینکش رو در پایین پست گذاشتم. اما، میخوام 5 تا از نکات جالبش رو هم بگم.
1️⃣ فرصتهای هوش مصنوعی رو میشه در سه حوزه اصلی بررسی کرد: آکادمیا، شرکتهای کوچیک/استارتآپها و شرکتهای بزرگ؛ این سه تا حوزه واقعا با هم فرق دارن و معمولا ترتیب ورود بهشون هم اینطوریه: اول آکادمیا، بعد شرکتهای بزرگ و در نهایت استارتآپها یا شرکتهای کوچیکتر.
2️⃣ یه چیز مشترک بین این سه حوزه وجود داره و اونم اینه که شکستِ سریع و یادگیری از اون شکست خیلی مهمه.
3️⃣ تو شرکتهای کوچیک، معمولا جایی برای پروژههای بزرگ و پرریسک نیست، چون منابع محدوده و نمیشه ریسکهای بزرگ کرد.
4️⃣ یکی از مهمترین مهارتها در حوزه هوش مصنوعی (AI) خلاقیت هست.
5️⃣ یه چیز دیگه که باید حواسمون باشه اینه که باید بیزنس رو به AI فیت کنیم، نه برعکس. یعنی اول باید مشکلات و چالشهای بیزنس رو شناسایی کنیم و بعد ببینیم چطور میتونیم از AI برای حلشون استفاده کنیم، نه اینکه اول یه تکنولوژی AI داشته باشیم (مثلا LLM) و بعد دنبال کاربرد براش بگردیم. کسایی که از آکادمیا وارد صنعت میشن، معمولا چنین تفکری دارن. 😐
ویدئوی پرباری هست: لینک ویدئو در یوتوب
ویدئوی پرباری هست: لینک ویدئو در یوتوب
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
محمد شکوهییکتا، مدیر ارشد سابق هوش مصنوعی مایکروسافت و اپل
درباره هوش مصنوعی و فرصتهایی که ایجاد میکند
در این ارائه، شکوهییکتا به بحث در مورد فرصتهای هوش مصنوعی در ایران پرداخت. او به سه حوزه اصلی شامل آکادمیها، شرکتهای بزرگ و استارتاپها اشاره کرد و تجربیات شخصی خود را در این زمینه به اشتراک گذاشت. تجربیات…
در این ارائه، شکوهییکتا به بحث در مورد فرصتهای هوش مصنوعی در ایران پرداخت. او به سه حوزه اصلی شامل آکادمیها، شرکتهای بزرگ و استارتاپها اشاره کرد و تجربیات شخصی خود را در این زمینه به اشتراک گذاشت. تجربیات…
After DeepSeek it's Kimi Ai turn...
Kimi k1.5 is now on available on Web.
Completely FREE, unlimited use:
- Real-time web search across 100+ sites
- Analyze 50+ file types effortlessly
- Advanced CoT reasoning, free forever
- Enhanced image understanding.
New MultiModal LLM From China 🇨🇳
https://kimi.ai/
Tech Report:
https://github.com/MoonshotAI/Kimi-k1.5
Kimi k1.5 is now on available on Web.
Completely FREE, unlimited use:
- Real-time web search across 100+ sites
- Analyze 50+ file types effortlessly
- Advanced CoT reasoning, free forever
- Enhanced image understanding.
New MultiModal LLM From China 🇨🇳
https://kimi.ai/
Tech Report:
https://github.com/MoonshotAI/Kimi-k1.5
استارتاپ DeepSeek باعث فروش گسترده نزدیکه به 2 تریلیون دلاری در بازار فناوری شده است که انویدیا در آستانه بزرگترین کاهش تاریخ خود شده (بیش از 500 میلیارد دلار از ارزش بازار خود را از دست داده است).
به زبان ساده، DeepSeek نشان میدهد که مدلهای هوش مصنوعی میتوانند روی تراشههای کمتر پیشرفته و با 1/30هزینه (گزارش شده بین 5 تا 6 میلیون دلار) اجرا شوند و عملکردی به همان خوبی یا حتی بهتر داشته باشند.
غولهای فناوری میلیاردها دلار برای هزینههای سرمایهای (CapEx) در سال جاری متعهد شدهاند (مثلاً مایکروسافت 80 میلیارد دلار)، اما سرمایهگذاران اکنون در حال بررسی بازده سرمایهگذاری (ROI) این پروژهها هستند اگر مدلهای کمهزینهای مانند DeepSeek به همان خوبی عمل کنند.
هزینه آموزش مدل GPT-4 شرکت OpenAI: بیش از 600 میلیون دلار
هزینه DeepSeek: تنها 6 میلیون دلار
OpenAI: بیش از 100 دلار برای هر میلیون توکن
DeepSeek: کمتر از 4 دلار برای هر میلیون توکن
The game is changing—and fast
به زبان ساده، DeepSeek نشان میدهد که مدلهای هوش مصنوعی میتوانند روی تراشههای کمتر پیشرفته و با 1/30هزینه (گزارش شده بین 5 تا 6 میلیون دلار) اجرا شوند و عملکردی به همان خوبی یا حتی بهتر داشته باشند.
غولهای فناوری میلیاردها دلار برای هزینههای سرمایهای (CapEx) در سال جاری متعهد شدهاند (مثلاً مایکروسافت 80 میلیارد دلار)، اما سرمایهگذاران اکنون در حال بررسی بازده سرمایهگذاری (ROI) این پروژهها هستند اگر مدلهای کمهزینهای مانند DeepSeek به همان خوبی عمل کنند.
هزینه آموزش مدل GPT-4 شرکت OpenAI: بیش از 600 میلیون دلار
هزینه DeepSeek: تنها 6 میلیون دلار
OpenAI: بیش از 100 دلار برای هر میلیون توکن
DeepSeek: کمتر از 4 دلار برای هر میلیون توکن
The game is changing—and fast
DeepseekAI 🐋
Janus-Pro is released, an advanced version of Janus, improving both multimodal understanding and visual generation significantly.
Janus-Pro-7B AI model outperformed OpenAI's DALL-E 3 and Stability AI's Stable Diffusion in a leaderboard ranking for image generation using text prompts.
GitHub: Janus-Pro
Janus-Pro is released, an advanced version of Janus, improving both multimodal understanding and visual generation significantly.
Janus-Pro-7B AI model outperformed OpenAI's DALL-E 3 and Stability AI's Stable Diffusion in a leaderboard ranking for image generation using text prompts.
GitHub: Janus-Pro
یک سری از دوره های nvidia مربوط به بخش DLI رایگان شده ( مدت زمان محدود )
هزینه دوره ها بین 30 تا 90 دلار هست.
لیست دوره ها
Deep Learning Institute (Self-Paced Training) :
Claim your free DLI course as a benefit of being a member of the NVIDIA Developer Program.
هزینه دوره ها بین 30 تا 90 دلار هست.
لیست دوره ها
Deep Learning Institute (Self-Paced Training) :
Claim your free DLI course as a benefit of being a member of the NVIDIA Developer Program.
دو روزی از Qwen2.5-Max مدل جدید علی بابا میگذره
یه تستی از قابلیت هاش گرفتم
میشه از نظر مقایسه فنی در کنار claude گذاشت.
ازش خواستم : (پرامپت)
create a frontend for a modern note taking app (miro).
make it so that you can add sticky notes.
ایجاد رابط کاربری (فرانت اند) که یک ظاهر و برنامه ی مدرن یادداشتگیری باشه (مثل Miro)
و به گونهای باشه که بشه یادداشتهای چسبنده اضافه کرد.
یه تستی از قابلیت هاش گرفتم
میشه از نظر مقایسه فنی در کنار claude گذاشت.
ازش خواستم : (پرامپت)
create a frontend for a modern note taking app (miro).
make it so that you can add sticky notes.
ایجاد رابط کاربری (فرانت اند) که یک ظاهر و برنامه ی مدرن یادداشتگیری باشه (مثل Miro)
و به گونهای باشه که بشه یادداشتهای چسبنده اضافه کرد.
PyTorch Howsam
دو روزی از Qwen2.5-Max مدل جدید علی بابا میگذره یه تستی از قابلیت هاش گرفتم میشه از نظر مقایسه فنی در کنار claude گذاشت. ازش خواستم : (پرامپت) create a frontend for a modern note taking app (miro). make it so that you can add sticky notes. ایجاد رابط کاربری…
نکته ی قابل توجه این بود که، بعد از تولید کد
فونت نمایش روی 14 بود
فقط اون قسمت رو انتخاب کردم و پرامپت جدید بهش دادم و بعدش کد جدید رو اصلاح کرد و مجدد اجرا کرد.
فونت نمایش روی 14 بود
فقط اون قسمت رو انتخاب کردم و پرامپت جدید بهش دادم و بعدش کد جدید رو اصلاح کرد و مجدد اجرا کرد.
PyTorch Howsam
نکته ی قابل توجه این بود که، بعد از تولید کد فونت نمایش روی 14 بود فقط اون قسمت رو انتخاب کردم و پرامپت جدید بهش دادم و بعدش کد جدید رو اصلاح کرد و مجدد اجرا کرد.
بخش تولید عکسش هم خوب بود
پرامپت :
FRESH IDEAS Glass texture, 3D rendering of the transparent glass texture number "Howsam" with reflection and lighting effects, with a background of Programming elements.
پرامپت :
FRESH IDEAS Glass texture, 3D rendering of the transparent glass texture number "Howsam" with reflection and lighting effects, with a background of Programming elements.
تحقیقات امنیت Wiz :
روز گذشته در حالی که DeepSeek در بحبوحه مذاکرات با هند بود، دیتای بیش از یک میلیون چت کاربر افشا شد.
پس از اطلاعرسانی Wiz Research، شرکت DeepSeek بهسرعت پایگاه داده را ایمنسازی کرد.
در این نفوذ، یک مهاجم نهتنها میتوانست لاگهای حساس و پیامهای متنی چت را بازیابی کند
بلکه میتوانست اطلاعات محرمانه، رمزهای عبور و فایلهای محلی را مستقیماً از سرور استخراج کند.
مایکروسافت :
مدل DeepSeek-R1 رو به Azure و GitHub اضافه کرد.
هواوی Ascend 910C :
مدل R1 ابتدا با استفاده از بیش از دو هزار GPU H800 از انویدیا آموزش داده شده است. اما نکته مهم این است که اکنون هواوی میتواند پردازندههای خود را برای اجرای این مدل به کار بگیرد.
این تحول، میتواند بزرگترین تهدید برای تسلط انویدیا بر بازار هوش مصنوعی باشد.
تا پیش از این، شرکتهای چینی برای هم آموزش (Training) و هم استنتاج (Inference) مدلهای خود به پردازندههای گرافیکی انویدیا و AMD وابسته بودند.
〰️ اما اکنون، هواوی در حال پر کردن این خلأ است و چین را یک قدم دیگر به خودکفایی در صنعت هوش مصنوعی نزدیکتر میکند.
روز گذشته در حالی که DeepSeek در بحبوحه مذاکرات با هند بود، دیتای بیش از یک میلیون چت کاربر افشا شد.
پس از اطلاعرسانی Wiz Research، شرکت DeepSeek بهسرعت پایگاه داده را ایمنسازی کرد.
در این نفوذ، یک مهاجم نهتنها میتوانست لاگهای حساس و پیامهای متنی چت را بازیابی کند
بلکه میتوانست اطلاعات محرمانه، رمزهای عبور و فایلهای محلی را مستقیماً از سرور استخراج کند.
مایکروسافت :
مدل DeepSeek-R1 رو به Azure و GitHub اضافه کرد.
هواوی Ascend 910C :
مدل R1 ابتدا با استفاده از بیش از دو هزار GPU H800 از انویدیا آموزش داده شده است. اما نکته مهم این است که اکنون هواوی میتواند پردازندههای خود را برای اجرای این مدل به کار بگیرد.
این تحول، میتواند بزرگترین تهدید برای تسلط انویدیا بر بازار هوش مصنوعی باشد.
تا پیش از این، شرکتهای چینی برای هم آموزش (Training) و هم استنتاج (Inference) مدلهای خود به پردازندههای گرافیکی انویدیا و AMD وابسته بودند.
〰️ اما اکنون، هواوی در حال پر کردن این خلأ است و چین را یک قدم دیگر به خودکفایی در صنعت هوش مصنوعی نزدیکتر میکند.
🟡 مدلهای DeepSeek هم به AWS اضافه شد.
همچنین میتوانید از AWS Trainium و AWS Inferentia برای استقرار مدلهای DeepSeek-R1-Distill بهصورت مقرونبهصرفه از طریق Amazon Elastic Compute Cloud (Amazon EC2) یا Amazon SageMaker AI استفاده کنید.
تایوان 🇹🇼 و ایتالیا 🇮🇹 ، استفاده از DeepSeek را در نهادهای دولتی و زیرساخت، به دلیل نگرانیهای امنیت ملی و قوانین حفاظت از دادهها، ممنوع کردند.
💣 آلتمن :
من شخصاً فکر میکنم که باید استراتژی متفاوتی برای اوپن سورس داشته باشیم.
همه در OpenAI این دیدگاه را ندارند و همچنین این در حال حاضر بالاترین اولویت ما نیست.
ما مدلهای بهتری تولید خواهیم کرد، اما فاصلهای که در سالهای گذشته داشتیم، کمتر خواهد شد.
مدل جدید OpenAI به نام o3-mini هنوز فرآیند استدلال خود را مخفی نگه میدارد، ما در حال کار روی نمایش جزئیات بیشتری نسبت به امروز هستیم.
و همچنین در صورت امکان، مایل هستیم هزینه استفاده از ChatGPT را در آینده کاهش دهیم.
همچنین میتوانید از AWS Trainium و AWS Inferentia برای استقرار مدلهای DeepSeek-R1-Distill بهصورت مقرونبهصرفه از طریق Amazon Elastic Compute Cloud (Amazon EC2) یا Amazon SageMaker AI استفاده کنید.
تایوان 🇹🇼 و ایتالیا 🇮🇹 ، استفاده از DeepSeek را در نهادهای دولتی و زیرساخت، به دلیل نگرانیهای امنیت ملی و قوانین حفاظت از دادهها، ممنوع کردند.
💣 آلتمن :
من شخصاً فکر میکنم که باید استراتژی متفاوتی برای اوپن سورس داشته باشیم.
همه در OpenAI این دیدگاه را ندارند و همچنین این در حال حاضر بالاترین اولویت ما نیست.
ما مدلهای بهتری تولید خواهیم کرد، اما فاصلهای که در سالهای گذشته داشتیم، کمتر خواهد شد.
مدل جدید OpenAI به نام o3-mini هنوز فرآیند استدلال خود را مخفی نگه میدارد، ما در حال کار روی نمایش جزئیات بیشتری نسبت به امروز هستیم.
و همچنین در صورت امکان، مایل هستیم هزینه استفاده از ChatGPT را در آینده کاهش دهیم.
Fine Tune DeepSeek R1 Build a Medical Chatbot
در این ویدیو به شما نحوهی فاینتیون کردن مدل DeepSeek R1، را با استفاده از LoRA (Low-Rank Adaptation) آموزش میدهد.
در این آموزش، از Kaggle، Hugging Face و Weights & Biases نیز استفاده خواهد کرد.
در پایان، شما مهارتهای لازم برای شخصیسازی DeepSeek R1 در کاربردهای خاص مانند استدلال پزشکی را خواهید داشت.
در این ویدیو به شما نحوهی فاینتیون کردن مدل DeepSeek R1، را با استفاده از LoRA (Low-Rank Adaptation) آموزش میدهد.
در این آموزش، از Kaggle، Hugging Face و Weights & Biases نیز استفاده خواهد کرد.
در پایان، شما مهارتهای لازم برای شخصیسازی DeepSeek R1 در کاربردهای خاص مانند استدلال پزشکی را خواهید داشت.
بریتانیا اولین کشوری خواهد بود که استفاده از ابزارهای هوش مصنوعی برای تولید محتوای سوءاستفاده جنسی از کودکان را جرم انگاری میکند.
این کشور قوانینی را تصویب خواهد کرد که داشتن، ایجاد یا توزیع ابزارهای هوش مصنوعی که محتوای جنسی مرتبط با کودکان را تولید میکنند، غیرقانونی اعلام میکند.
این اقدام در راستای مقابله با پدیدهای است که Yvette Cooper وزیر بریتانیا، از آن به عنوان یک معضل رو به رشد یاد کرده است.
ایجاد یا توزیع ابزارهای هوش مصنوعی که تصاویر سوءاستفادهآمیز از کودکان را تولید میکنند، جرم محسوب شده و مجازات آن تا پنج سال زندان خواهد بود.
این ابزارها با استفاده از تکنیکهایی مانند "برهنهسازی" تصاویر واقعی کودکان یا "جایگزینی چهره کودکان دیگر روی تصاویر موجود" اقدام به تولید محتوای مجرمانه میکنند.
CSAM = Child Sex Abuse Material
این کشور قوانینی را تصویب خواهد کرد که داشتن، ایجاد یا توزیع ابزارهای هوش مصنوعی که محتوای جنسی مرتبط با کودکان را تولید میکنند، غیرقانونی اعلام میکند.
این اقدام در راستای مقابله با پدیدهای است که Yvette Cooper وزیر بریتانیا، از آن به عنوان یک معضل رو به رشد یاد کرده است.
ایجاد یا توزیع ابزارهای هوش مصنوعی که تصاویر سوءاستفادهآمیز از کودکان را تولید میکنند، جرم محسوب شده و مجازات آن تا پنج سال زندان خواهد بود.
این ابزارها با استفاده از تکنیکهایی مانند "برهنهسازی" تصاویر واقعی کودکان یا "جایگزینی چهره کودکان دیگر روی تصاویر موجود" اقدام به تولید محتوای مجرمانه میکنند.
CSAM = Child Sex Abuse Material
شرکت بریتانیایی (Fractile) با حمایت ناتو (NATO) وارد بازی می شود.
شرکت Fractile، یک طراح تراشه بریتانیایی، در حال توسعه تراشههای هوش مصنوعی که از معماری محاسبات IMC برای انجام عملیات استنتاج هوش مصنوعی در دیتاسنترها استفاده میکند و در حال حاضر تراشههای آزمایشی خود را در تیمهای لندن و بریستول تولید میکند.
پت گلسینگر، مدیرعامل سابق Intel، به عنوان Angel Investor به Fractile پیوست.
این همکاری به شرکت کمک کرده تا برای تولید تراشههای دیتاسنتر، سرمایهگذاری بیشتری جذب کند.
تاکنون، Fractile با حمایت ناتو، ۱۵ میلیون پوند جمعآوری کرده است.
شرکت Fractile، یک طراح تراشه بریتانیایی، در حال توسعه تراشههای هوش مصنوعی که از معماری محاسبات IMC برای انجام عملیات استنتاج هوش مصنوعی در دیتاسنترها استفاده میکند و در حال حاضر تراشههای آزمایشی خود را در تیمهای لندن و بریستول تولید میکند.
پت گلسینگر، مدیرعامل سابق Intel، به عنوان Angel Investor به Fractile پیوست.
این همکاری به شرکت کمک کرده تا برای تولید تراشههای دیتاسنتر، سرمایهگذاری بیشتری جذب کند.
تاکنون، Fractile با حمایت ناتو، ۱۵ میلیون پوند جمعآوری کرده است.
تیمی از توسعهدهندگان AI Hugging Face، از جمله توماس وُلف، ادعا میکنند که نسخهای open از ابزار تحقیقاتی OpenAI را ساختهاند.
پروژه Open Deep Research از تیم Hugging Face
شامل یک مدل هوش مصنوعی (مدل o1 از OpenAI) و Agentic Framework است که به مدل کمک میکند تا تحلیلهای خود را برنامهریزی کند و از ابزارهایی مانند موتورهای جستجو استفاده کند.
مدل o1 یک مدل اختصاصی و غیررایگان است، اما تیم Hugging Face میگوید که عملکرد بهتری نسبت به مدلهای باز مانند DeepSeek R1 دارد.
طبق گفتههای تیم توسعه، Open Deep Research میتواند بهطور خودکار در وب جستجو کند، صفحات را اسکرول کند، فایلها را تغییر دهد و حتی دادهها را پردازش و محاسبات انجام دهد.
در معیار GAIA (بنچمارک برای General AI Assistants)، Open Deep Research امتیاز 54٪ کسب کرده است.
در مقایسه، ابزار تحقیق عمیق OpenAI امتیاز 67.36٪ دارد.
پروژه Open Deep Research از تیم Hugging Face
شامل یک مدل هوش مصنوعی (مدل o1 از OpenAI) و Agentic Framework است که به مدل کمک میکند تا تحلیلهای خود را برنامهریزی کند و از ابزارهایی مانند موتورهای جستجو استفاده کند.
مدل o1 یک مدل اختصاصی و غیررایگان است، اما تیم Hugging Face میگوید که عملکرد بهتری نسبت به مدلهای باز مانند DeepSeek R1 دارد.
طبق گفتههای تیم توسعه، Open Deep Research میتواند بهطور خودکار در وب جستجو کند، صفحات را اسکرول کند، فایلها را تغییر دهد و حتی دادهها را پردازش و محاسبات انجام دهد.
در معیار GAIA (بنچمارک برای General AI Assistants)، Open Deep Research امتیاز 54٪ کسب کرده است.
در مقایسه، ابزار تحقیق عمیق OpenAI امتیاز 67.36٪ دارد.
آقای Sebastian Raschka بلاگ پستی درباره Reasoning در LLM-ها نوشته. در ادامه خلاصهای از این پست رو آوردم. هرچند پیشنهاد میشه که پست کامل خونده بشه. لینک
قبل از DeepSeek-R1، تقویت توانایی استدلال (Reasoning) در مدلها معمولا مبتنی بر فاینتیون باناظر و یادگیری تقویتی (SFT+RL) بود. به این شکل که بعد از مرحله Pretrain، مدلها ابتدا با یادگیری باناظر و سپس با یادگیری تقویتی آموزش داده میشدن تا قابلیت استدلال بهبود پیدا کند.
با اومدن DeepSeek-R1، روشهای کارآمد دیگهای هم برای افزایش توانایی استدلال در مدلها معرفی شد:
* روش فقط یادگیری تقویتی (Pure RL)
* روش فقط یادگیری باناظر (Pure SFT)
در روش Pure RL، مدل DeepSeek-R1-Zero توسعه داده شد. در این روش، به جای استفاده از فیدبک انسانی، دو Reward به نامهای Accuracy و Format تعریف شدن. برای مثال، در پرامپتها و سوالهای کدنویسی، Accuracy Reward بر اساس تستکیسها و کامپایلر LeetCode تعیین میشه. یعنی مدل کد تولید میکنه، کامپایلر بررسی کرده و بر اساس صحت خروجی، به مدل فیدبک میده.👏
این روش Pure RL باعث شد که مدل بدون نیاز به فیدبک انسانی توانایی استدلالش ارتقا پیدا کنه؛ یک دستاورد کلیدی که احتمالا در ماههای آینده بیشتر در موردش خواهیم شنید. تصویر بالا نشون میده DeepSeek-R1-Zero که فقط با RL آموزش دیده، چگونه یک مسئله ریاضی رو حل میکنه.
روش دوم، فقط یادگیری باناظر (SFT) هست. دیپسیک یک سری مدل کوچکتر بر پایه Llama 3 و Qwen 2.5 رو با SFT آموزش داد و جالب اینکه حتی این مدلها هم تنها با SFT قابلیت استدلال پیدا کردند.
البته، وقتی مدلهای کوچک رو با روش Pure RL آموزش دادن، عملکرد چندان جالبی نداشتن. این نشون میده که مدلهای بزرگتر (مثل DeepSeek-V3) میتونن با Pure RL قابلیت استدلال پیدا کنند، در حالی که مدلهای کوچکتر بیشتر با Pure SFT به این توانایی میرسن.
قبل از DeepSeek-R1، تقویت توانایی استدلال (Reasoning) در مدلها معمولا مبتنی بر فاینتیون باناظر و یادگیری تقویتی (SFT+RL) بود. به این شکل که بعد از مرحله Pretrain، مدلها ابتدا با یادگیری باناظر و سپس با یادگیری تقویتی آموزش داده میشدن تا قابلیت استدلال بهبود پیدا کند.
با اومدن DeepSeek-R1، روشهای کارآمد دیگهای هم برای افزایش توانایی استدلال در مدلها معرفی شد:
* روش فقط یادگیری تقویتی (Pure RL)
* روش فقط یادگیری باناظر (Pure SFT)
در روش Pure RL، مدل DeepSeek-R1-Zero توسعه داده شد. در این روش، به جای استفاده از فیدبک انسانی، دو Reward به نامهای Accuracy و Format تعریف شدن. برای مثال، در پرامپتها و سوالهای کدنویسی، Accuracy Reward بر اساس تستکیسها و کامپایلر LeetCode تعیین میشه. یعنی مدل کد تولید میکنه، کامپایلر بررسی کرده و بر اساس صحت خروجی، به مدل فیدبک میده.
این روش Pure RL باعث شد که مدل بدون نیاز به فیدبک انسانی توانایی استدلالش ارتقا پیدا کنه؛ یک دستاورد کلیدی که احتمالا در ماههای آینده بیشتر در موردش خواهیم شنید. تصویر بالا نشون میده DeepSeek-R1-Zero که فقط با RL آموزش دیده، چگونه یک مسئله ریاضی رو حل میکنه.
روش دوم، فقط یادگیری باناظر (SFT) هست. دیپسیک یک سری مدل کوچکتر بر پایه Llama 3 و Qwen 2.5 رو با SFT آموزش داد و جالب اینکه حتی این مدلها هم تنها با SFT قابلیت استدلال پیدا کردند.
البته، وقتی مدلهای کوچک رو با روش Pure RL آموزش دادن، عملکرد چندان جالبی نداشتن. این نشون میده که مدلهای بزرگتر (مثل DeepSeek-V3) میتونن با Pure RL قابلیت استدلال پیدا کنند، در حالی که مدلهای کوچکتر بیشتر با Pure SFT به این توانایی میرسن.
Please open Telegram to view this post
VIEW IN TELEGRAM