PyTorch Howsam
دوستان، مدتی هست دوره رایگان پایتورچ رو در هوسم ارائه کردیم. مطالبش به صورت هفتگی منتشر میشه و تا الان چهار هفته (حدود 7.5 ساعت) رو منتشر کردیم. انتشار ویدئوها رو در کانال اصلی سایت هوسم اطلاعرسانی میکنیم: https://www.tgoop.com/howsam_org دسترسی به دوره: htt…
سلام
اگه خاطرتون باشه، امسال یک مینیدوره آموزش پایتورچ بهصورت رایگان رو استارت زده بودیم. این دوره رو با 13 ساعت آموزش بستیم. خدا رو شکر دوره خوبی شد و فیدبکهای مثبت و قشنگی هم دریافت کردیم.
توی این دوره هدفم این نبوده که همه چیز درباره پایتورچ رو آموزش بدم. هدفم این بوده که مفاهیم پایهای شبکه عصبی و پایتورچ رو آموزش بدم. در واقع، اسم واقعی دوره "یادگیری عمیق استارتر" باید باشه. چون هم تئوری و هم کدنویسی داره. اگه از یادگیری ماشین، شبکه عصبی و پایتورچ چیزی نمیدونید و دوست دارید یاد بگیرید، به این دوره نگاه بندازید. نگید که خب رایگانه حتما بدرد نمیخوره! باور کنید خیلی برای ضبطش وقت و انرژی گذاشتیم! اصلا شکل و قیافه ویدئوها رو ببینید متوجه میشید! 😁
اتفاقا، درحال برنامهریزی برای برگزاری یک دوره "یادگیری ماشین استارتر" هم هستیم...
دسترسی به دوره پایتورچ:
https://howsam.org/downloads/pytorch-course/
@pytorch_howsam
اگه خاطرتون باشه، امسال یک مینیدوره آموزش پایتورچ بهصورت رایگان رو استارت زده بودیم. این دوره رو با 13 ساعت آموزش بستیم. خدا رو شکر دوره خوبی شد و فیدبکهای مثبت و قشنگی هم دریافت کردیم.
توی این دوره هدفم این نبوده که همه چیز درباره پایتورچ رو آموزش بدم. هدفم این بوده که مفاهیم پایهای شبکه عصبی و پایتورچ رو آموزش بدم. در واقع، اسم واقعی دوره "یادگیری عمیق استارتر" باید باشه. چون هم تئوری و هم کدنویسی داره. اگه از یادگیری ماشین، شبکه عصبی و پایتورچ چیزی نمیدونید و دوست دارید یاد بگیرید، به این دوره نگاه بندازید. نگید که خب رایگانه حتما بدرد نمیخوره! باور کنید خیلی برای ضبطش وقت و انرژی گذاشتیم! اصلا شکل و قیافه ویدئوها رو ببینید متوجه میشید! 😁
اتفاقا، درحال برنامهریزی برای برگزاری یک دوره "یادگیری ماشین استارتر" هم هستیم...
دسترسی به دوره پایتورچ:
https://howsam.org/downloads/pytorch-course/
@pytorch_howsam
آکادمی هوش مصنوعی هوسم
آموزش پایتورچ (رایگان | 13 ساعت | 2024 🔥)
دوره آموزش پایتورچ رایگان شامل 13 ساعت آموزش کدنویسی عملی همراه با تئوری شبکه عصبی از صفر با پروژه دیپ لرنینگ که به صورت رایگان عرضه شده است.
آقای Sebastian Raschka توی کتاب LLMs from scratch اومده معماری شبکههای GPT-2 Llama-2 Llama-3 رو با هم مقایسه کرده. در تصویر بالا میتونید این مقایسه رو به صورت شکلی ببینید.
مدلهای Llama-2 و Llama-3 که خیلی مشابه هم هستن و تفاوت اصلیشون این هست که مدل Llama-3 از Grouped Query Attention استفاده میکنه.
مدلهای GPT-2 و Llama-2 تفاوتهایی جزئی در بخشهای دراپاوت، نرمالیزیشن، پوزیشن امبدینگ و اکتیویشن فانکشن ماژول MLP دارن.
جزئیات بیشتر رو میتونید در این نوتبوک ببینید: لینک
آپدیت: یک نفر برامون 5 تا ستاره زده. اولین ستاره این کانال هست! :) ممنون دوست مهربون...
@pytorch_howsam
مدلهای Llama-2 و Llama-3 که خیلی مشابه هم هستن و تفاوت اصلیشون این هست که مدل Llama-3 از Grouped Query Attention استفاده میکنه.
مدلهای GPT-2 و Llama-2 تفاوتهایی جزئی در بخشهای دراپاوت، نرمالیزیشن، پوزیشن امبدینگ و اکتیویشن فانکشن ماژول MLP دارن.
جزئیات بیشتر رو میتونید در این نوتبوک ببینید: لینک
آپدیت: یک نفر برامون 5 تا ستاره زده. اولین ستاره این کانال هست! :) ممنون دوست مهربون...
@pytorch_howsam
بهترین راهحلهای مسابقات Kaggle
ریپوی Kaggle Solutions لیست مسابقات مختلف Kaggle همراه با راه حل نفرات برتر هر مسابقه رو در اختیار شما قرار میده.
تصویر بالا راهحلهای یکسری از افراد برای مسابقه اخیر ISIC (سرطان پوست) رو لیست کرده. مخزن ارزشمندی هست، خصوصا برای کسانی که میخوان توی مسابقات کگل به رتبههای بالاتر برسن.
البته، این رو هم بگم که بعضی راهحلها واقعا بار آموزشی ندارن. مثلا، نفر 37 مسابقه سرطان پوست ISIC رو ببینید چیکار کرده:
خب، حالا شاید توی پیام بالا یک لایبرری، مدل/شبکه یا اصطلاح هم باشه که نشنیده باشید. اما، صرفا یکسری مدل قوی رو ترکیب کرده! اما، ایدههای جالب هم پیدا میشه. مثلا، نفر اول از Diffusion Models استفاده کرده!
گویا این Kaggle Solutions کار یک ایرانی بنام فرید رشیدی هست:
لینک Kaggle Solutions
@pytorch_howsam
ریپوی Kaggle Solutions لیست مسابقات مختلف Kaggle همراه با راه حل نفرات برتر هر مسابقه رو در اختیار شما قرار میده.
تصویر بالا راهحلهای یکسری از افراد برای مسابقه اخیر ISIC (سرطان پوست) رو لیست کرده. مخزن ارزشمندی هست، خصوصا برای کسانی که میخوان توی مسابقات کگل به رتبههای بالاتر برسن.
البته، این رو هم بگم که بعضی راهحلها واقعا بار آموزشی ندارن. مثلا، نفر 37 مسابقه سرطان پوست ISIC رو ببینید چیکار کرده:
I used catboost, xgboost and lgbm for tabular data and tabular + cnn features. (total 6 models). As stacking method I applied StackingCVClassifier from mlxtend with LogisiticRegression as a metaclassifier. CNNs densenet201 (224 x 224) and efficient_net_b0 (384, 384).
خب، حالا شاید توی پیام بالا یک لایبرری، مدل/شبکه یا اصطلاح هم باشه که نشنیده باشید. اما، صرفا یکسری مدل قوی رو ترکیب کرده! اما، ایدههای جالب هم پیدا میشه. مثلا، نفر اول از Diffusion Models استفاده کرده!
گویا این Kaggle Solutions کار یک ایرانی بنام فرید رشیدی هست:
لینک Kaggle Solutions
@pytorch_howsam
یک نفر در توییتر، سایتی بهنام primeintellect برای اجاره GPU با نرخ بهصرفه معرفی کرده بود. مشابه خیلی از سرویسهای دیگه هزینههاش ساعتی هست. من ازش استفاده نکردم و تازه باهاش آشنا شدم، اما نرخهاش خوبه. مثلا، H100 رو ساعتی 1.49 دلار میده. من زیر 2 دلار ندیده بودم. حالا H100 که خیلی قوی و گرونه، ولی ممکنه کارتون با GPU-های پایینتر هم راه بیفته. مثلا، P100 با 16 گیگ رم، 0.11 دلار؛ یعنی 100 ساعتش میشه 11 دلار.
لینک
بگو چی شده؟! برای اولین بار، تعداد کاربرای این کانال از کاربرای کانال هوسم (@howsam_org) بیشتر شده! 🥳
ممنون ❤️
@pytorch_howsam
لینک
بگو چی شده؟! برای اولین بار، تعداد کاربرای این کانال از کاربرای کانال هوسم (@howsam_org) بیشتر شده! 🥳
ممنون ❤️
@pytorch_howsam
www.primeintellect.ai
Prime Intellect - Commoditizing Compute & Intelligence
Prime Intellect democratizes AI development at scale. Our platform makes it easy to find global compute resources and train state-of-the-art models through distributed training across clusters. Collectively own the resulting open AI innovations, from language…
This media is not supported in your browser
VIEW IN TELEGRAM
احتمالا درمورد NotebookLM گوگل شنیدید. میتونی یکسری محتوا (مثلا PDF، وبسایت، یوتوب، گوگل داک و غیره) درباره یک موضوع بهش بدی و اون برای شما خلاصه میکنه!
امروز یک کورس 1 ساعته درباره NotebookLM دیدم که خیلی ساده و سریع کار با این ابزار رو آموزش میده.
لینک
@pytorch_howsam
امروز یک کورس 1 ساعته درباره NotebookLM دیدم که خیلی ساده و سریع کار با این ابزار رو آموزش میده.
لینک
@pytorch_howsam
PyTorch Howsam
اگه خاطرتون باشه، قبلا درمورد MobileLLM نوشته بودم. همچنین، گفتم تلاش میکنم بیشتر ازش بگم. خب اومدم که بگم، بالاخره آماده شد... یک پست نسبتا طولانی درمورد MobileLLM در هوسم نوشتم. از چالشها و ایدههای کار گفتم. امیدوارم، مفید باشه. همچنان کار و مطالعه…
بالاخره، متا وزن نسخههای 1.5B 1B 600M 300M 125M شبکه MobileLLM رو در هاگینگ فیس منتشر کرد.
مدل MobileLLM، یکی از بهترین شبکههای مدلسازی زبان در رده مگسوزنها (SLM) محسوب میشه. شبکهها انقدر سبک هستن که با یک سیستم نه چندان قوی هم میشه باهاشون کار کرد.
قبلا، شبکه MobileLLM رو معرفی کردم. همچنین، در وبلاگ هوسم مقاله این شبکه رو تشریح کردم.
مقاله | کد | وزنها | وبلاگ هوسم
@pytorch_howsam
مدل MobileLLM، یکی از بهترین شبکههای مدلسازی زبان در رده مگسوزنها (SLM) محسوب میشه. شبکهها انقدر سبک هستن که با یک سیستم نه چندان قوی هم میشه باهاشون کار کرد.
قبلا، شبکه MobileLLM رو معرفی کردم. همچنین، در وبلاگ هوسم مقاله این شبکه رو تشریح کردم.
مقاله | کد | وزنها | وبلاگ هوسم
@pytorch_howsam
در کارم زیاد پیش میاد که کارهای ماشین حسابی داشته باشم. کارهایی که کد نوشتنش کمی زمانبر هست و بعدا به کدهاش نیازی ندارم. مثلا، بخوام نمودار یک تابعی رو رسم کنم، عملیات ماتریسی انجام بدم و ...
برای این کارها من از سایت desmos.com استفاده میکنم. ابزارهای مختلفی برای ریاضیات داره؛ مثل محاسبات، نمودارها، ماتریسها، هندسه و ...
مثلا، در تصویر بالا دو تا نمودار کشیدم. میتونید خروجی کار رو به صورت تصویر با کیفیت خوب ذخیره کنید.
در همین راستا، بد نیست یکی از ابزارهایی که قبلا معرفی کرده بودیم رو یادآوری کنم. ابزار تبدیل عکس به فرمول Mathpix:
https://www.tgoop.com/pytorch_howsam/294
@pytorch_howsam
برای این کارها من از سایت desmos.com استفاده میکنم. ابزارهای مختلفی برای ریاضیات داره؛ مثل محاسبات، نمودارها، ماتریسها، هندسه و ...
مثلا، در تصویر بالا دو تا نمودار کشیدم. میتونید خروجی کار رو به صورت تصویر با کیفیت خوب ذخیره کنید.
در همین راستا، بد نیست یکی از ابزارهایی که قبلا معرفی کرده بودیم رو یادآوری کنم. ابزار تبدیل عکس به فرمول Mathpix:
https://www.tgoop.com/pytorch_howsam/294
@pytorch_howsam
Media is too big
VIEW IN TELEGRAM
ویدئوی بالا رو ببین؛ میتونی چنین پروژهای رو انجام بدی؟
این قابلیت رو دو سال پیش اپل روی تمام دیوایسهاش آورد. در یک بلاگ پست، درباره رهیافتش توضیح دادن. من آخر این پست لینک این بلاگ پست رو گذاشتم. اما، اگه وقت داشتی قبل از دیدنش، به راه حلش فکر کن. فقط به همون بخش هوش مصنوعی پروژه فکر کن.
اسم این وبلاگ Fast Class-Agnostic Salient Object Segmentation هست. عنوانش خیلی نکته داره! مثلا، منظورش از Class-Agnostic این هست که بدون نیاز به شناسایی کلاس شی، هر شی برجسته رو شناسایی میکنه. Salient Object هم اشاره میکنه به اشیای برجسته در تصویر که توجه بیشتری جلب میکنن.
لینک بلاگ پست:
https://machinelearning.apple.com/research/salient-object-segmentation
@pytorch_howsam
این قابلیت رو دو سال پیش اپل روی تمام دیوایسهاش آورد. در یک بلاگ پست، درباره رهیافتش توضیح دادن. من آخر این پست لینک این بلاگ پست رو گذاشتم. اما، اگه وقت داشتی قبل از دیدنش، به راه حلش فکر کن. فقط به همون بخش هوش مصنوعی پروژه فکر کن.
لینک بلاگ پست:
@pytorch_howsam
PyTorch Howsam
کتاب درباره LLM با عنوان Build a Large Language Model نویسنده این کتاب آقای سباستین راشکا (Sebastian Raschka) هست که فرد شناختهشدهای هست. همچنین، این کتاب در Manning منتشر شده. البته، هنوز کامل نشده و فصلهای ابتدایی کتاب منتشر شده. بهصورت آنلاین و البته…
اگه میخواید درباره Multimodal LLM بیشتر بدونید، بلاگ زیر از آقای Sebastian Raschka رو بهتون پیشنهاد میکنم. هم رهیافت پایهای رو گفته و هم مقالههای بروز ازجمله Llama 3.2 رو تشریح کرده. خودم شروع کردم به مطالعه این وبلاگ طولانی...
لینک وبلاگ Multimodal LLM
راستی، محض یادآوری، آقای Sebastian Raschka یک کتاب درباره LLM هم داره که قبلا معرفی کرده بودم. من مشغول مطالعه این کتاب هستم و تا اواسط فصل 4 این کتاب رو مطالعه کردم. کتاب منسجم و روانی هست. پست معرفی کتاب رو ریپلای کردم.
@pytorch_howsam
لینک وبلاگ Multimodal LLM
راستی، محض یادآوری، آقای Sebastian Raschka یک کتاب درباره LLM هم داره که قبلا معرفی کرده بودم. من مشغول مطالعه این کتاب هستم و تا اواسط فصل 4 این کتاب رو مطالعه کردم. کتاب منسجم و روانی هست. پست معرفی کتاب رو ریپلای کردم.
@pytorch_howsam
کانال یوتوب Umar Jamil یکی از بهترین کانالهای آموزش مباحث بروز و پیچیده یادگیری عمیق هست. به نظرم تعداد سابسکرایبرها و ویوهاش اصلا در حد محتواش نیست. فقط نگاه کن ویدئوهای آخر کانالش چه آموزشهایی هست:
- پیادهسازی Vision Language Model با پایتورچ از صفر
- تفسیرپذیری در ماشین لرنینگ
- شبکه KAN
- و ...
امروز یک ویدئوی 7 ساعته از آموزش و پیادهسازی Flash Attention منتشر کرده!
فلش اتنشن میدونید چیه؟
یک الگوریتم بهینهسازی شده برای محاسبه اتنشن در شبکههای ترنسفورمری هست که منجر به افزایش سرعت و کاهش مصرف حافظه میشه. به تصویر پایین نگاه کنید؛ سمت راست تصویر، یک نمودار مقایسه زمان محاسبات اتنشن با فلش اتنشن وجود داره. از فلش اتنشن در مدلهای ترنسفورمری کوچک و بزرگ استفاده میشه.
کانال یوتوب Umar Jamil
@pytorch_howsam
- پیادهسازی Vision Language Model با پایتورچ از صفر
- تفسیرپذیری در ماشین لرنینگ
- شبکه KAN
- و ...
امروز یک ویدئوی 7 ساعته از آموزش و پیادهسازی Flash Attention منتشر کرده!
فلش اتنشن میدونید چیه؟
یک الگوریتم بهینهسازی شده برای محاسبه اتنشن در شبکههای ترنسفورمری هست که منجر به افزایش سرعت و کاهش مصرف حافظه میشه. به تصویر پایین نگاه کنید؛ سمت راست تصویر، یک نمودار مقایسه زمان محاسبات اتنشن با فلش اتنشن وجود داره. از فلش اتنشن در مدلهای ترنسفورمری کوچک و بزرگ استفاده میشه.
کانال یوتوب Umar Jamil
@pytorch_howsam
The ChatGPT Desktop app for Windows is now available for all users.
Get faster access to ChatGPT with the Alt + Space shortcut, and use Advanced Voice Mode to chat with your computer and get hands-free answers while you work.
https://openai.com/chatgpt/desktop/
Get faster access to ChatGPT with the Alt + Space shortcut, and use Advanced Voice Mode to chat with your computer and get hands-free answers while you work.
https://openai.com/chatgpt/desktop/
سایت Cohere به مدیریت Luis Serrano و همکاری Jay Alammar و Meor Amer کورسی بنام LLM University ساخته. افرادی رو که اسم بردم، در زمینه تولید محتواهای آموزشی جذاب در هوش مصنوعی سابقه درخشانی دارن. حالا، با همکاری هم، این کورس جالب رو با هدف آشنایی افراد با GenAI LLM NLP راه انداختن.
یک نگاهی بندازیم به ماژولهای این کورس:
1. Large Language Models
2. Text Representation
3. Text Generation
4. Deployment
5. Semantic Search
6. Prompt Engineering
7. Retrieval-Augmented Generation (RAG)
8. Tool Use
9. Cohere on AWS
لینک کورس
@pytorch_howsam
یک نگاهی بندازیم به ماژولهای این کورس:
1. Large Language Models
2. Text Representation
3. Text Generation
4. Deployment
5. Semantic Search
6. Prompt Engineering
7. Retrieval-Augmented Generation (RAG)
8. Tool Use
9. Cohere on AWS
لینک کورس
@pytorch_howsam
Cohere
LLM University | Cohere
Welcome to LLM University, your premier learning destination for mastering Enterprise AI technologies. Designed for developers and technical professionals, our hub offers comprehensive resources, expert-led courses, and step-by-step guides to help you start…
کورس دانشگاهی Diffusion Models [پاییز 2024]
کورس سطح بالایی هست. باید دانشتون در یادگیری عمیق و GenAI خوب باشه تا بتونید مطالب این کورس رو دنبال کنید. اسلایدها و ویدئوها در دسترس هست. جدا از کورس، منابع و مقالههایی که لیست کردن منابع مفیدی هستن.
https://mhsung.github.io/kaist-cs492d-fall-2024/
@pytorch_howsam
کورس سطح بالایی هست. باید دانشتون در یادگیری عمیق و GenAI خوب باشه تا بتونید مطالب این کورس رو دنبال کنید. اسلایدها و ویدئوها در دسترس هست. جدا از کورس، منابع و مقالههایی که لیست کردن منابع مفیدی هستن.
https://mhsung.github.io/kaist-cs492d-fall-2024/
@pytorch_howsam
mhsung.github.io
CS492(D) Diffusion Models and Their Applications (KAIST, Fall 2024)
چند وقت پیش، یک مقاله Survey درباره Small Language Models (SLM) خوندم. در یکی از بخشها، معماری ترنسفورمر براساس 6 فاکتور آنالیز شده بود. هدف مولفها این بود که نشون بدن چه تنظیماتی در ترنسفورمر بیشتر استفاده میشن. میخوام 4 فاکتور از اون 6 فاکتور رو توضیح بدم. یکم تخصصی هست و باید به معماری ترنسفورمر مسلط باشید...
1. نوع Attention: مطابق با دادههای ارائهشده در مقاله، از سال 2022 تا 2024، استفاده از Multi-Head Attention (MHA) بهتدریج کاهش پیدا کرده و مکانیزم Group-Query Attention (GQA) جایگزین اون شده.
2. نوع Feed-Forward Neural Network (FFN): استفاده از Standard FFN کاهش یافته و Gated FFN به دلیل عملکرد بهتر و انعطافپذیری بیشتر جایگزین اون شده.
3. تابع فعالسازی در FFN: در سال 2022، ReLU بیشترین استفاده رو داشت. در سال 2023، GELU و GELUtanh به تدریج جایگزین ReLU شدن. در سال 2024، SiLU به عنوان تابع غالب مورد استفاده قرار گرفته.
4. نوع لایه نرمالیزیشن: در سال 2022، LayerNorm انتخاب غالب بود. اما، در سالهای 2023 و 2024، RMSNorm بهتدریج جایگزین LayerNorm شد.
@pytorch_howsam
1. نوع Attention: مطابق با دادههای ارائهشده در مقاله، از سال 2022 تا 2024، استفاده از Multi-Head Attention (MHA) بهتدریج کاهش پیدا کرده و مکانیزم Group-Query Attention (GQA) جایگزین اون شده.
2. نوع Feed-Forward Neural Network (FFN): استفاده از Standard FFN کاهش یافته و Gated FFN به دلیل عملکرد بهتر و انعطافپذیری بیشتر جایگزین اون شده.
3. تابع فعالسازی در FFN: در سال 2022، ReLU بیشترین استفاده رو داشت. در سال 2023، GELU و GELUtanh به تدریج جایگزین ReLU شدن. در سال 2024، SiLU به عنوان تابع غالب مورد استفاده قرار گرفته.
4. نوع لایه نرمالیزیشن: در سال 2022، LayerNorm انتخاب غالب بود. اما، در سالهای 2023 و 2024، RMSNorm بهتدریج جایگزین LayerNorm شد.
@pytorch_howsam
این پست از ابعاد مختلف مهم هست...
حدود چهار ماه پیش، آقای Andrej Karpathy پستی در X منتشر کرد که ترجمه خلاصه اون رو به کمک ChatGPT در زیر آوردم:
خب، مثل خیلی از کارهای Karpathy، این کار هم با استقبال قابل توجهی مواجه شد. مثلا، یک پویشی راه افتاد که هزینه آموزش مدل GPT-2 124M رو روی دیتاست FineWeb برای رسیدن به لاس 3.28 کاهش بدن. در واقع، هدف این بود که بیایید یک کاری کنیم، هرچه سریعتر به لاس 3.28 روی ولیدیشن دیتاست FineWeb برسیم.
این مدت، من میدیدم که افرادی از کاهش زمان آموزش مدل میگفتن و مدام پیگیری میکردم. مثلا، Keller Jordan خیلی روی این پروژه کار کرد و خیلی پست میذاشت. حالا بعد از چهار ماه، Karpathy یک پستی درباره این ماجرا منتشر کرده:
لیست کارهای Keller Jordan برای رسیدن به 5 دقیقه رو میتونید در تصویر پست بعدی ببینید. سعی کردم لینکهای مهم رو در متن براتون بذارم.
مدتها بود که میخواستم درباره این ماجرا بنویسم، اما نمیتونستم به شکل خوبی مطلب رو بیان کنم. برای من این پروژه خیلی آموزنده و الهامبخش بود و خیلی پیگیرش بودم و هستم...
@pytorch_howsam
حدود چهار ماه پیش، آقای Andrej Karpathy پستی در X منتشر کرد که ترجمه خلاصه اون رو به کمک ChatGPT در زیر آوردم:
در سال ۲۰۱۹، OpenAI مدل GPT-2 رو معرفی کرد. امروز، بعد حدودا ۵ سال، میتونید مدل مشابهی رو تنها با حدود ۶۷۲ دلار و یک نود 8XH100 GPU طی ۲۴ ساعت آموزش بدید. پروژه llm.c که روی اون کار کردم، راهنمای کاملی برای این فرآیند ارائه میده.
پیشرفتهای سختافزاری (مثل، GPUهای H100)، نرمافزاری (CUDA، cuBLAS، FlashAttention) و دادههای باکیفیت (مثل FineWeb-Edu) هزینهها رو چشمگیر کاهش دادن. llm.c مستقیماً با C/CUDA نوشته شده و نیازی به محیطهای پیچیده Python یا ابزارهایی مانند pip نداره. فقط یک نود GPU ابری رو راهاندازی میکنید، ملزومات رو نصب میکنید و در چند دقیقه آماده اجرا میشه.
این پروژه از علاقهام به بازتولید GPT-2 برای یک ویدیوی آموزشی شروع شد. اما در ادامه مسیر، یادگیری بیشتر CUDA، بازنویسی همهچیز از صفر (حدود ۵,۰۰۰ خط کد برای llm.c) و ساخت سیستمی سریع، کوچک و پایدار رو در پی داشت.
هنوز کارهای زیادی باقی مونده، از جمله بهبود پایداری آموزش برای مدلهای بزرگتر، تست fp8 و اضافه کردن معماریهای مدرنتر.
خب، مثل خیلی از کارهای Karpathy، این کار هم با استقبال قابل توجهی مواجه شد. مثلا، یک پویشی راه افتاد که هزینه آموزش مدل GPT-2 124M رو روی دیتاست FineWeb برای رسیدن به لاس 3.28 کاهش بدن. در واقع، هدف این بود که بیایید یک کاری کنیم، هرچه سریعتر به لاس 3.28 روی ولیدیشن دیتاست FineWeb برسیم.
این مدت، من میدیدم که افرادی از کاهش زمان آموزش مدل میگفتن و مدام پیگیری میکردم. مثلا، Keller Jordan خیلی روی این پروژه کار کرد و خیلی پست میذاشت. حالا بعد از چهار ماه، Karpathy یک پستی درباره این ماجرا منتشر کرده:
یادتون میاد با llm.c بازتولید آموزش مدل GPT-2 124M حدود ۴۵ دقیقه روی 8XH100 زمان میبرد؟ از اون موقع، Keller Jordan (و حالا خیلیهای دیگه) روی نسخه جدید و اصلاحشده NanoGPT کار کردن و این زمان رو به فقط ۵ دقیقه کاهش دادن! عاشق این ریپو هستم؛ 👏 ۶۰۰ خط کد!
لیست کارهای Keller Jordan برای رسیدن به 5 دقیقه رو میتونید در تصویر پست بعدی ببینید. سعی کردم لینکهای مهم رو در متن براتون بذارم.
مدتها بود که میخواستم درباره این ماجرا بنویسم، اما نمیتونستم به شکل خوبی مطلب رو بیان کنم. برای من این پروژه خیلی آموزنده و الهامبخش بود و خیلی پیگیرش بودم و هستم...
@pytorch_howsam
PyTorch Howsam
این پست از ابعاد مختلف مهم هست... حدود چهار ماه پیش، آقای Andrej Karpathy پستی در X منتشر کرد که ترجمه خلاصه اون رو به کمک ChatGPT در زیر آوردم: در سال ۲۰۱۹، OpenAI مدل GPT-2 رو معرفی کرد. امروز، بعد حدودا ۵ سال، میتونید مدل مشابهی رو تنها با حدود ۶۷۲ دلار…
لیست بهبودهایی که منجر به کاهش چشمگیر زمان آموزش مدل برای رسیدن به لاس 3.28 شده. اول هر آیتم زمان هم نوشته شده. یکی از موارد جالب، اثر آپگرید کردن پایتورچ هست.
تصویر بالا، درخت تکامل مدلهای زبانی بزرگ (LLM) رو از سال ۲۰۱۸ تا ۲۰۲۴ نشون میده.
نمودار سه شاخه اصلی داره:
* شاخه قرمز شامل مدلهای Encoder-only مثل BERT هست.
* شاخه سبز شامل مدلهای Encoder-Decoder مثل T5 هست.
* شاخه آبی شامل مدلهای Decoder-only مثل GPT هست.
توی هر شاخه، برگها مسیر پیشرفت مدلها رو نشون میدن. مثلا، در شاخه آبی، شروعکننده تقریبا GPT-2 بوده و جدیدترین هم Llama 3.2 هست.
@pytorch_howsam
نمودار سه شاخه اصلی داره:
* شاخه قرمز شامل مدلهای Encoder-only مثل BERT هست.
* شاخه سبز شامل مدلهای Encoder-Decoder مثل T5 هست.
* شاخه آبی شامل مدلهای Decoder-only مثل GPT هست.
توی هر شاخه، برگها مسیر پیشرفت مدلها رو نشون میدن. مثلا، در شاخه آبی، شروعکننده تقریبا GPT-2 بوده و جدیدترین هم Llama 3.2 هست.
@pytorch_howsam