👶🤗
هاگینگفیس، یکسری مدل و دیتاست در مقیاس کوچک (Small) داره که اسمشون رو smol گذاشته!
مثلا، مجموعه SmolLM مدل زبانی کوچک با سایزهای 360M 135M و 1.7B پارامتر هست. این مدلها قدرتمندتر از مدلهای رقیب مثل MobileLLM متا عمل کردن. قبلا درباره MobileLLM اینجا، اینجا و اینجا نوشتم.
مدلهای SmolLM روی یک مجموعه دیتاست باکیفیت بنام SmolLM-Corpus آموزش داده شدن. این مجموعه دیتاست هم منتشر شده و میتونید برای آموزش مدلهای زبانی کوچک ازش استفاده کنید.
اخیرا، SmolVLM رو منتشر کردن که یک vision Language Model هست. این مدل هم با داشتن 2B پارامتر جز VLM-های کوچک محسوب میشه. توی تصویر بالا هم جایگاه این مدل رو نسبت به سایر مدلهای کوچک میتونید ببینید.
یک نکته جالب هم اینکه، وبلاگ SmolVLM در سایت هاگینگفیس اینطوری شروع شده:
@pytorch_howsam
هاگینگفیس، یکسری مدل و دیتاست در مقیاس کوچک (Small) داره که اسمشون رو smol گذاشته!
مثلا، مجموعه SmolLM مدل زبانی کوچک با سایزهای 360M 135M و 1.7B پارامتر هست. این مدلها قدرتمندتر از مدلهای رقیب مثل MobileLLM متا عمل کردن. قبلا درباره MobileLLM اینجا، اینجا و اینجا نوشتم.
مدلهای SmolLM روی یک مجموعه دیتاست باکیفیت بنام SmolLM-Corpus آموزش داده شدن. این مجموعه دیتاست هم منتشر شده و میتونید برای آموزش مدلهای زبانی کوچک ازش استفاده کنید.
اخیرا، SmolVLM رو منتشر کردن که یک vision Language Model هست. این مدل هم با داشتن 2B پارامتر جز VLM-های کوچک محسوب میشه. توی تصویر بالا هم جایگاه این مدل رو نسبت به سایر مدلهای کوچک میتونید ببینید.
یک نکته جالب هم اینکه، وبلاگ SmolVLM در سایت هاگینگفیس اینطوری شروع شده:
This year has seen a boom in multimodal AI with many large vision language models released.
@pytorch_howsam
امروز سایت deep-ml.com رو بررسی کردم؛ این سایت، شامل یکسری مساله تمرینی در حوزه هوش مصنوعی هست. برای هر مساله توضیحاتی ارائه شده و میشه بهصورت آنلاین کدنویسی و نتیجه رو برای چک کردن سابمیت کرد.
بیشتر تمریناتش مربوط به جبر خطی، یادگیری ماشین و یادگیری عمیق هست. فقط یک یا دو مساله برای بینایی کامپیوتر و پردازش زبان طبیعی داره. امیدوارم، مسالهها بیشتر بشه. خودم علاقهمند شدم که در طراحی مساله باهاشون همکاری کنم! :)
به عنوان معلم، همیشه به دوستان پیشنهاد کردم که در آموزش صرفا تماشاگر نباشید و حتما روی مباحث تئوری و کدنویسی تمرین حل کنید.
@pytorch_howsam
بیشتر تمریناتش مربوط به جبر خطی، یادگیری ماشین و یادگیری عمیق هست. فقط یک یا دو مساله برای بینایی کامپیوتر و پردازش زبان طبیعی داره. امیدوارم، مسالهها بیشتر بشه. خودم علاقهمند شدم که در طراحی مساله باهاشون همکاری کنم! :)
به عنوان معلم، همیشه به دوستان پیشنهاد کردم که در آموزش صرفا تماشاگر نباشید و حتما روی مباحث تئوری و کدنویسی تمرین حل کنید.
@pytorch_howsam
مهدی، از بچههای هوسم، مطلبی درباره فریمورک Polars در گروهمون به اشتراک گذاشته. جالبه!
@pytorch_howsam
سلام دوستان
اگر با دادههای جدولی حجیم سر و کار دارید پیشنهاد میکنم Polars رو امتحان کنید.
با زبان Rust نوشته شده که یکی از سریعترین زبانهاست.
از معماری columnar (ستونی) برای پردازش دادهها استفاده میکنه که باعث میشه عملکرد فوقالعادهای داشته باشه، بهویژه برای تحلیل دادههای بزرگ.
امکان استفاده از چندین هسته CPU و حتی GPU رو فراهم میکنه که برای پردازشهای سنگین عالیه.
از توابع کاربردی مثل groupby، join، aggregation، و window functions پشتیبانی میکنه.
من شخصاً از Polars برای پردازش یک فایل CSV با حجم ۹.۵ گیگابایت استفاده کردم و بدون هیچ مشکلی، با سرعت خیلی خیلی خوبی کارم رو انجام داد. میتونید توی Google Colab یا kaggle و gpu که در اختیارتون میگذاره استفاده کنید.
https://github.com/pola-rs/polars
@pytorch_howsam
GitHub
GitHub - pola-rs/polars: Dataframes powered by a multithreaded, vectorized query engine, written in Rust
Dataframes powered by a multithreaded, vectorized query engine, written in Rust - pola-rs/polars
قبلا، چند تا کتاب درباره LLM معرفی کرده بودم. توی دو ماه گذشته مشغول مطالعه دو کتاب زیر بودم:
کتاب درباره Build a Large Language Model از Sebastian Raschka
کتاب Hands-on LLMs از آقای Jay Alammar
احتمالا یک نقد و بررسی از اون دو کتاب مینویسم. فعلا، در این حد بگم که هر دو کتاب خوب هستن و ارزش خوندن دارن.
اما، الان به این فکر میکنم که بعد از این کتابها چه کتابی مطالعه کنم؛ تمایل دارم، کتابی انتخاب کنم که تمرکز بیشتری روی پروداکشن داشته باشه. خوشبختانه، چند تا کتاب از Manning دیدم که جالب هستن. هنوز دقیق بررسی نکردم، اما لیست کتابها رو اینجا میذارم:
کتاب LLMs in Production (از فهرست مطالب این کتاب خیلی خوشم اومد)
کتاب AI Agents in Action (فهرست مطالب خوبی داره)
کتاب Generative AI in Action (بعید هست کتاب بعدیم این باشه)
کتاب Build LLM Applications (from Scratch) (هنوز کامل منتشر نشده)
کتاب Hugging Face in Action (🧐)
این کتاب هم فهرست مطالب خوبی داره:
کتاب LLM Engineer's Handbook
بعدا نتیجه بررسی و مطالعه کتابها رو اینجا مینویسم.
کتاب درباره Build a Large Language Model از Sebastian Raschka
کتاب Hands-on LLMs از آقای Jay Alammar
احتمالا یک نقد و بررسی از اون دو کتاب مینویسم. فعلا، در این حد بگم که هر دو کتاب خوب هستن و ارزش خوندن دارن.
اما، الان به این فکر میکنم که بعد از این کتابها چه کتابی مطالعه کنم؛ تمایل دارم، کتابی انتخاب کنم که تمرکز بیشتری روی پروداکشن داشته باشه. خوشبختانه، چند تا کتاب از Manning دیدم که جالب هستن. هنوز دقیق بررسی نکردم، اما لیست کتابها رو اینجا میذارم:
کتاب LLMs in Production (از فهرست مطالب این کتاب خیلی خوشم اومد)
کتاب AI Agents in Action (فهرست مطالب خوبی داره)
کتاب Generative AI in Action (بعید هست کتاب بعدیم این باشه)
کتاب Build LLM Applications (from Scratch) (هنوز کامل منتشر نشده)
کتاب Hugging Face in Action (🧐)
این کتاب هم فهرست مطالب خوبی داره:
کتاب LLM Engineer's Handbook
بعدا نتیجه بررسی و مطالعه کتابها رو اینجا مینویسم.
میخوام از این بعد پستهای جالب فارسی/انگلیسی در X (توییتر سابق) رو همراه با رفرنس در این کانال بذارم.
با یک پست جالب از آقای Andrej Karpathy شروع کنیم! 😊
لینک پست در X
@pytorch_howsam
با یک پست جالب از آقای Andrej Karpathy شروع کنیم! 😊
یکی از کارایی که خیلی دوست دارم با مدلهای زبانی بزرگ انجام بدم اینه که باهاشون کتاب بخونم. مثلاً وقتی دارم یه کتاب میخونم، بتونم سوال بپرسم یا بحثهایی که خودش تولید میکنه (مثل سبک NotebookLM) رو بشنوم، در حالی که مدل خودش بهطور خودکار از محتوای متن یاد میگیره. به نظرم اگه آمازون یا یه شرکت دیگه یه کیندل هوشمند با هوش مصنوعی بسازه که "درست کار کنه"، خیلی موفق میشه.
فعلاً میشه با یه سری اسکریپت این ایده رو تا حدی پیاده کرد. شاید هم یکی قبلاً یه اپلیکیشن خفن برای خوندن کتاب با هوش مصنوعی ساخته باشه و من خبر نداشته باشم!
لینک پست در X
@pytorch_howsam
آقای Ilya Sutskever توی X (توییتر سابق) ترند شده. یک سخنرانی با موضوع زیر در کنفرانس NeurIPS 2024 داشته:
لینک ویدئوی سخنرانی (حدودا 25 دقیقه)
خودم هم درحال دیدن ویدئو هستم. منتها چون وقتم کم هست، مجبورم تکه تکه ببینم! تموم شد، سعی میکنم خلاصهای از صحبتش رو اینجا بذارم.
فعلا، خیلی خلاصه بگم که، ماجرای این سخنرانی برمیگرده به دهه 2014 تا 2024 در Sequence to sequence learning که با کار ایلیا و همکارانش در گوگل در سال 2014 با مقاله زیر آغاز شده:
@pytorch_howsam
Sequence to sequence learning with neural networks: what a decade
لینک ویدئوی سخنرانی (حدودا 25 دقیقه)
خودم هم درحال دیدن ویدئو هستم. منتها چون وقتم کم هست، مجبورم تکه تکه ببینم! تموم شد، سعی میکنم خلاصهای از صحبتش رو اینجا بذارم.
فعلا، خیلی خلاصه بگم که، ماجرای این سخنرانی برمیگرده به دهه 2014 تا 2024 در Sequence to sequence learning که با کار ایلیا و همکارانش در گوگل در سال 2014 با مقاله زیر آغاز شده:
Sequence to Sequence Learning with Neural Networks link
@pytorch_howsam
یک مدتی هست سایتی بنام aman.ai رو کشف کردم؛ حجم محتواهای آموزشی این سایت به شکل عجیبی زیاده! پر از بلاگ پست از سطح مقدماتی تا سطح بالا هست. حتی، کورسهای معروف استنفورد و کورسرا رو نتبرداری کردن! دوست دارم بیشتر بررسیش کنم.
شخصا وبلاگ و تولید محتوا رو دوست دارم و براش زیاد وقت میذارم. اما الان سوالم این هست که اینها چطوری این حجم محتوا رو آماده کردن؟! 🧐
شما فقط به لیست مطالبی که برای LLM آوردن، نگاه کن:
Primers • Overview of Large Language Models
@pytorch_howsam
شخصا وبلاگ و تولید محتوا رو دوست دارم و براش زیاد وقت میذارم. اما الان سوالم این هست که اینها چطوری این حجم محتوا رو آماده کردن؟! 🧐
شما فقط به لیست مطالبی که برای LLM آوردن، نگاه کن:
Primers • Overview of Large Language Models
توجه: برای شروع LLM روی این آموزش سرمایهگذاری نکنید. هم از مطالبی که در صفحه بالا گفتن و هم عنوانش مشخص هست که برای افراد از آب و گل دراومده هست!
@pytorch_howsam
aman.ai
Aman's AI Journal • Primers • Overview of Large Language Models
Aman's AI Journal | Course notes and learning material for Artificial Intelligence and Deep Learning Stanford classes.
This media is not supported in your browser
VIEW IN TELEGRAM
کگل و کولب!
به روشی که در ویدئوی بالا گفته شده، میتونید نوتبوک کگل رو در کولب باز کنید. عالی!🤌
@pytorch_howsam
به روشی که در ویدئوی بالا گفته شده، میتونید نوتبوک کگل رو در کولب باز کنید. عالی!
@pytorch_howsam
Please open Telegram to view this post
VIEW IN TELEGRAM
دو خبر جالب!
گوگل، لیستی شامل 321 نمونه واقعی استفاده از Gen AI در شرکتها و سازمانها رو منتشر کرده. لینک
مدل DeepSeek-V3 از لحاظ دقت و سرعت موردتوجه قرار گرفته. مشابه با ChatGPT میشه از این سرویس هم استفاده کرد. سرعت تولید متنش جالب توجه هست! ثبتنام بدون دردسری داره. لینک
@pytorch_howsam
گوگل، لیستی شامل 321 نمونه واقعی استفاده از Gen AI در شرکتها و سازمانها رو منتشر کرده. لینک
مدل DeepSeek-V3 از لحاظ دقت و سرعت موردتوجه قرار گرفته. مشابه با ChatGPT میشه از این سرویس هم استفاده کرد. سرعت تولید متنش جالب توجه هست! ثبتنام بدون دردسری داره. لینک
@pytorch_howsam
سایت Prompt Engineering Guide مطالب آموزشی خوب و منظمی داره. محدود به rompt Engineering هم نیست.
https://www.promptingguide.ai/
@pytorch_howsam
Motivated by the high interest in developing with LLMs, we have created this new prompt engineering guide that contains all the latest papers, advanced prompting techniques, learning guides, model-specific prompting guides, lectures, references, new LLM capabilities, and tools related to prompt engineering.
https://www.promptingguide.ai/
@pytorch_howsam
www.promptingguide.ai
Prompt Engineering Guide | Prompt Engineering Guide
A Comprehensive Overview of Prompt Engineering
بریدهای از کتاب Hands-on LLMs!
در فصل 6 کتاب، درباره مهندسی پرامپت (Prompt Engineering) صحبت شده. در یکی از بخشهای این فصل درباره استدلال یا Reasoning در مدلهای مولد توضیح داده شده. در ادامه، خلاصه این بخش رو آوردم...
کتاب، قبل از اینکه درباره استدلال در مدلهای مولد صحبت کنه، به استدلال در انسان اشاره میکنه. گریزی به کتاب معروف Thikning, Fast and Slow اثر Daniel Kahneman میزنه. این کتاب درباره روشهای فکر کردن انسانهاست و ارتباطی به هوش مصنوعی نداره. این کتاب میگه، به طور کلی، روشهای فکر کردن ما به دو دسته تقسیم میشن: سیستم ۱ و سیستم ۲؛ سیستم ۱ خودکار و سریع هست؛ مثل وقتی که یک چیزی رو سریع حدس میزنی یا احساسی تصمیم میگیری. این سیستم شبیه مدلهای مولد هست که بدون فکر کردن، خروجی تولید میکنن. از طرف دیگه، سیستم ۲، آهستهتر و منطقیتر هست؛ مثلا، وقتی که با دقت فکر میکنی یا یک مساله پیچیده ریاضی حل میکنی. حالا، در LLM تلاش میشه که سیستم 2 پیادهسازی بشه تا مدل قبل از پاسخ دادن، فکر کنه.
کتاب دو روش استدلال رو معرفی میکنه:
1. زنجیره تفکر (Chain-of-Tought)
2. درخت تفکر (Tree-of-Tought)
1. روش Chain-of-Tought:
به جای اینکه مدل مستقیم و سریع پاسخ رو تولید کنه، مراحل فکری رسیدن رو هم نشون میده. مثلا، وقتی یک سوال حل مسئله ریاضی بهش داده میشه، اول فرآیند فکر کردن رو مرحله به مرحله توضیح میده و بعد به جواب نهایی میرسه. این کار باعث میشه مدلها در حل مسائل پیچیده بهتر عمل کنن. این تکنیک شبیه روشی هست که آدمها موقع فکر کردن استفاده میکنن؛ یعنی، اول استدلال و بعد نتیجهکیری.
2. روش Tree-of-Thought:
روش پیشرفتهتری نسبت به Chain-of-Thought هست. توی این روش، به جای اینکه مدل فقط یک مسیر خطی از فکر کردن رو دنبال کنه، چندین مسیر فکری مختلف رو بررسی میکنه؛ مثل یک درخت که شاخههای مختلف داره. هر شاخه نماینده یک راهحل یا یک استدلال متفاوت هست. مدل این شاخهها رو ارزیابی میکنه و بهترینشون رو انتخاب میکنه تا به جواب بهتری برسه. تصویر پیوستی مربوط به همین روش استدلال درختی هست.
کتاب Hands-on LLMs رو قبلا اینجا معرفی کردم. کتاب خوبی هست. خودم هم به تازگی مطالعه این کتاب رو تموم کردم.
@pytorch_howsam
در فصل 6 کتاب، درباره مهندسی پرامپت (Prompt Engineering) صحبت شده. در یکی از بخشهای این فصل درباره استدلال یا Reasoning در مدلهای مولد توضیح داده شده. در ادامه، خلاصه این بخش رو آوردم...
کتاب، قبل از اینکه درباره استدلال در مدلهای مولد صحبت کنه، به استدلال در انسان اشاره میکنه. گریزی به کتاب معروف Thikning, Fast and Slow اثر Daniel Kahneman میزنه. این کتاب درباره روشهای فکر کردن انسانهاست و ارتباطی به هوش مصنوعی نداره. این کتاب میگه، به طور کلی، روشهای فکر کردن ما به دو دسته تقسیم میشن: سیستم ۱ و سیستم ۲؛ سیستم ۱ خودکار و سریع هست؛ مثل وقتی که یک چیزی رو سریع حدس میزنی یا احساسی تصمیم میگیری. این سیستم شبیه مدلهای مولد هست که بدون فکر کردن، خروجی تولید میکنن. از طرف دیگه، سیستم ۲، آهستهتر و منطقیتر هست؛ مثلا، وقتی که با دقت فکر میکنی یا یک مساله پیچیده ریاضی حل میکنی. حالا، در LLM تلاش میشه که سیستم 2 پیادهسازی بشه تا مدل قبل از پاسخ دادن، فکر کنه.
کتاب دو روش استدلال رو معرفی میکنه:
1. زنجیره تفکر (Chain-of-Tought)
2. درخت تفکر (Tree-of-Tought)
1. روش Chain-of-Tought:
به جای اینکه مدل مستقیم و سریع پاسخ رو تولید کنه، مراحل فکری رسیدن رو هم نشون میده. مثلا، وقتی یک سوال حل مسئله ریاضی بهش داده میشه، اول فرآیند فکر کردن رو مرحله به مرحله توضیح میده و بعد به جواب نهایی میرسه. این کار باعث میشه مدلها در حل مسائل پیچیده بهتر عمل کنن. این تکنیک شبیه روشی هست که آدمها موقع فکر کردن استفاده میکنن؛ یعنی، اول استدلال و بعد نتیجهکیری.
2. روش Tree-of-Thought:
روش پیشرفتهتری نسبت به Chain-of-Thought هست. توی این روش، به جای اینکه مدل فقط یک مسیر خطی از فکر کردن رو دنبال کنه، چندین مسیر فکری مختلف رو بررسی میکنه؛ مثل یک درخت که شاخههای مختلف داره. هر شاخه نماینده یک راهحل یا یک استدلال متفاوت هست. مدل این شاخهها رو ارزیابی میکنه و بهترینشون رو انتخاب میکنه تا به جواب بهتری برسه. تصویر پیوستی مربوط به همین روش استدلال درختی هست.
کتاب Hands-on LLMs رو قبلا اینجا معرفی کردم. کتاب خوبی هست. خودم هم به تازگی مطالعه این کتاب رو تموم کردم.
@pytorch_howsam
سباستین راشکا یک وبلاگ درباره مقالات تحقیقاتی برجسته در سال 2024 نوشته. اولش گفته که انقدر حجم کارهای تحقیقاتی ارزشمند سال 2024 زیاد هست که باید کتاب نوشت! به همین خاطر، تصمیم گرفته، هر ماه از سال 2024 رو به یک کار ارزشمند اختصاص بده. فعلا، شش ماه اول سال 2024 رو نوشته. اگه خواستید، میتونید از لینک زیر مطالعه کنید.
Noteworthy AI Research Papers of 2024 (Part One)
ماه قبل، راشکا گفت که تصادف کرده و آسیب دیده. یک مدتی نمیتونست پشت میز بشینه و کار کنه. توی این پست گفت که حالش بهتره. امیدوارم به خوبی ریکاوری کنه.
من هم تصمیم گرفتم که کار مربوط به هر ماه رو بهصورت خلاصه اینجا بنویسم. توی این پست درباره کار ماه ژانویه نوشتم.
1. ژانویه: روش Mixture of Experts مدل Mixtral
تنها چند روز پس از شروع ژانویه 2024، تیم Mistral AI مقاله Mixtral of Experts یا MoE را (در تاریخ 8 ژانویه 2024) منتشر کرد. آنها در این مقاله، مدل Mixtral 8x7B را معرفی کردند.
این مقاله و مدل در زمان خود بسیار تاثیرگذار بود، چون Mixtral 8x7B یکی از اولین مدلهای MoE با وزنهای باز (open-weight) بود که عملکرد چشمگیری داشت و در معیارهای مختلف، Llama 2 70B و GPT-3.5 را پشت سر گذاشته بود.
مدل MoE یا Mixture of Experts چیست؟
یک مدل تجمعی که چندین زیرشبکه کوچک "متخصص" (Expert) را در یک معماری شبیه به GPT ترکیب میکند. میتوان گفت، هر زیرشبکه مسئول انجام یکسری تسک خاص و متفاوت هست. استفاده از چندین زیرشبکه کوچک به جای یک شبکه بزرگ باعث میشود که مدلهای MoE منابع محاسباتی را به صورت بهینهتری استفاده کنند.
ساختار مدل Mixtral 8x7B به چه شکلی هست؟
در شکل بالا ساختار مدل Mixtral 8x7B نشان داده شده است. بهطور خاص، در Mixtral 8x7B، هر ماژول Feed-Forward در معماری ترنسفورمر با 8 لایه متخصص (Expert) جایگزین شده است.
در شکل چهار نکته مهم وجود دارد:
1) معماری مدل شبیه به GPT (مبتنی بر دیکدر) هست.
2) 8 متخصص در ماژول فیدفورارد قرار گرفتهاند.
3) یک ماژول Router وجود دارد که توکنها را به 8 ماژول متخصص فیدفورارد هدایت میکند.
4) خروجی این 8 ماژول متخصص با یکدیگر جمع میشوند.
@pytorch_howsam
Please open Telegram to view this post
VIEW IN TELEGRAM
مجموعه Misguided Attention :
این مجموعهای از پِرامپتها (سوالات یا دستورالعملها) است که برای به چالش کشیدن تواناییهای استدلالی مدلهای زبانی بزرگ (LLMs) در حضور اطلاعات گمراهکننده طراحی شدهاند. این پرامپتها تغییرات کوچکی در آزمونهای فکری، معماها یا پارادوکسهای شناختهشده (که به آنها "سوالات پیچیده" نیز گفته میشود) ایجاد میکنند.
رفتار مورد انتظار این است که مدلهای زبانی بزرگ، با استفاده از استدلال منطقی، مشکلات را بهصورت گامبهگام حل کنند. با این حال، بسیاری از مدلها بهدلیل مواجهه مکرر با نسخههای اصلی این مشکلات در دادههای آموزشیشان، بهاشتباه مسئله را تشخیص داده و به جای بررسی جزئیات و حل مسئلهی اصلاحشده، پاسخهایی برای نسخهی اصلی و تغییرنیافتهی مسئله ارائه میدهند. در برخی موارد نیز ممکن است رشتههایی از استدلالهای متناقض مشاهده شود که در یک متن بهطور متناوب ظاهر میشوند.
گیت هاب
این مجموعهای از پِرامپتها (سوالات یا دستورالعملها) است که برای به چالش کشیدن تواناییهای استدلالی مدلهای زبانی بزرگ (LLMs) در حضور اطلاعات گمراهکننده طراحی شدهاند. این پرامپتها تغییرات کوچکی در آزمونهای فکری، معماها یا پارادوکسهای شناختهشده (که به آنها "سوالات پیچیده" نیز گفته میشود) ایجاد میکنند.
رفتار مورد انتظار این است که مدلهای زبانی بزرگ، با استفاده از استدلال منطقی، مشکلات را بهصورت گامبهگام حل کنند. با این حال، بسیاری از مدلها بهدلیل مواجهه مکرر با نسخههای اصلی این مشکلات در دادههای آموزشیشان، بهاشتباه مسئله را تشخیص داده و به جای بررسی جزئیات و حل مسئلهی اصلاحشده، پاسخهایی برای نسخهی اصلی و تغییرنیافتهی مسئله ارائه میدهند. در برخی موارد نیز ممکن است رشتههایی از استدلالهای متناقض مشاهده شود که در یک متن بهطور متناوب ظاهر میشوند.
گیت هاب
PyTorch Howsam
قبلا، چند تا کتاب درباره LLM معرفی کرده بودم. توی دو ماه گذشته مشغول مطالعه دو کتاب زیر بودم: کتاب درباره Build a Large Language Model از Sebastian Raschka کتاب Hands-on LLMs از آقای Jay Alammar احتمالا یک نقد و بررسی از اون دو کتاب مینویسم. فعلا، در این…
خب، از بین این کتابهای کاندیدا (پیام ریپلایشده)، هیچ کدوم رو انتخاب نکردم! 🙃 نه اینکه کتاب خوبی نباشن، بلکه تصمیم گرفتم کتاب جدید تمرکز بیشتری روی بعد علمی داشته باشه، نه عملی و پروداکشن. خلاصه اینکه، یک کتاب خوب بنام Transformers in Action پیدا کردم!
این کتاب، تسکها و معماریهای مختلفی رو پوشش داده که همین فاکتور باعث شد برای مطالعه انتخابش کنم. مثلا، برای هر یک از تسکهای زیر یک فصل جداگانه درنظر گرفته:
Text Summarization
Machine Translation
Text Classification
Text Generation
Multimodal Models
توی هرکدوم از فصلهای بالا، مدلهای معروف رو تشریح کرده. مثلا در فصل Text Generation، مدلهای زیر رو معرفی کرده:
GPT-1 to GPT-3
InstructGPT
GPT-NeoX-20B
Llama
RedPajama
Alpaca
Dolly
Falcon
مطمئن نبودم که کتاب خوبی باشه. تصمیم گرفتم، قبل معرفی در این کانال، کمی مطالعه رو جلو ببرم و ارزیابیش کنم. الان، اواسط فصل سوم این کتاب (Text Summarization) هستم. دیگه به این جمعبندی رسیدم که کتاب خیلی خوبی هست.
لینک کتاب در Manning
@pytorch_howsam
این کتاب، تسکها و معماریهای مختلفی رو پوشش داده که همین فاکتور باعث شد برای مطالعه انتخابش کنم. مثلا، برای هر یک از تسکهای زیر یک فصل جداگانه درنظر گرفته:
Text Summarization
Machine Translation
Text Classification
Text Generation
Multimodal Models
توی هرکدوم از فصلهای بالا، مدلهای معروف رو تشریح کرده. مثلا در فصل Text Generation، مدلهای زیر رو معرفی کرده:
GPT-1 to GPT-3
InstructGPT
GPT-NeoX-20B
Llama
RedPajama
Alpaca
Dolly
Falcon
مطمئن نبودم که کتاب خوبی باشه. تصمیم گرفتم، قبل معرفی در این کانال، کمی مطالعه رو جلو ببرم و ارزیابیش کنم. الان، اواسط فصل سوم این کتاب (Text Summarization) هستم. دیگه به این جمعبندی رسیدم که کتاب خیلی خوبی هست.
لینک کتاب در Manning
@pytorch_howsam
Please open Telegram to view this post
VIEW IN TELEGRAM
PyTorch Howsam
خب، از بین این کتابهای کاندیدا (پیام ریپلایشده)، هیچ کدوم رو انتخاب نکردم! 🙃 نه اینکه کتاب خوبی نباشن، بلکه تصمیم گرفتم کتاب جدید تمرکز بیشتری روی بعد علمی داشته باشه، نه عملی و پروداکشن. خلاصه اینکه، یک کتاب خوب بنام Transformers in Action پیدا کردم! این…
بریدهای از فصل سوم کتاب Transformers in Action ✂️
موضوع فصل سوم، خلاصهسازی متن یا Text Summarization هست. کتاب میگه، دو نوع خلاصهسازی داریم:
1. Extractive Summarization
2. Abstractive Summarization
در ادامه، با مثال زیر، تفاوت بین این دو نوع رو توضیح میدم:
در حالت Extractive Summarization، جملات مهم از متن اصلی برداشته میشن، بدون اینکه تغییری توشون داده بشه. یعنی دقیقا همون جملات متن اصلی رو میاره. در متن زیر، مستقیم جملات مهم از متن اصلی برداشته شده، بدون هیچ تغییری:
روشهای مبتنی بر Abstractive Summarization، معنای متن درک میکنن و با جملهبندی خودشون، خلاصهای تولید میکنن که ممکنه توی متن اصلی نباشه. در جمله زیر، با خلاصه کردن و جملهبندی جدید، مفهوم اصلی بیان شده، ولی جملهها دقیقاً از مثال بالا نیست:
کتاب، تعدادی از روشهای معروف از هر دو دسته رو معرفی میکنه؛ روشهای مبتنی بر شبکههای ترنسفورمری معمولا در دسته Abstractive Summarization قرار میگیرن. این مدلها به دلیل توانایی بالاشون در درک معنای متن و تولید جملات جدید، برای این نوع خلاصهسازی خیلی مناسب هستن.
کتاب میگه که اگرچه روشهای Decoder-only مثل GPT هم میتونن خلاصهسازی متن انجام بدن، اما روشهای مبتنی بر Encoder-Decoder یا Text-to-Text عملکرد بهتری دارن. چند نمونه از روشهای Encoder-Decoder که در این فصل توضیح داده شده:
BART
T5
Pegasus
LongFormer
BigBird
بد نیست به این پست هم نگاهی بندازید: درخت تکامل LLM-ها
@pytorch_howsam
موضوع فصل سوم، خلاصهسازی متن یا Text Summarization هست. کتاب میگه، دو نوع خلاصهسازی داریم:
1. Extractive Summarization
2. Abstractive Summarization
در ادامه، با مثال زیر، تفاوت بین این دو نوع رو توضیح میدم:
شب گذشته بارش باران در تهران باعث کاهش آلودگی هوا شد. با این حال، خیابانها به دلیل آبگرفتگی دچار ترافیک سنگین شدند. این شرایط تا صبح ادامه داشت و باعث تأخیر در رفتوآمد مردم شد.
در حالت Extractive Summarization، جملات مهم از متن اصلی برداشته میشن، بدون اینکه تغییری توشون داده بشه. یعنی دقیقا همون جملات متن اصلی رو میاره. در متن زیر، مستقیم جملات مهم از متن اصلی برداشته شده، بدون هیچ تغییری:
شب گذشته بارش باران در تهران باعث کاهش آلودگی هوا شد. خیابانها به دلیل آبگرفتگی دچار ترافیک سنگین شدند.
روشهای مبتنی بر Abstractive Summarization، معنای متن درک میکنن و با جملهبندی خودشون، خلاصهای تولید میکنن که ممکنه توی متن اصلی نباشه. در جمله زیر، با خلاصه کردن و جملهبندی جدید، مفهوم اصلی بیان شده، ولی جملهها دقیقاً از مثال بالا نیست:
باران شب گذشته در تهران، هم آلودگی هوا را کاهش داد و هم باعث ترافیک و تأخیر در رفتوآمد شد.
کتاب، تعدادی از روشهای معروف از هر دو دسته رو معرفی میکنه؛ روشهای مبتنی بر شبکههای ترنسفورمری معمولا در دسته Abstractive Summarization قرار میگیرن. این مدلها به دلیل توانایی بالاشون در درک معنای متن و تولید جملات جدید، برای این نوع خلاصهسازی خیلی مناسب هستن.
کتاب میگه که اگرچه روشهای Decoder-only مثل GPT هم میتونن خلاصهسازی متن انجام بدن، اما روشهای مبتنی بر Encoder-Decoder یا Text-to-Text عملکرد بهتری دارن. چند نمونه از روشهای Encoder-Decoder که در این فصل توضیح داده شده:
BART
T5
Pegasus
LongFormer
BigBird
بد نیست به این پست هم نگاهی بندازید: درخت تکامل LLM-ها
@pytorch_howsam
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
PyTorch Howsam
تصویر بالا، درخت تکامل مدلهای زبانی بزرگ (LLM) رو از سال ۲۰۱۸ تا ۲۰۲۴ نشون میده.
نمودار سه شاخه اصلی داره:
* شاخه قرمز شامل مدلهای Encoder-only مثل BERT هست.
* شاخه سبز شامل مدلهای Encoder-Decoder مثل T5 هست.
* شاخه آبی شامل مدلهای Decoder-only مثل…
نمودار سه شاخه اصلی داره:
* شاخه قرمز شامل مدلهای Encoder-only مثل BERT هست.
* شاخه سبز شامل مدلهای Encoder-Decoder مثل T5 هست.
* شاخه آبی شامل مدلهای Decoder-only مثل…
#انتقادی! 😁
توی لینکدین، پیامی میذارم که من دنبال کار هستم و لطفا حمایتم کنید تا پیامم دیده بشه و کار پیدا کنم. دعوت به مصاحبه میشم و بعدش به خاطر دیدن یکسری نکات منفی (مثلا، ناهماهنگی در جلسه مصاحبه)، از مصاحبه انصراف میدم و بلافاصله میام در همون لینکدین کل ماجرا رو با جزئیات اما بدون ذکر نام شرکت (اخلاقمدارم آخه!) شرح میدم.
دائم در پستهای مختلف، غر میزنم؛ امروز رفتم سوپرمارکت، اسنپ گرفتم، سر کار این رو گفتم و ...
به این و اون هم لگد میزنم؛ دیگه الان هرکسی که از ننه باباش قهر کرده، استارتاپ زده و ...
آیا به عواقب این رفتارها هم فکر کردم؟ مثلا، این امکان وجود داره که سایر شرکتها با دیدن پستهای من در لینکدین از ارتباطگیری با من منصرف بشن؟ احتمالش هست که کانکشنهام رو از دست بدم؟ قرار بود با لینکدین رزومهسازی کنم نه پروندهسازی!
من، هیچ کجای این ماجرا نیستم. یکسری مسائل رایج در لینکدین رو گفتم...
توی لینکدین، پیامی میذارم که من دنبال کار هستم و لطفا حمایتم کنید تا پیامم دیده بشه و کار پیدا کنم. دعوت به مصاحبه میشم و بعدش به خاطر دیدن یکسری نکات منفی (مثلا، ناهماهنگی در جلسه مصاحبه)، از مصاحبه انصراف میدم و بلافاصله میام در همون لینکدین کل ماجرا رو با جزئیات اما بدون ذکر نام شرکت (اخلاقمدارم آخه!) شرح میدم.
دائم در پستهای مختلف، غر میزنم؛ امروز رفتم سوپرمارکت، اسنپ گرفتم، سر کار این رو گفتم و ...
به این و اون هم لگد میزنم؛ دیگه الان هرکسی که از ننه باباش قهر کرده، استارتاپ زده و ...
آیا به عواقب این رفتارها هم فکر کردم؟ مثلا، این امکان وجود داره که سایر شرکتها با دیدن پستهای من در لینکدین از ارتباطگیری با من منصرف بشن؟ احتمالش هست که کانکشنهام رو از دست بدم؟ قرار بود با لینکدین رزومهسازی کنم نه پروندهسازی!
من، هیچ کجای این ماجرا نیستم. یکسری مسائل رایج در لینکدین رو گفتم...
Please open Telegram to view this post
VIEW IN TELEGRAM
PyTorch Howsam
تصویر بالا، درخت تکامل مدلهای زبانی بزرگ (LLM) رو از سال ۲۰۱۸ تا ۲۰۲۴ نشون میده. نمودار سه شاخه اصلی داره: * شاخه قرمز شامل مدلهای Encoder-only مثل BERT هست. * شاخه سبز شامل مدلهای Encoder-Decoder مثل T5 هست. * شاخه آبی شامل مدلهای Decoder-only مثل…
#خبر
مدل phi-4 منتشر شده. نتایج مدل 14 بیلیونی قابل توجه هست و تنه به تنه بزرگان میزنه! مثلا، در تصویر پیوستی، ستون phi-4 رو با GPT-4o-mini و Llama-3.3 72B مقایسه کنید. لازم به ذکر هست که 14 بیلیونی شبکه بزرگی محسوب نمیشه. البته، SLM هم نیست. اگه میخواید باهاش چت کنید، میتونید از این لینک اقدام کنید.
من، پرامپت "یک پارگراف درباره ImageNet بنویس." رو به چند مدل دادم که در ادامه میتونید جوابهاشون رو مقایسه کنید. برای هرکدوم یک اموجی گذاشتم که رای بدید!🤓
جواب phi-4: 👍
جواب Gemini 2.0 Flash Experimental: 👎
جواب DeepSeek: ❤️
جواب ChatGPT: 🔥
مدل phi-4 منتشر شده. نتایج مدل 14 بیلیونی قابل توجه هست و تنه به تنه بزرگان میزنه! مثلا، در تصویر پیوستی، ستون phi-4 رو با GPT-4o-mini و Llama-3.3 72B مقایسه کنید. لازم به ذکر هست که 14 بیلیونی شبکه بزرگی محسوب نمیشه. البته، SLM هم نیست. اگه میخواید باهاش چت کنید، میتونید از این لینک اقدام کنید.
من، پرامپت "یک پارگراف درباره ImageNet بنویس." رو به چند مدل دادم که در ادامه میتونید جوابهاشون رو مقایسه کنید. برای هرکدوم یک اموجی گذاشتم که رای بدید!
جواب phi-4: 👍
یک مجموعه داده وسیع و متنوع از تصاویر است که برای پیشرفت در زمینه تشخیص و تصنیف چندبرچسب تصاویر نقش مهمی ایفا کرده است. این مجموعه به طور کلی شامل ۱۴۰۰ هزار تصویر است که در ۲۰۰۰ رده مختلف درجهبندی شدهاند، تقریباً ۴۰۰ هزار رده جزئی دارند. ImageNet به طور منظم برای مسابقات معروف مانند ImageNet Large Scale Visual Recognition Challenge (ILSVRC) استفاده میشود که در آن مدلهای یادگیری ماشین و خوشهبندی عمیق برای تشخیص و کلاسبندی تصاویر مورد ارزیابی قرار میگیرند. این مجموعه داده نقش محوری در پیشرفت فناوریهایی مانند شبکههای عصبی عمیق (DNN) و توسعه مدلهای برتر مانند AlexNet، VGG، ResNet و GoogLeNet داشته است. اهمیت و گستردگی ImageNet به ایجاد پایهای قوی برای تحقیقات و توسعه در زمینه بینشهای ویژگی و یادگیری تصویری کمک کرده است.
جواب Gemini 2.0 Flash Experimental: 👎
ایمیجنت (ImageNet) یک پایگاه داده بزرگ از تصاویر است که برای تحقیقات در زمینه تشخیص اشیاء در بینایی رایانهای مورد استفاده قرار میگیرد. این پروژه توسط فی لیفی و همکارانش در دانشگاه استنفورد در سال ۲۰۰۹ آغاز شد. ایمیجنت شامل بیش از ۱۴ میلیون تصویر است که به دستههای مختلفی بر اساس سلسلهمراتب WordNet دستهبندی شدهاند. هر گره در سلسلهمراتب WordNet معادل یک «اسم» است و برای هر اسم، صدها و هزاران تصویر مرتبط وجود دارد. این پایگاه داده نقش بسیار مهمی در پیشرفت الگوریتمهای یادگیری عمیق، به ویژه شبکههای عصبی پیچشی (CNN) داشته است و به عنوان یک معیار استاندارد برای ارزیابی عملکرد مدلهای تشخیص تصویر مورد استفاده قرار میگیرد. چالش بزرگ ایمیجنت (ILSVRC) که از سال ۲۰۱۰ تا ۲۰۱۷ برگزار میشد، به محققان کمک کرد تا مدلهای قدرتمندتری برای تشخیص و دستهبندی تصاویر توسعه دهند.
جواب DeepSeek: ❤️
یک پایگاه داده بزرگ و معتبر از تصاویر برچسبگذاری شده است که در حوزه بینایی ماشین و یادگیری عمیق از اهمیت بالایی برخوردار است. این مجموعه شامل بیش از ۱۴ میلیون تصویر است که در بیش از ۲۰ هزار دسته مختلف سازماندهی شدهاند. ImageNet نقش کلیدی در پیشرفت مدلهای تشخیص تصویر و بینایی کامپیوتری ایفا کرده است، بهویژه با معرفی چالش سالانه ImageNet Large Scale Visual Recognition Challenge (ILSVRC)، که در آن مدلهای مختلف برای دستهبندی و تشخیص اشیاء در تصاویر به رقابت میپردازند. موفقیت مدلهای عمیق مانند AlexNet در این چالش، نقطه عطفی در گسترش و پذیرش شبکههای عصبی عمیق بود. امروزه ImageNet به عنوان یک منبع استاندارد برای آموزش و ارزیابی مدلهای بینایی ماشین استفاده میشود.
جواب ChatGPT: 🔥
یک دیتاست بزرگ و متنوع برای آموزش و ارزیابی مدلهای یادگیری ماشین و بینایی کامپیوتر است که شامل بیش از 14 میلیون تصویر برچسبگذاریشده در هزاران دستهبندی مختلف است. این دیتاست که در سال 2009 معرفی شد، بهعنوان مبنای رقابت معروف ImageNet Large Scale Visual Recognition Challenge (ILSVRC) مورد استفاده قرار گرفت و نقش مهمی در پیشرفت معماریهای شبکههای عصبی مانند AlexNet، VGG، ResNet و دیگر مدلهای پیشرفته داشته است. موفقیت مدلها در ImageNet بهعنوان یکی از معیارهای مهم در ارزیابی توانایی آنها در تشخیص اشیا و طبقهبندی تصاویر شناخته میشود.
Please open Telegram to view this post
VIEW IN TELEGRAM
PyTorch Howsam
بریم برای ماه دوم؟
2. فوریه: روش فاین-تیونینگ DoRA
اگه تجربه فاین-تیون کردن مدلهای زبانی بزرگ (LLM) رو داشته باشید، احتمالاً با LoRA آشنا هستید. LoRA مخفف عبارت Low-Rank Adaptation هست. این تکنیک به شما امکان میده که یک LLM رو فقط با حجم کمی از پارامترهای قابل آموزش، فاین-تیون کنید. DoRA هم توسعهیافته همین LoRA هست که در فوریه 2024 ارائه شده و راشکا اون رو به عنوان مقاله ماه انتخاب کرده.
سباستین راشکا میگه:
یادآوری: قبلا یک مقاله از متا با عنوان MobileLLM در این کانال معرفی کرده بودم که میگفتن چقدر از سختافزار یک موبایل رو میشه برای LLM استفاده کرد و چه محدودیتهایی وجود داره. همچنین، یک وبلاگ جامع درباره همین MobileLLM نوشتم.
یک متنی درباره LoRA و DoRA نوشتم، ولی طولانی بود. تصمیم گرفتم، اینجا نذارم و توی وبلاگ منتشر کنیم.🫰
2. فوریه: روش فاین-تیونینگ DoRA
اگه تجربه فاین-تیون کردن مدلهای زبانی بزرگ (LLM) رو داشته باشید، احتمالاً با LoRA آشنا هستید. LoRA مخفف عبارت Low-Rank Adaptation هست. این تکنیک به شما امکان میده که یک LLM رو فقط با حجم کمی از پارامترهای قابل آموزش، فاین-تیون کنید. DoRA هم توسعهیافته همین LoRA هست که در فوریه 2024 ارائه شده و راشکا اون رو به عنوان مقاله ماه انتخاب کرده.
سباستین راشکا میگه:
به طور کلی، انتظار دارم که LoRA و روشهای مشابه همچنان محبوب باقی بمونن. به عنوان مثال، اپل اخیرا در مقالهاش با عنوان Apple Intelligence Foundation Language Models اشاره کرده که از LoRA برای فاین-تیون LLM-هاشون روی دستگاههای خودشون استفاده میکنن. این کار به اونها اجازه میده که مدلها رو برای وظایف خاص، بهینهسازی کنن و در عین حال منابع محاسباتی محدود دستگاههای همراه رو هم در نظر بگیرن.
یادآوری: قبلا یک مقاله از متا با عنوان MobileLLM در این کانال معرفی کرده بودم که میگفتن چقدر از سختافزار یک موبایل رو میشه برای LLM استفاده کرد و چه محدودیتهایی وجود داره. همچنین، یک وبلاگ جامع درباره همین MobileLLM نوشتم.
یک متنی درباره LoRA و DoRA نوشتم، ولی طولانی بود. تصمیم گرفتم، اینجا نذارم و توی وبلاگ منتشر کنیم.
Please open Telegram to view this post
VIEW IN TELEGRAM
گفتوگوی لکس فریدمن و آندری کارپاتی درباره بهرهوری، تمرکز و تعادل کار و زندگی
این گفتوگو نکات جالبی برای من داشت. اول، خلاصه گفتوگو رو آوردم، بعدش مکالمه با جزئیاتش رو در ادامه گذاشتم. لینک گفتوگو در یوتوب
خلاصه گفتوگو:
برای کاری که میخواد انجام بده، دوست داره رَم مغزش رو با اون کار پر کنه! نسبت بهش وسواس داشته باشه و عمیقا باهاش درگیر بشه (مثلا، حین دوش گرفتن، خوابیدن و غیره هم بهش فکر کنه). نمیتونه به یک روز کاری فکر کنه؛ بلکه، برای عملکرد خوب در یک کار، باید یک بازه زمانی چندروزه درنظر بگیره. دورههای فشرده کوتاه کاری داره؛ مثلا، در یک بازه زمانی چندروزه، بهصورت فشرده روی یک چالشی کار میکنه. این چالش میتونه ماهی یک بار اتفاق بیفته.
گفتوگوی با جزئیات در پست بعدی...
.
این گفتوگو نکات جالبی برای من داشت. اول، خلاصه گفتوگو رو آوردم، بعدش مکالمه با جزئیاتش رو در ادامه گذاشتم. لینک گفتوگو در یوتوب
خلاصه گفتوگو:
برای کاری که میخواد انجام بده، دوست داره رَم مغزش رو با اون کار پر کنه! نسبت بهش وسواس داشته باشه و عمیقا باهاش درگیر بشه (مثلا، حین دوش گرفتن، خوابیدن و غیره هم بهش فکر کنه). نمیتونه به یک روز کاری فکر کنه؛ بلکه، برای عملکرد خوب در یک کار، باید یک بازه زمانی چندروزه درنظر بگیره. دورههای فشرده کوتاه کاری داره؛ مثلا، در یک بازه زمانی چندروزه، بهصورت فشرده روی یک چالشی کار میکنه. این چالش میتونه ماهی یک بار اتفاق بیفته.
گفتوگوی با جزئیات در پست بعدی...
.
YouTube
Day in the life of Andrej Karpathy | Lex Fridman Podcast Clips
Lex Fridman Podcast full episode: https://www.youtube.com/watch?v=cdiD-9MMpb0
Please support this podcast by checking out our sponsors:
- Eight Sleep: https://www.eightsleep.com/lex to get special savings
- BetterHelp: https://betterhelp.com/lex to get 10%…
Please support this podcast by checking out our sponsors:
- Eight Sleep: https://www.eightsleep.com/lex to get special savings
- BetterHelp: https://betterhelp.com/lex to get 10%…