کتابخانه مهندسی کامپیوتر و پایتون@programmers

کتابخانه مهندسی کامپیوتر و پایتون

یکی از دوستانم که اصلاً تو خط تکنولوژی نیست، ازم می‌پرسید ChatGPT چطوری کار می‌کنه. منم سعی کردم یه توضیح ساده و سریع بدم. گفتم اینجا هم بذارمش که بعداً به کار بقیه هم بیاد!
البته جزییات فنی‌ش خیلی بیشتر از اینه، ولی این یه خلاصه TL;DR بود که امیدوارم به دردتون بخوره :))

How LLMs works ?

فرض کن می‌خوایم از صفر شروع کنیم. LLM در اصل یه جور سیستم خیلی پیشرفته‌ست که با متن (و گاهی چیزای دیگه) کار می‌کنه. اول کار، هر متنی که بهش می‌دیم رو به یه زبون عددی تبدیل می‌کنه که خودش بفهمه. به این کار می‌گن tokenization. یعنی متن رو به تکه‌های کوچیک (مثل کلمه یا بخشی از کلمه) تبدیل می‌کنه و به هر تکه یه شماره می‌ده که بهش می‌گن token. مثلاً کلمه "سلام" ممکنه یه token بشه، یا یه کلمه پیچیده‌تر مثل "ناباورانه" بشکنه به "نا" و "باورانه". این کار با الگوریتم‌هایی مثل Byte Pair Encoding (BPE) انجام می‌شه و یه دایره لغات درست می‌کنه که مثلاً تو GPT-4 حدود 100 هزار token داره. حالا متن ما به یه رشته عدد تبدیل شده که مدل می‌تونه باهاش کار کنه.

بعدش می‌رسیم به اصل ماجرا: LLMs از یه neural network به اسم Transformer استفاده می‌کنن. این شبکه یه سری عدد (همون token‌ها) رو می‌گیره و حدس می‌زنه که بعدش چه token‌ای باید بیاد. این حدس زدن بر اساس احتمالاتیه که مدل تو مرحله pre-training یاد گرفته. تو این مرحله، مدل رو با مقدار عظیمی داده (مثلاً 15 تریلیون token از اینترنت) تمرین می‌دن که بتونه الگوهای زبون رو بفهمه. کارش اینه که ببینه تو این داده‌ها، بعد از یه جمله یا یه کلمه، معمولاً چی میاد. اینجوری میلیاردها parameter (وزن‌های داخل شبکه) رو تنظیم می‌کنه تا پیش‌بینی‌هاش دقیق‌تر بشه.

وقتی مدل آموزشش تموم شد، می‌تونی ازش استفاده کنی. به این کار می‌گن inference. یه متن اولیه (مثلاً یه سوال) بهش می‌دی، اون شروع می‌کنه به پیش‌بینی token بعدی، یه نمونه از احتمالات انتخاب می‌کنه، به متن اضافه می‌کنه و همین‌جوری ادامه می‌ده. مثل یه سیستم autocomplete خیلی باهوشه که جمله‌به‌جمله می‌سازه. چون انتخاب token‌ها یه مقدار تصادفیه، هر بار که اجرا می‌کنی ممکنه جواب یه کم فرق کنه.

تا اینجا، این یه base model‌ه، یعنی فقط می‌تونه متنایی شبیه چیزایی که تو اینترنت دیده تولید کنه. ولی برای اینکه واقعاً به‌دردبخور بشه (مثلاً جواب سوال بده)، باید یه مرحله دیگه بره که بهش می‌گن post-training. اینجا دو تا تکنیک اصلی داره:
اولی : Supervised Fine-Tuning (SFT) به مدل یاد می‌دن که چجوری مثل یه دستیار جواب بده، مثلاً با تمرین روی مکالمه‌ها یا سوال‌وجواب‌ها.

دومی : Reinforcement Learning (RL)مدل رو با پاداش دادن به جواب‌های درست (مثلاً تو ریاضی یا کدزنی) بهتر می‌کنن تا بتونه استدلال کنه و مثلاً مسائل رو قدم‌به‌قدم حل کنه.

تا اینجا، تقریبا کل داستان LLMs خلاصه گفتیم: متن رو به token تبدیل می‌کنه، با Transformer پیش‌بینی می‌کنه چی باید بیاد، و با post-training به بلوغ میرسه:))

مدل‌های multimodalهم بدونی بد نیست . اینا همون LLMs‌ن، ولی یه قدم جلوتر. اینجا دیگه فقط با متن کار نمی‌کنن، بلکه با چیزای دیگه مثل عکس، صدا یا حتی ویدئو هم کار می‌کنن. چجوری؟
مثل قبل، همه‌چیز با tokenization شروع می‌شه. ولی حالا فقط متن نیست. مثلاً یه عکس رو به تکه‌های کوچیک (مثل پچ‌های تصویر) تقسیم می‌کنن و بهشون token می‌دن. یا یه فایل صوتی رو به شکل موج صوتی (مثل spectrogram) درمی‌آرن و به token تبدیل می‌کنن.
بعدش، همون Transformer که برای متن بود، این token‌های جدید رو هم می‌فهمه. فرقی نمی‌کنه که token از متن باشه، عکس باشه یا صدا مدل فقط یه رشته token می‌بینه و پیش‌بینی می‌کنه که بعدش چی باید بیاد.
تو مرحله آموزش، مدل رو با داده‌های مخلوط (مثلاً متن + عکس) تمرین می‌دن که بتونه ارتباط بین اینا رو بفهمه. مثلاً یاد می‌گیره که یه عکس رو توصیف کنه یا از یه صدا متن بسازه.
در کل مدل‌های multimodal همون سیستم LLM‌ن، ولی گسترش پیدا کردن که همه‌چیز رو به شکل token ببینن و بتونن بین نوعای مختلف داده (مثل متن و تصویر) ارتباط برقرار کنن.

اگر دوست داشتید عمیق تر راجب این موضوع مطالعه داشته باشید این ویدئو از آقای Andrej Karpathy رو پیشنهاد میکنم :

https://youtu.be/7xTGNNLPyMI?list=TLGGF2qs5wlgDR4zMDA0MjAyNQ

خیلی خوب و کامل توضیح دادن .
منبع

#LLM #AI #Machine_Learning

#یادگیری_ماشین #هوش_مصنوعی

🆔 @programmers_street

YouTube

Deep Dive into LLMs like ChatGPT

This is a general audience deep dive into the Large Language Model (LLM) AI technology that powers ChatGPT and related products. It is covers the full training stack of how the models are developed, along with mental models of how to think about their "psychology"…

❤5👍2

www.tgoop.com/programmers_street/8261

3.27K viewsJul 7 at 12:45

tgoop.com/programmers_street/8261

Create: 2025-07-07
Last Update: 2025-10-22 11:45:36

BY کتابخانه مهندسی کامپیوتر و پایتون

Share with your friend now:
tgoop.com/programmers_street/8261

Telegram News