آموزش LLM و VLM@llm

آموزش LLM و VLM

🧠 فصل 2: پیش‌آموزش مدل‌های زبانی و قوانین مقیاس‌پذیری

تو این فصل می‌فهمیم مدل‌های زبانی چطور آموزش می‌بینن، با چه اهدافی ساخته می‌شن و چه محدودیت‌های محاسباتی دارن. به بحث کوانتیزیشن، قوانین مقیاس‌پذیری و استراتژی‌های چند GPU هم می‌پردازیم.

سرفصل‌های این فصل:

ملاحظات برای انتخاب مدل (Considerations for Model Selection) 

معماری‌های مدل و اهداف پیش‌آموزش (Model architectures and pre-training objectives) 

مدلهای فقط خودرمزگذار (Encoder Only Models) 

مدلهای فقط رمزگشا (Decoder Only Models) 

مدل‌های توالی به توالی (مدلهای رمزگذار-رمزگشا) (Sequence-to-sequence (Encoder-Decoder Models)) 

رابطه اندازه مدل و دقت (How Model Size Affects Accuracy) 

چالش‌های محاسباتی و کوانتیزیشن (Computational challenges & Quantization) 

استراتژی‌های محاسباتی کارآمد با چند پزدازنده گرافیکی - بخش 1 (DDP) (Efficient Multi-GPU Compute Strategies part1 (DDP)) 

استراتژی‌های محاسباتی کارآمد با چند پزدازنده گرافیکی - بخش 2 (FSDP) (Efficient Multi-GPU Compute Strategies part2 (FSDP)) 

قوانین مقیاس‌پذیری و مدل‌های بهینه از نظر محاسباتی (Scaling laws and compute-optimal models) 

قانون Chinchilla و استثناها: نقش اندازه مدل و داده در عملکرد (The Chinchilla Law and Its Exceptions: The Role of Model Size and Data in Performance) 

پیش‌آموزش برای انطباق دامنه (Pre-training for domain adaptation)

#مدل_زبانی_بزرگ

🔥4

www.tgoop.com/llm_huggingface/9

1.24K viewsedited Jul 17 at 12:30

tgoop.com/llm_huggingface/9

Create: 2025-07-17
Last Update: 2025-10-21 00:46:12

ملاحظات برای انتخاب مدل (Considerations for Model Selection) 

معماری‌های مدل و اهداف پیش‌آموزش (Model architectures and pre-training objectives) 

مدلهای فقط خودرمزگذار (Encoder Only Models) 

مدلهای فقط رمزگشا (Decoder Only Models) 

مدل‌های توالی به توالی (مدلهای رمزگذار-رمزگشا) (Sequence-to-sequence (Encoder-Decoder Models)) 

رابطه اندازه مدل و دقت (How Model Size Affects Accuracy) 

چالش‌های محاسباتی و کوانتیزیشن (Computational challenges & Quantization) 

استراتژی‌های محاسباتی کارآمد با چند پزدازنده گرافیکی - بخش 1 (DDP) (Efficient Multi-GPU Compute Strategies part1 (DDP)) 

استراتژی‌های محاسباتی کارآمد با چند پزدازنده گرافیکی - بخش 2 (FSDP) (Efficient Multi-GPU Compute Strategies part2 (FSDP)) 

قوانین مقیاس‌پذیری و مدل‌های بهینه از نظر محاسباتی (Scaling laws and compute-optimal models) 

قانون Chinchilla و استثناها: نقش اندازه مدل و داده در عملکرد (The Chinchilla Law and Its Exceptions: The Role of Model Size and Data in Performance) 

پیش‌آموزش برای انطباق دامنه (Pre-training for domain adaptation)

#مدل_زبانی_بزرگ

BY آموزش LLM و VLM

Share with your friend now:
tgoop.com/llm_huggingface/9

Telegram News

🧠 فصل 2: پیش‌آموزش مدل‌های زبانی و قوانین مقیاس‌پذیری