آموزش سواد سایبری@Cyber

آموزش سواد سایبری

‏از DeepSeek-V3 بگیم که یه مدل با هزینه کم به حساب میاد.
‏یه آزمایشگاه چینی این مدل رو توی ۲ ماه با ۵.۵ میلیون دلار ساخته که میشه مقایسه کرد با آموزش GPT-4o با ۱۰۰ میلیون دلار هزینه.
‏در واقع میشه یه مدل AI اوپن‌سورس ترکیبی و (Mixture-of-Experts یا MoE). یعنی به جای یه مدل بزرگ که همه‌کاره باشه، میان چند تا مدل «تخصصی» کوچیکتر میسازن که با هم کار میکنن.

‏با ۱۴.۸ تریلیون توکن آموزش داده شده، از تکنیک‌های جدیدی مثل Multi-Head Latent Attention (MLA) استفاده کردن.

‏برای توضیح این تکنیک باید به اصل «مفهوم توجه» یا همون Attention توی مدل‌های زبانی نگاه کنیم.
‏در مدل‌های زبانی، «توجه» یه مکانیزمه که به مدل اجازه میده تا روی کلمات مهم‌تر تمرکز کنه و کلمات کم‌اهمیت‌تر رو نادیده بگیره. این بهش کمک میکنه ارتباط کلمات رو بیشتر بفهمه و جواب بهتری بده.

‏حالا MLA میاد با جنبه‌های مختلفی به متن نگاه میکنه و سعی میکنه اهمیت کلمات رو متوجه بشه، مثلا یه بار ممکنه به روابط گرامری نگاه کنه، یه بار به معنی کلمات نگاه کنه و ...
‏خروجی میشه درک بیشتر و مصرف کمتر GPU و منابع محاسباتی.

‏طراحی و آموزش این مدل هم روی چیپ NVIDIA H800 بوده که میشه یه مدل ارزون و محدود از H100 برای بازارهای تحریمی مثل چین.

‏از ویژگی‌هاش توانایی پردازش تا ۱۲۸۰۰۰ توکن در یه ورودی که برای کارهایی مثل بررسی اسناد قانونی و تحقیقات دانشگاهی خیلی خوبه. ین مدل ۶۷۱ میلیارد پارامتر داره، اما گفته میشه فقط ۳۷ میلیاردش برای انجام هر کار فعال میشه.

‏تو آزمون‌های مختلف با مدل‌های دیگه مثل Claude-3.5، GPT-4o، Qwen2.5 و Llama3.1 مقایسه شده و عملکرد خوبی داشته. به خصوص تو ریاضیات و کدنویسی، تو آزمون‌هایی مثل MATH-500 و LiveCodeBench از رقباش بهتر بوده. همچنین تو کارهایی که نیاز به درک متن‌های طولانی داره خیلی خوبه.

www.tgoop.com/Cyber_Literacy/7983

4.6K viewsJan 3 at 04:44

tgoop.com/Cyber_Literacy/7983

Create: 2025-01-03
Last Update: 2025-01-08 08:58:56

BY آموزش سواد سایبری

Share with your friend now:
tgoop.com/Cyber_Literacy/7983

Telegram News

‏از DeepSeek-V3 بگیم که یه مدل با هزینه کم به حساب میاد.