CYBER_LITERACY Telegram 7983
‏از DeepSeek-V3 بگیم که یه مدل با هزینه کم به حساب میاد.
‏یه آزمایشگاه چینی این مدل رو توی ۲ ماه با ۵.۵ میلیون دلار ساخته که میشه مقایسه کرد با آموزش GPT-4o با ۱۰۰ میلیون دلار هزینه.
‏در واقع میشه یه مدل AI اوپن‌سورس ترکیبی و (Mixture-of-Experts یا MoE). یعنی به جای یه مدل بزرگ که همه‌کاره باشه، میان چند تا مدل «تخصصی» کوچیکتر میسازن که با هم کار میکنن.

‏با ۱۴.۸ تریلیون توکن آموزش داده شده، از تکنیک‌های جدیدی مثل Multi-Head Latent Attention (MLA) استفاده کردن.

‏برای توضیح این تکنیک باید به اصل «مفهوم توجه» یا همون Attention توی مدل‌های زبانی نگاه کنیم.
‏در مدل‌های زبانی، «توجه» یه مکانیزمه که به مدل اجازه میده تا روی کلمات مهم‌تر تمرکز کنه و کلمات کم‌اهمیت‌تر رو نادیده بگیره. این بهش کمک میکنه ارتباط کلمات رو بیشتر بفهمه و جواب بهتری بده.

‏حالا MLA میاد با جنبه‌های مختلفی به متن نگاه میکنه و سعی میکنه اهمیت کلمات رو متوجه بشه، مثلا یه بار ممکنه به روابط گرامری نگاه کنه، یه بار به معنی کلمات نگاه کنه و ...
‏خروجی میشه درک بیشتر و مصرف کمتر GPU و منابع محاسباتی.

‏طراحی و آموزش این مدل هم روی چیپ NVIDIA H800 بوده که میشه یه مدل ارزون و محدود از H100 برای بازارهای تحریمی مثل چین.

‏از ویژگی‌هاش توانایی پردازش تا ۱۲۸۰۰۰ توکن در یه ورودی که برای کارهایی مثل بررسی اسناد قانونی و تحقیقات دانشگاهی خیلی خوبه. ین مدل ۶۷۱ میلیارد پارامتر داره، اما گفته میشه فقط ۳۷ میلیاردش برای انجام هر کار فعال میشه.

‏تو آزمون‌های مختلف با مدل‌های دیگه مثل Claude-3.5، GPT-4o، Qwen2.5 و Llama3.1 مقایسه شده و عملکرد خوبی داشته. به خصوص تو ریاضیات و کدنویسی، تو آزمون‌هایی مثل MATH-500 و LiveCodeBench از رقباش بهتر بوده. همچنین تو کارهایی که نیاز به درک متن‌های طولانی داره خیلی خوبه.



tgoop.com/Cyber_Literacy/7983
Create:
Last Update:

‏از DeepSeek-V3 بگیم که یه مدل با هزینه کم به حساب میاد.
‏یه آزمایشگاه چینی این مدل رو توی ۲ ماه با ۵.۵ میلیون دلار ساخته که میشه مقایسه کرد با آموزش GPT-4o با ۱۰۰ میلیون دلار هزینه.
‏در واقع میشه یه مدل AI اوپن‌سورس ترکیبی و (Mixture-of-Experts یا MoE). یعنی به جای یه مدل بزرگ که همه‌کاره باشه، میان چند تا مدل «تخصصی» کوچیکتر میسازن که با هم کار میکنن.

‏با ۱۴.۸ تریلیون توکن آموزش داده شده، از تکنیک‌های جدیدی مثل Multi-Head Latent Attention (MLA) استفاده کردن.

‏برای توضیح این تکنیک باید به اصل «مفهوم توجه» یا همون Attention توی مدل‌های زبانی نگاه کنیم.
‏در مدل‌های زبانی، «توجه» یه مکانیزمه که به مدل اجازه میده تا روی کلمات مهم‌تر تمرکز کنه و کلمات کم‌اهمیت‌تر رو نادیده بگیره. این بهش کمک میکنه ارتباط کلمات رو بیشتر بفهمه و جواب بهتری بده.

‏حالا MLA میاد با جنبه‌های مختلفی به متن نگاه میکنه و سعی میکنه اهمیت کلمات رو متوجه بشه، مثلا یه بار ممکنه به روابط گرامری نگاه کنه، یه بار به معنی کلمات نگاه کنه و ...
‏خروجی میشه درک بیشتر و مصرف کمتر GPU و منابع محاسباتی.

‏طراحی و آموزش این مدل هم روی چیپ NVIDIA H800 بوده که میشه یه مدل ارزون و محدود از H100 برای بازارهای تحریمی مثل چین.

‏از ویژگی‌هاش توانایی پردازش تا ۱۲۸۰۰۰ توکن در یه ورودی که برای کارهایی مثل بررسی اسناد قانونی و تحقیقات دانشگاهی خیلی خوبه. ین مدل ۶۷۱ میلیارد پارامتر داره، اما گفته میشه فقط ۳۷ میلیاردش برای انجام هر کار فعال میشه.

‏تو آزمون‌های مختلف با مدل‌های دیگه مثل Claude-3.5، GPT-4o، Qwen2.5 و Llama3.1 مقایسه شده و عملکرد خوبی داشته. به خصوص تو ریاضیات و کدنویسی، تو آزمون‌هایی مثل MATH-500 و LiveCodeBench از رقباش بهتر بوده. همچنین تو کارهایی که نیاز به درک متن‌های طولانی داره خیلی خوبه.

BY آموزش سواد سایبری


Share with your friend now:
tgoop.com/Cyber_Literacy/7983

View MORE
Open in Telegram


Telegram News

Date: |

Joined by Telegram's representative in Brazil, Alan Campos, Perekopsky noted the platform was unable to cater to some of the TSE requests due to the company's operational setup. But Perekopsky added that these requests could be studied for future implementation. The group also hosted discussions on committing arson, Judge Hui said, including setting roadblocks on fire, hurling petrol bombs at police stations and teaching people to make such weapons. The conversation linked to arson went on for two to three months, Hui said. A vandalised bank during the 2019 protest. File photo: May James/HKFP. How to Create a Private or Public Channel on Telegram? A few years ago, you had to use a special bot to run a poll on Telegram. Now you can easily do that yourself in two clicks. Hit the Menu icon and select “Create Poll.” Write your question and add up to 10 options. Running polls is a powerful strategy for getting feedback from your audience. If you’re considering the possibility of modifying your channel in any way, be sure to ask your subscribers’ opinions first.
from us


Telegram آموزش سواد سایبری
FROM American