SEYED_BAX Telegram 9870
اجرای مدل‌ های بزرگی مثل DeepSeek-R1 با ۶۷۱ میلیارد پارامتر بر روی سخت‌افزارهای معمولی تقریبا غیر ممکنه. 

برای اجرای چنین مدل‌ هایی معمولا از نسخه‌های فشرده‌ شده استفاده میشه که به دلیل کاهش بیش از ۹۰ درصدی پارامترها، نمی‌تونیم به عملکرد واقعی مدل‌ های اصلی دست پیدا کنیم. 

اما با رویکرد جدید، تیم KVCache.AI
 اجرای این مدل زبانی بزرگ روی کارت گرافیک‌ هایی با حافظه ۲۴ گیگابایت مثل 4090 امکان‌ پذیر شده.

این تیم با بهره گیری از محاسبات ناهمگن یا heterogeneous computing (تقسیم کار بین GPU و CPU)، به جای اینکه همه‌ پردازش‌ روی کارت گرافیک انجام شه، بخش‌ هایی از محاسبات رو روی CPU انجام میده.

براساس توضیحات درج شده در گزارش بخش‌ هایی از مدل که کمتر استفاده میشن (یعنی بخش‌های پراکنده MoE) روی حافظه رم (DRAM) و CPU قرار میگیرن و با استفاده از ابزار llamafile پردازش میشن.  

بخش‌های اصلی و پرکاربرد مدل روی کارت گرافیک (GPU) قرار میگیرن و با Marlin(فریم ورک بهینه‌ شده Nvidia برای پردازش‌ های هوش مصنوعی روی GPU) پردازش میشن.

به لطف این روش و استفاده از کوانتیزاسیون ۴ بیتی، مقدار حافظه‌ لازم برای اجرای مدل روی GPU فقط ۲۴ گیگابایته. یعنی این مدل حتی روی یک کارت گرافیک RTX 4090 هم به راحتی اجراست.

https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md

@SEYED_BAX | @cvision
Please open Telegram to view this post
VIEW IN TELEGRAM



tgoop.com/SEYED_BAX/9870
Create:
Last Update:

اجرای مدل‌ های بزرگی مثل DeepSeek-R1 با ۶۷۱ میلیارد پارامتر بر روی سخت‌افزارهای معمولی تقریبا غیر ممکنه. 

برای اجرای چنین مدل‌ هایی معمولا از نسخه‌های فشرده‌ شده استفاده میشه که به دلیل کاهش بیش از ۹۰ درصدی پارامترها، نمی‌تونیم به عملکرد واقعی مدل‌ های اصلی دست پیدا کنیم. 

اما با رویکرد جدید، تیم KVCache.AI
 اجرای این مدل زبانی بزرگ روی کارت گرافیک‌ هایی با حافظه ۲۴ گیگابایت مثل 4090 امکان‌ پذیر شده.

این تیم با بهره گیری از محاسبات ناهمگن یا heterogeneous computing (تقسیم کار بین GPU و CPU)، به جای اینکه همه‌ پردازش‌ روی کارت گرافیک انجام شه، بخش‌ هایی از محاسبات رو روی CPU انجام میده.

براساس توضیحات درج شده در گزارش بخش‌ هایی از مدل که کمتر استفاده میشن (یعنی بخش‌های پراکنده MoE) روی حافظه رم (DRAM) و CPU قرار میگیرن و با استفاده از ابزار llamafile پردازش میشن.  

بخش‌های اصلی و پرکاربرد مدل روی کارت گرافیک (GPU) قرار میگیرن و با Marlin(فریم ورک بهینه‌ شده Nvidia برای پردازش‌ های هوش مصنوعی روی GPU) پردازش میشن.

به لطف این روش و استفاده از کوانتیزاسیون ۴ بیتی، مقدار حافظه‌ لازم برای اجرای مدل روی GPU فقط ۲۴ گیگابایته. یعنی این مدل حتی روی یک کارت گرافیک RTX 4090 هم به راحتی اجراست.

https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md

@SEYED_BAX | @cvision

BY سید محمد خشنوا و رفقا / Programming


Share with your friend now:
tgoop.com/SEYED_BAX/9870

View MORE
Open in Telegram


Telegram News

Date: |

While some crypto traders move toward screaming as a coping mechanism, many mental health experts have argued that “scream therapy” is pseudoscience. Scientific research or no, it obviously feels good. The court said the defendant had also incited people to commit public nuisance, with messages calling on them to take part in rallies and demonstrations including at Hong Kong International Airport, to block roads and to paralyse the public transportation system. Various forms of protest promoted on the messaging platform included general strikes, lunchtime protests and silent sit-ins. The imprisonment came as Telegram said it was "surprised" by claims that privacy commissioner Ada Chung Lai-ling is seeking to block the messaging app due to doxxing content targeting police and politicians. How to create a business channel on Telegram? (Tutorial) Add the logo from your device. Adjust the visible area of your image. Congratulations! Now your Telegram channel has a face Click “Save”.!
from us


Telegram سید محمد خشنوا و رفقا / Programming
FROM American