Telegram Web
Forwarded from آموزش LLM و VLM
🎉 دوره جدید منتشر شد:
آموزش مدل‌های زبانی-تصویری (VLM): از درک تصویر و ویدیو تا فاین‌تیون پیشرفته
از درک تصویر و ویدیو تا فاین‌تیون پیشرفته 🚀

📚 در 4 فصل:
1️⃣ آشنایی با مدل‌های مولتی‌مدال (CLIP تا SigLIP)
2️⃣ کاربرد VLM در درک تصویر و ویدیو
3️⃣ فاین‌تیون و پروژه‌های تخصصی
4️⃣ آموزش پیشرفته با DPO، GRPO و MPO

🔑 ویژگی‌های کلیدی:
✔️ معرفی روش‌ها و مدل‌های جدید مثل MPO و FASTVLM اپل
✔️ استفاده از HuggingFace و Unsloth
✔️ بیش از 15 کد عملی همراه توضیح کامل

🎁 تخفیف ویژه 70٪ با کد زیر:
COUPON-c4cd3


🔗 تهیه دوره:
https://mktb.me/e3gx/

کانال تلگرامی دوره | کانال تلگرام کلاس‌ویژن | کدهای دوره
اسلایدهای دوره | کوئیزهای دوره | تمرین+پروژه
11👍3
Yolo26 و Edge device

به‌تازگی پیش‌نمایش YOLO26 توسط Ultralytics منتشر شد — و به‌نظر می‌رسه یک نقطه عطف در بینایی real-time باشه...
مدل‌های فعلی معمولاً:
سنگین
وابسته به GPU
سخت برای اجرا روی دستگاه‌های edge


🔑 چی باعث تفاوت YOLO26 میشه؟
1️⃣ End-to-End، بدون NMS → دیگه خبری از Non-Maximum Suppression نیست. پیش‌بینی‌ها مستقیم از شبکه میان.
2️⃣ استقرار ساده‌تر → حذف Distribution Focal Loss (DFL). خروجی راحت به ONNX، TensorRT، CoreML، TFLite و OpenVINO.
3️⃣ بهینه‌ساز MuSGD → ترکیبی از SGD + Muon (الهام‌گرفته از آموزش LLMها). پایدارتر، همگرا سریع‌تر.
4️⃣ تشخیص بهتر اجسام کوچک → با ProgLoss + STAL عملکرد قوی‌تر برای پهپادها، IoT، رباتیک و نظارت.
5️⃣ تا ۴۳٪ سریع‌تر در inference روی CPUها.

📦 یک فریم‌ورک، وظایف متعدد
YOLO26 از Detection، Segmentation، Pose، Classification و Oriented Object Detection (OBB) پشتیبانی می‌کنه.


🏁 جمع‌بندی

پیچیدگی کمتر
قابلیت استقرار بیشتر
سرعت بالاتر روی CPU
الهام‌گرفته از دستاوردهای LLM


🔗https://docs.ultralytics.com/models/yolo26/

#yolo #yolo26 #edge #ultralytics
🔥152👍1
Forwarded from آموزش LLM و VLM
Media is too big
VIEW IN TELEGRAM
🎉 دوره جدید منتشر شد:

آموزش مدل‌های زبانی-تصویری (VLM):
از درک تصویر و ویدیو تا فاین‌تیون پیشرفته 🚀

🎁 تخفیف ویژه 70٪ با کد زیر:
COUPON-c4cd3


🔗 تهیه دوره:
https://mktb.me/e3gx/
~~~~~~~
اطلاعات بیشتر
~~~~~~~
🔥 برای اطلاع از  کدهای تخفیف، همین حالا عضو کانال تلگرام ما بشید:
👇👇👇
@llm_huggingface
👆👆👆

🎓ما رو تو اینستاگرام هم دنبال کنید...

https://www.instagram.com/class.vision
6👍2
Forwarded from آموزش LLM و VLM
Media is too big
VIEW IN TELEGRAM
🌟 آموزش مدل‌های زبانی-تصویری (VLM) با تدریس علیرضا اخوان‌پور منتشر شد🎉

مردادماه دوره‌ی مدل‌های زبانی بزرگ (LLM) در مکتب‌خونه منتشر شد؛ دوره‌ای که توش یاد می‌گرفتید مدل‌هایی مثل ChatGPT یا Gemini چطور آموزش می‌بینن، چطور کار می‌کنن و چطور می‌تونن به زبان‌های مختلف – حتی فارسی – پاسخ بدن و ...

♨️حالا نوبت یکی از داغ‌ترین موضوعات دنیای AI رسیده:
🔹 مدل‌های زبانی-تصویری (VLM)

مدل‌های زبانی-تصویری (VLM) نسل جدیدی از مدل‌های مولد هستن که علاوه بر متن، تصویر رو هم می‌فهمن. یعنی می‌تونن عکس رو توصیف کنن، به سوال درباره‌ی محتواش جواب بدن و حتی بین متن و تصویر ارتباط برقرار کنن.

📚 در این دوره یاد می‌گیرید:

- ساختار و معماری مدل‌های VLM

- کاربردهای جذاب مثل پرسش‌وپاسخ تصویری و مولتی‌مودال

- نحوه‌ی آموزش و به‌کارگیری این مدل‌ها در پروژه‌های واقعی

👨‍🏫 تدریس هر دو دوره توسط مهندس علیرضا اخوان‌پور انجام شده


🔗 مشاهده دوره:
https://mktb.me/e3gx/
👍3❤‍🔥11
Forwarded from آموزش LLM و VLM
کد تخفیف 70 درصدی تست شده

فقط موقع استفاده حتما تیک دسترسی کامل را بردارید، اگر قبلا در سبد خرید بوده حذف کرده و مجدد با برداشتن این تیک به سبد خرد خود اضافه کنید.

COUPON-c4cd3

https://mktb.me/e3gx/
🤔63❤‍🔥1
▪️ اشنایی با مقالات و منابع هوش مصنوعی و علوم پزشکی

@AI_DeepMind
3❤‍🔥1
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from DLeX: AI Python (NaviD DariYa)
مقایسه کوتاه Google A2A با MCP :

👉 @ai_python ✍️

https://youtube.com/shorts/Dxn1ku9nkRc?si=QOI1fBFdAmdS0ZrK
Please open Telegram to view this post
VIEW IN TELEGRAM
4❤‍🔥1
Media is too big
VIEW IN TELEGRAM
🌟 آموزش مدل‌های زبانی-تصویری (VLM) منتشر شد🎉


مدل‌های زبانی-تصویری (VLM) نسل جدیدی از مدل‌های مولد هستن که علاوه بر متن، تصویر رو هم می‌فهمن. یعنی می‌تونن عکس رو توصیف کنن، به سوال درباره‌ی محتواش جواب بدن و حتی بین متن و تصویر ارتباط برقرار کنن.

📚 در این دوره یاد می‌گیرید:

- ساختار و معماری مدل‌های VLM

- کاربردهای جذاب مثل پرسش‌وپاسخ تصویری و مولتی‌مودال

- نحوه‌ی آموزش و به‌کارگیری این مدل‌ها در پروژه‌های واقعی

🎁 تخفیف ویژه 70٪ با کد زیر:

COUPON-c4cd3

🔥 برای اطلاع از  کدهای تخفیف، همین حالا عضو کانال تلگرام ما بشید:
👇👇👇
@llm_huggingface
👆👆👆

🎓ما رو تو اینستاگرام هم دنبال کنید...

https://www.instagram.com/class.vision

🔗 مشاهده دوره:
https://mktb.me/e3gx/
5❤‍🔥1👍1
دنیایی از منابع برنامه‌نویسی توی این کانال بصورت دسته‌بندی شده با هشتگ بصورت روزانه قرار داده میشه.

@pythony
7❤‍🔥1
Forwarded from آموزش LLM و VLM
امروز نسخه سبکتر Qwen3-VL رو منتشر شد!

امروز، ۴ اکتبر ۲۰۲۵، تیم Qwen دو مدل جدید از خانواده Qwen3-VL رو منتشر کرد:
مدل Qwen3-VL-30B-A3B-Instruct
و Qwen3-VL-30B-A3B-Thinking
به‌همراه نسخه‌ی FP8 برای هر دو مدل که حجم و مصرف حافظه رو به‌طور قابل‌توجهی پایین میاره.

تا قبل از این، Qwen3-VL فقط مدل‌های خیلی سنگین داشت و عملاً نسخه‌ای سبک یا بهینه برای استفاده عمومی نداشت. حالا با این نسخه FP8 و تنظیمات جدید، بالاخره میشه مدل‌های Qwen3-VL رو راحت‌تر روی GPUهای معمولی هم بالا آورد.

🔹 نسخه Instruct بیشتر برای کارهای گفت‌وگومحور و دستورمحور طراحی شده.
🔹 نسخه Thinking روی استدلال پیچیده و فهم عمیق‌تر تصویر و ویدیو تمرکز داره.

هر دو مدل از فهم متن و تصویر پشتیبانی می‌کنن، OCR قوی دارن (تا ۳۲ زبان)، و حتی می‌تونن از روی تصویر کد HTML یا JS بسازن!
پشتیبانی از context طولانی (تا ۱ میلیون توکن) هم داره — چیزی که برای پروژه‌های چندرسانه‌ای واقعاً غنیمته.

📦 https://github.com/QwenLM/Qwen3-VL
👍121❤‍🔥1
بابا منظورم به زبان فارسی بوده. وقتی کد میفرستم چرا از ادبیات آزمون باید طرح کنه😐😩
👀11🤯32❤‍🔥11🤔1
دیاگرام بکشید، هوش مصنوعی کدش رو بزنه:

AgentKit

thenewstack.io/openai-launches-a-no-code-agent-builder

محصول جدید OpenAI، یعنی AgentKit، یک ابزار سازنده ایجنت بدون کد است که به توسعه‌دهندگان و شرکت‌ها امکان ساخت و استقرار سریع سیستم‌های چند ایجنتی را می‌دهد.
همچنین، Apps in ChatGPT به کاربران اجازه می‌دهد تا برنامه‌های شخص ثالث، مانند Zillow، را مستقیماً از طریق رابط چت‌جی‌پی‌تی فراخوانی و با آنها تعامل داشته باشند.
7❤‍🔥2👍2
انقلاب سامسونگ در هوش مصنوعی: مدل ۷ میلیونی که غول‌ها را شکست داد

فرانسیس شوله اینجا،  این رو بازنشر کرده بود:

https://fixupx.com/jacksonatkinsx/status/1975556245617512460?s=12


وقتی این مقاله را خواندم مغزم هنگ کرد.

یک مدل خیلی کوچک با تنها ۷ میلیون پارامتر همین الان در آزمون‌های استدلال روی هر دو مجموعه ARG-AGI 1 و ARC-AGI 2، از DeepSeek-R1، Gemini 2.5 pro و o3-mini جلو زد.

اسمش Tiny Recursive Model (TRM) از سامسونگ است.

چطور مدلی که ۱۰٬۰۰۰ برابر کوچکتر است می‌تواند باهوش‌تر باشد؟

نحوه کارش این‌طور است:

نوشتن یک پاسخ اولیه: برخلاف یک مدل زبان بزرگ (LLM) که کلمه‌به‌کلمه تولید می‌کند، TRM ابتدا یک «پیش‌نویس» سریع و کامل از راه‌حل تولید می‌کند. این را می‌توان اولین حدس خام آن دانست.

خلق یک «اسکراچ‌پد (scratchpad)»: سپس فضایی جداگانه برای افکار درونی‌اش می‌سازد — یک «اسکراچ‌پد» استدلال نهفته. اینجا است که جادوی واقعی رخ می‌دهد.

خودانتقادی شدید: مدل وارد یک حلقهٔ درونی شدید می‌شود. پیش‌نویسش را با مسئلهٔ اصلی مقایسه می‌کند و بارها و بارها (۶ بار پشت‌سرِ هم) استدلالش را در اسکرچ‌پد تصحیح می‌کند و از خودش می‌پرسد «آیا منطق من درست است؟ خطاها کجا هستند؟»

بازنویسی پاسخ: پس از این «تفکر» متمرکز، از منطق بهبود یافتهٔ موجود در اسکرچ‌پد استفاده می‌کند تا یک پیش‌نویس کاملاً جدید و بسیار بهتر از پاسخ نهایی بسازد.

تکرار تا رسیدن به اطمینان: کل فرایند — پیش‌نویس، تفکر، اصلاح — تا ۱۶ بار تکرار می‌شود. هر چرخه مدل را به حلِ مسئله‌ای صحیح‌تر و منطقی‌تر نزدیک‌تر می‌کند.

چرا این مهم است:

رهبران کسب‌وکار: این همان چیزی است که برتری الگوریتمی (algorithmic advantage) به نظر می‌رسد. در حالی که رقبا برای مقیاس‌بندی خام هزینه‌های عظیمی در فرایند inference می‌پردازند، یک مدل هوشمندتر و کارآمدتر می‌تواند عملکرد بهتر را با کسری از هزینه ارائه دهد.

پژوهشگران: این تأیید مهمی برای ایده‌های نوروسیمبولیک (neuro-symbolic) است. توانایی مدل در «تفکر» بازگشتی (recursively) پیش از «عمل»، نشان می‌دهد که معماری، نه صرفاً مقیاس، می‌تواند محرک اصلی قابلیت استدلال باشد.

عملی‌کنندگان: استدلال در سطح SOTA (state-of-the-art) دیگر پشت خوشه‌های GPU میلیارد دلاری قفل‌شده نیست. این مقاله یک نقشه‌راه بسیار کارآمد و کم‌پارامتر برای ساخت سامانه‌های استدلالی (reasoners) تخصصی فراهم می‌کند که می‌توانند در هر جا اجرا شوند.

این فقط کوچک‌سازیِ مقیاس نیست؛ این یک روش کاملاً متفاوت و هدفمندتر برای حل مسائل است.



@cvision
@llm_huggingface
🤯2617👍4👌3❤‍🔥2
Forwarded from آموزش LLM و VLM
Media is too big
VIEW IN TELEGRAM
🌟 مدل‌های زبانی-تصویری (VLM)| مدرس: علیرضا اخوان‌پور

مدل‌های زبانی-تصویری (VLM) نسل جدیدی از مدل‌های مولد هستن که علاوه بر متن، تصویر رو هم می‌فهمن. یعنی می‌تونن عکس رو توصیف کنن، به سوال درباره‌ی محتواش جواب بدن و حتی بین متن و تصویر ارتباط برقرار کنن.

📚 در این دوره یاد می‌گیرید:

- ساختار و معماری مدل‌های VLM

- کاربردهای جذاب مثل پرسش‌وپاسخ تصویری و مولتی‌مودال

- نحوه‌ی آموزش و به‌کارگیری این مدل‌ها در پروژه‌های واقعی

🔗 مشاهده دوره:
https://mktb.me/e3gx/

کد تخفیف 70 درصدی دوره جدید VLM


COUPON-c4cd3


——————————————

🎁همچنین به عنوان پیش نیاز با 70 درصد تخفیف ویژه به مدت محدود دوره محبوب و پرفروش LLM را نیز میتوانید با کد زیر تهیه کنید.


COUPON-c2e42


https://mktb.me/04dr/

حتما موقع استفاده تیک دسترسی کامل را بردارید، اگر قبلا در سبد خرید بوده حذف کرده و مجدد با برداشتن این تیک به سبد خرد خود اضافه کنید.

~~~
کانال تلگرامی دوره
@llm_huggingface
6❤‍🔥1👍1
امروزه LLMها دیگر فقط متن نمی‌فهمند؛ آن‌ها می‌توانند داده‌های چندرسانه‌ای مثل صدا، تصویر و متن را پردازش کنند و عملکردی فراتر از مدل‌های تخصصی ارائه دهند. ولی هنوز مشکل بزرگشان این است که نمی‌توانند سری‌های زمانی (Time Series) را به‌خوبی تحلیل کنند.

حالا OpenTSLM این محدودیت را رفع می‌کند: این مدل زبان بزرگ، سری‌های زمانی پزشکی چندمتغیره را به‌عنوان ورودی می‌پذیرد و می‌تواند روی آن‌ها استدلال کند، توضیح بدهد و نتایج را به زبانخوشح طبیعی ارائه کند، برای مثال در تشخیص فعالیت انسانی، تحلیل خواب، پاسخ به سؤالات ECG و تولید توضیحات سری‌های زمانی.

خلاصه: OpenTSLM، LLM مخصوص سری‌های زمانی پزشکی است که همزمان چند سری را پردازش و نتایج قابل فهم برای انسان تولید می‌کند. قاعدتا توقع میره روی داده های بورس و کریپتو و ... هم بشه فاین تیون کرد

این مدل توسط تیمی بین‌رشته‌ای از دانشگاه استنفورد، ETH زوریخ، گوگل ریسرچ توسعه داده شده است.

https://github.com/StanfordBDHG/OpenTSLM
17👍4🤯3❤‍🔥1
2025/10/15 11:15:00
Back to Top
HTML Embed Code: