Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
- Telegram Web
Telegram Web
🎉 دوره جدید منتشر شد:
آموزش مدل‌های زبانی-تصویری (VLM): از درک تصویر و ویدیو تا فاین‌تیون پیشرفته
از درک تصویر و ویدیو تا فاین‌تیون پیشرفته 🚀

📚 در 4 فصل:
1️⃣ آشنایی با مدل‌های مولتی‌مدال (CLIP تا SigLIP)
2️⃣ کاربرد VLM در درک تصویر و ویدیو
3️⃣ فاین‌تیون و پروژه‌های تخصصی
4️⃣ آموزش پیشرفته با DPO، GRPO و MPO

🔑 ویژگی‌های کلیدی:
✔️ معرفی روش‌ها و مدل‌های جدید مثل MPO و FASTVLM اپل
✔️ استفاده از HuggingFace و Unsloth
✔️ بیش از 15 کد عملی همراه توضیح کامل

🎁 تخفیف ویژه 70٪ با کد زیر:
COUPON-c4cd3


🔗 تهیه دوره:
https://mktb.me/e3gx/

کانال تلگرامی دوره | کانال تلگرام کلاس‌ویژن | کدهای دوره
اسلایدهای دوره | کوئیزهای دوره | تمرین+پروژه
🔥52
Media is too big
VIEW IN TELEGRAM
🎉 دوره جدید منتشر شد:

آموزش مدل‌های زبانی-تصویری (VLM):
از درک تصویر و ویدیو تا فاین‌تیون پیشرفته 🚀

🎁 تخفیف ویژه 70٪ با کد زیر:
COUPON-c4cd3


🔗 تهیه دوره:
https://mktb.me/e3gx/
~~~~~~~
اطلاعات بیشتر
~~~~~~~
🔥 برای اطلاع از  کدهای تخفیف، همین حالا عضو کانال تلگرام ما بشید:
👇👇👇
@llm_huggingface
👆👆👆

🎓ما رو تو اینستاگرام هم دنبال کنید...

https://www.instagram.com/class.vision
5
Media is too big
VIEW IN TELEGRAM
🌟 آموزش مدل‌های زبانی-تصویری (VLM) با تدریس علیرضا اخوان‌پور منتشر شد🎉

مردادماه دوره‌ی مدل‌های زبانی بزرگ (LLM) در مکتب‌خونه منتشر شد؛ دوره‌ای که توش یاد می‌گرفتید مدل‌هایی مثل ChatGPT یا Gemini چطور آموزش می‌بینن، چطور کار می‌کنن و چطور می‌تونن به زبان‌های مختلف – حتی فارسی – پاسخ بدن و ...

♨️حالا نوبت یکی از داغ‌ترین موضوعات دنیای AI رسیده:
🔹 مدل‌های زبانی-تصویری (VLM)

مدل‌های زبانی-تصویری (VLM) نسل جدیدی از مدل‌های مولد هستن که علاوه بر متن، تصویر رو هم می‌فهمن. یعنی می‌تونن عکس رو توصیف کنن، به سوال درباره‌ی محتواش جواب بدن و حتی بین متن و تصویر ارتباط برقرار کنن.

📚 در این دوره یاد می‌گیرید:

- ساختار و معماری مدل‌های VLM

- کاربردهای جذاب مثل پرسش‌وپاسخ تصویری و مولتی‌مودال

- نحوه‌ی آموزش و به‌کارگیری این مدل‌ها در پروژه‌های واقعی

👨‍🏫 تدریس هر دو دوره توسط مهندس علیرضا اخوان‌پور انجام شده


🔗 مشاهده دوره:
https://mktb.me/e3gx/

~~~
کانال تلگرامی دوره
@llm_huggingface
🔥6
کد تخفیف 70 درصدی تست شده

فقط موقع استفاده حتما تیک دسترسی کامل را بردارید، اگر قبلا در سبد خرید بوده حذف کرده و مجدد با برداشتن این تیک به سبد خرد خود اضافه کنید.

COUPON-c4cd3

https://mktb.me/e3gx/
5
فرق پرامپت‌نویسی با مهندسی کانتکست؟

پرامپت = چی می‌گی
کانتکست = مدل چی می‌بینه

و چیزی که مدل می‌بینه مهم‌تره!
ایجنت‌های قوی همه‌چی رو تو کانتکست نمی‌ریزن. اون‌ها:
فقط چیزای مفید رو نگه می‌دارن
قدیمی‌ها رو خلاصه می‌کنن
هر وقت لازمه اطلاعات میارن
یادداشت می‌نویسن
بعضی کارها رو می‌سپارن به ساب‌اجنت‌ها
🔑 مهارت آینده برای ساخت ایجنت‌های هوش مصنوعی = Context Engineering

منبع:
https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents?trk=public_post_comment-text
6👍2🔥1
آینده هوش مصنوعی چندوجهی اینجاست!

مدل‌های چندوجهی (Multimodal AI) در سال ۲۰۲۵ دنیا رو متحول کردن. حالا دیگه هوش مصنوعی می‌تونه تصویر، متن و حتی صدا رو با هم ترکیب کنه و دقیق‌تر از همیشه جهان رو درک کنه.
مدل‌های متن-تصویر متن‌باز مثل Qwen2.5-VL، Gemini و Llama-4 امروز همه‌جا هستن: از دستیارهای هوشمند گرفته تا پزشکی، تحلیل اسناد و هزاران کاربرد واقعی.

اما سؤال اینه:
🔹 چطور می‌شه این مدل‌ها رو یاد گرفت و توی پروژه‌های واقعی استفاده کرد؟
اینجاست که کورس تخصصی ما وارد می‌شه! 🎓

در این دوره‌ی Vision-Language Models (VLMs) یاد می‌گیری:
چطور مدل‌های پیشرفته رو با Hugging Face بارگذاری و تست کنی
قابلیت‌ها و محدودیت‌های VLMها رو بشناسی
روی پروژه‌های واقعی ازشون استفاده کنی
این فرصت فوق‌العاده‌ایه برای کسایی که می‌خوان یک قدم جلوتر از بقیه باشن و آینده‌ی هوش مصنوعی رو بسازن! 🌍

📌 جزئیات دوره و ثبت‌نام
10
امروز نسخه سبکتر Qwen3-VL رو منتشر شد!

امروز، ۴ اکتبر ۲۰۲۵، تیم Qwen دو مدل جدید از خانواده Qwen3-VL رو منتشر کرد:
مدل Qwen3-VL-30B-A3B-Instruct
و Qwen3-VL-30B-A3B-Thinking
به‌همراه نسخه‌ی FP8 برای هر دو مدل که حجم و مصرف حافظه رو به‌طور قابل‌توجهی پایین میاره.

تا قبل از این، Qwen3-VL فقط مدل‌های خیلی سنگین داشت و عملاً نسخه‌ای سبک یا بهینه برای استفاده عمومی نداشت. حالا با این نسخه FP8 و تنظیمات جدید، بالاخره میشه مدل‌های Qwen3-VL رو راحت‌تر روی GPUهای معمولی هم بالا آورد.

🔹 نسخه Instruct بیشتر برای کارهای گفت‌وگومحور و دستورمحور طراحی شده.
🔹 نسخه Thinking روی استدلال پیچیده و فهم عمیق‌تر تصویر و ویدیو تمرکز داره.

هر دو مدل از فهم متن و تصویر پشتیبانی می‌کنن، OCR قوی دارن (تا ۳۲ زبان)، و حتی می‌تونن از روی تصویر کد HTML یا JS بسازن!
پشتیبانی از context طولانی (تا ۱ میلیون توکن) هم داره — چیزی که برای پروژه‌های چندرسانه‌ای واقعاً غنیمته.

📦 https://github.com/QwenLM/Qwen3-VL
👍6🔥3
Media is too big
VIEW IN TELEGRAM
🌟 مدل‌های زبانی-تصویری (VLM)| مدرس: علیرضا اخوان‌پور

مدل‌های زبانی-تصویری (VLM) نسل جدیدی از مدل‌های مولد هستن که علاوه بر متن، تصویر رو هم می‌فهمن. یعنی می‌تونن عکس رو توصیف کنن، به سوال درباره‌ی محتواش جواب بدن و حتی بین متن و تصویر ارتباط برقرار کنن.

📚 در این دوره یاد می‌گیرید:

- ساختار و معماری مدل‌های VLM

- کاربردهای جذاب مثل پرسش‌وپاسخ تصویری و مولتی‌مودال

- نحوه‌ی آموزش و به‌کارگیری این مدل‌ها در پروژه‌های واقعی

🔗 مشاهده دوره:
https://mktb.me/e3gx/

کد تخفیف 70 درصدی دوره جدید VLM


COUPON-c4cd3


——————————————

🎁همچنین به عنوان پیش نیاز با 70 درصد تخفیف ویژه به مدت محدود دوره محبوب و پرفروش LLM را نیز میتوانید با کد زیر تهیه کنید.


COUPON-c2e42


https://mktb.me/04dr/

حتما موقع استفاده تیک دسترسی کامل را بردارید، اگر قبلا در سبد خرید بوده حذف کرده و مجدد با برداشتن این تیک به سبد خرد خود اضافه کنید.

~~~
کانال تلگرامی دوره
@llm_huggingface
😍4
Channel name was changed to «آموزش LLM و VLM»
Forwarded from Tensorflow(@CVision)
انقلاب سامسونگ در هوش مصنوعی: مدل ۷ میلیونی که غول‌ها را شکست داد

فرانسیس شوله اینجا،  این رو بازنشر کرده بود:

https://fixupx.com/jacksonatkinsx/status/1975556245617512460?s=12


وقتی این مقاله را خواندم مغزم هنگ کرد.

یک مدل خیلی کوچک با تنها ۷ میلیون پارامتر همین الان در آزمون‌های استدلال روی هر دو مجموعه ARG-AGI 1 و ARC-AGI 2، از DeepSeek-R1، Gemini 2.5 pro و o3-mini جلو زد.

اسمش Tiny Recursive Model (TRM) از سامسونگ است.

چطور مدلی که ۱۰٬۰۰۰ برابر کوچکتر است می‌تواند باهوش‌تر باشد؟

نحوه کارش این‌طور است:

نوشتن یک پاسخ اولیه: برخلاف یک مدل زبان بزرگ (LLM) که کلمه‌به‌کلمه تولید می‌کند، TRM ابتدا یک «پیش‌نویس» سریع و کامل از راه‌حل تولید می‌کند. این را می‌توان اولین حدس خام آن دانست.

خلق یک «اسکراچ‌پد (scratchpad)»: سپس فضایی جداگانه برای افکار درونی‌اش می‌سازد — یک «اسکراچ‌پد» استدلال نهفته. اینجا است که جادوی واقعی رخ می‌دهد.

خودانتقادی شدید: مدل وارد یک حلقهٔ درونی شدید می‌شود. پیش‌نویسش را با مسئلهٔ اصلی مقایسه می‌کند و بارها و بارها (۶ بار پشت‌سرِ هم) استدلالش را در اسکرچ‌پد تصحیح می‌کند و از خودش می‌پرسد «آیا منطق من درست است؟ خطاها کجا هستند؟»

بازنویسی پاسخ: پس از این «تفکر» متمرکز، از منطق بهبود یافتهٔ موجود در اسکرچ‌پد استفاده می‌کند تا یک پیش‌نویس کاملاً جدید و بسیار بهتر از پاسخ نهایی بسازد.

تکرار تا رسیدن به اطمینان: کل فرایند — پیش‌نویس، تفکر، اصلاح — تا ۱۶ بار تکرار می‌شود. هر چرخه مدل را به حلِ مسئله‌ای صحیح‌تر و منطقی‌تر نزدیک‌تر می‌کند.

چرا این مهم است:

رهبران کسب‌وکار: این همان چیزی است که برتری الگوریتمی (algorithmic advantage) به نظر می‌رسد. در حالی که رقبا برای مقیاس‌بندی خام هزینه‌های عظیمی در فرایند inference می‌پردازند، یک مدل هوشمندتر و کارآمدتر می‌تواند عملکرد بهتر را با کسری از هزینه ارائه دهد.

پژوهشگران: این تأیید مهمی برای ایده‌های نوروسیمبولیک (neuro-symbolic) است. توانایی مدل در «تفکر» بازگشتی (recursively) پیش از «عمل»، نشان می‌دهد که معماری، نه صرفاً مقیاس، می‌تواند محرک اصلی قابلیت استدلال باشد.

عملی‌کنندگان: استدلال در سطح SOTA (state-of-the-art) دیگر پشت خوشه‌های GPU میلیارد دلاری قفل‌شده نیست. این مقاله یک نقشه‌راه بسیار کارآمد و کم‌پارامتر برای ساخت سامانه‌های استدلالی (reasoners) تخصصی فراهم می‌کند که می‌توانند در هر جا اجرا شوند.

این فقط کوچک‌سازیِ مقیاس نیست؛ این یک روش کاملاً متفاوت و هدفمندتر برای حل مسائل است.



@cvision
@llm_huggingface
16👍3
به درخواست همراهان کانال، بات کد تخفیف 100 درصد خرید برای مدت محدودی دوباره فعال شده است.

لطفاً حتماً:

- از همان نام کامل استفاده کنید که در مکتب‌خونه ثبت کرده‌اید و فیش به نام شما صادر شده است.

- فیش پرداخت را دقیقاً مثل نمونه‌ی بالا ارسال کنید.

- تا زمانی که تأیید مرحله‌ی قبل را نگرفته‌اید، سراغ مرحله‌ی بعد نروید.

@llm_vlm_bot

اگر قبلا دوره را تهیه کردید میتونید کد 1 بار مصرف خود را به شخص دیگر بدهید
🔥51
امروزه LLMها دیگر فقط متن نمی‌فهمند؛ آن‌ها می‌توانند داده‌های چندرسانه‌ای مثل صدا، تصویر و متن را پردازش کنند و عملکردی فراتر از مدل‌های تخصصی ارائه دهند. ولی هنوز مشکل بزرگشان این است که نمی‌توانند سری‌های زمانی (Time Series) را به‌خوبی تحلیل کنند.

حالا OpenTSLM این محدودیت را رفع می‌کند: این مدل زبان بزرگ، سری‌های زمانی پزشکی چندمتغیره را به‌عنوان ورودی می‌پذیرد و می‌تواند روی آن‌ها استدلال کند، توضیح بدهد و نتایج را به زبان طبیعی ارائه کند، برای مثال در تشخیص فعالیت انسانی، تحلیل خواب، پاسخ به سؤالات ECG و تولید توضیحات سری‌های زمانی.

خلاصه: OpenTSLM، LLM مخصوص سری‌های زمانی پزشکی است که همزمان چند سری را پردازش و نتایج قابل فهم برای انسان تولید می‌کند. قاعدتا توقع میره روی داده های بورس و کریپتو و ... هم بشه فاین تیون کرد

این مدل توسط تیمی بین‌رشته‌ای از دانشگاه استنفورد، ETH زوریخ، گوگل ریسرچ توسعه داده شده است.

https://github.com/StanfordBDHG/OpenTSLM
👍63
برای استفاده از کدهای تحفیف مکتب خونه، این تیکو حتما بردارید
1
2025/10/15 01:17:16
Back to Top
HTML Embed Code: