Telegram Web
Forwarded from آموزش LLM و VLM
امروز نسخه سبکتر Qwen3-VL رو منتشر شد!

امروز، ۴ اکتبر ۲۰۲۵، تیم Qwen دو مدل جدید از خانواده Qwen3-VL رو منتشر کرد:
مدل Qwen3-VL-30B-A3B-Instruct
و Qwen3-VL-30B-A3B-Thinking
به‌همراه نسخه‌ی FP8 برای هر دو مدل که حجم و مصرف حافظه رو به‌طور قابل‌توجهی پایین میاره.

تا قبل از این، Qwen3-VL فقط مدل‌های خیلی سنگین داشت و عملاً نسخه‌ای سبک یا بهینه برای استفاده عمومی نداشت. حالا با این نسخه FP8 و تنظیمات جدید، بالاخره میشه مدل‌های Qwen3-VL رو راحت‌تر روی GPUهای معمولی هم بالا آورد.

🔹 نسخه Instruct بیشتر برای کارهای گفت‌وگومحور و دستورمحور طراحی شده.
🔹 نسخه Thinking روی استدلال پیچیده و فهم عمیق‌تر تصویر و ویدیو تمرکز داره.

هر دو مدل از فهم متن و تصویر پشتیبانی می‌کنن، OCR قوی دارن (تا ۳۲ زبان)، و حتی می‌تونن از روی تصویر کد HTML یا JS بسازن!
پشتیبانی از context طولانی (تا ۱ میلیون توکن) هم داره — چیزی که برای پروژه‌های چندرسانه‌ای واقعاً غنیمته.

📦 https://github.com/QwenLM/Qwen3-VL
👍121❤‍🔥1
بابا منظورم به زبان فارسی بوده. وقتی کد میفرستم چرا از ادبیات آزمون باید طرح کنه😐😩
👀12🤯32❤‍🔥11🤔1
دیاگرام بکشید، هوش مصنوعی کدش رو بزنه:

AgentKit

thenewstack.io/openai-launches-a-no-code-agent-builder

محصول جدید OpenAI، یعنی AgentKit، یک ابزار سازنده ایجنت بدون کد است که به توسعه‌دهندگان و شرکت‌ها امکان ساخت و استقرار سریع سیستم‌های چند ایجنتی را می‌دهد.
همچنین، Apps in ChatGPT به کاربران اجازه می‌دهد تا برنامه‌های شخص ثالث، مانند Zillow، را مستقیماً از طریق رابط چت‌جی‌پی‌تی فراخوانی و با آنها تعامل داشته باشند.
7❤‍🔥2👍21
انقلاب سامسونگ در هوش مصنوعی: مدل ۷ میلیونی که غول‌ها را شکست داد

فرانسیس شوله اینجا،  این رو بازنشر کرده بود:

https://fixupx.com/jacksonatkinsx/status/1975556245617512460?s=12


وقتی این مقاله را خواندم مغزم هنگ کرد.

یک مدل خیلی کوچک با تنها ۷ میلیون پارامتر همین الان در آزمون‌های استدلال روی هر دو مجموعه ARG-AGI 1 و ARC-AGI 2، از DeepSeek-R1، Gemini 2.5 pro و o3-mini جلو زد.

اسمش Tiny Recursive Model (TRM) از سامسونگ است.

چطور مدلی که ۱۰٬۰۰۰ برابر کوچکتر است می‌تواند باهوش‌تر باشد؟

نحوه کارش این‌طور است:

نوشتن یک پاسخ اولیه: برخلاف یک مدل زبان بزرگ (LLM) که کلمه‌به‌کلمه تولید می‌کند، TRM ابتدا یک «پیش‌نویس» سریع و کامل از راه‌حل تولید می‌کند. این را می‌توان اولین حدس خام آن دانست.

خلق یک «اسکراچ‌پد (scratchpad)»: سپس فضایی جداگانه برای افکار درونی‌اش می‌سازد — یک «اسکراچ‌پد» استدلال نهفته. اینجا است که جادوی واقعی رخ می‌دهد.

خودانتقادی شدید: مدل وارد یک حلقهٔ درونی شدید می‌شود. پیش‌نویسش را با مسئلهٔ اصلی مقایسه می‌کند و بارها و بارها (۶ بار پشت‌سرِ هم) استدلالش را در اسکرچ‌پد تصحیح می‌کند و از خودش می‌پرسد «آیا منطق من درست است؟ خطاها کجا هستند؟»

بازنویسی پاسخ: پس از این «تفکر» متمرکز، از منطق بهبود یافتهٔ موجود در اسکرچ‌پد استفاده می‌کند تا یک پیش‌نویس کاملاً جدید و بسیار بهتر از پاسخ نهایی بسازد.

تکرار تا رسیدن به اطمینان: کل فرایند — پیش‌نویس، تفکر، اصلاح — تا ۱۶ بار تکرار می‌شود. هر چرخه مدل را به حلِ مسئله‌ای صحیح‌تر و منطقی‌تر نزدیک‌تر می‌کند.

چرا این مهم است:

رهبران کسب‌وکار: این همان چیزی است که برتری الگوریتمی (algorithmic advantage) به نظر می‌رسد. در حالی که رقبا برای مقیاس‌بندی خام هزینه‌های عظیمی در فرایند inference می‌پردازند، یک مدل هوشمندتر و کارآمدتر می‌تواند عملکرد بهتر را با کسری از هزینه ارائه دهد.

پژوهشگران: این تأیید مهمی برای ایده‌های نوروسیمبولیک (neuro-symbolic) است. توانایی مدل در «تفکر» بازگشتی (recursively) پیش از «عمل»، نشان می‌دهد که معماری، نه صرفاً مقیاس، می‌تواند محرک اصلی قابلیت استدلال باشد.

عملی‌کنندگان: استدلال در سطح SOTA (state-of-the-art) دیگر پشت خوشه‌های GPU میلیارد دلاری قفل‌شده نیست. این مقاله یک نقشه‌راه بسیار کارآمد و کم‌پارامتر برای ساخت سامانه‌های استدلالی (reasoners) تخصصی فراهم می‌کند که می‌توانند در هر جا اجرا شوند.

این فقط کوچک‌سازیِ مقیاس نیست؛ این یک روش کاملاً متفاوت و هدفمندتر برای حل مسائل است.



@cvision
@llm_huggingface
🤯2617👍4👌3❤‍🔥2
Forwarded from آموزش LLM و VLM
Media is too big
VIEW IN TELEGRAM
🌟 مدل‌های زبانی-تصویری (VLM)| مدرس: علیرضا اخوان‌پور

مدل‌های زبانی-تصویری (VLM) نسل جدیدی از مدل‌های مولد هستن که علاوه بر متن، تصویر رو هم می‌فهمن. یعنی می‌تونن عکس رو توصیف کنن، به سوال درباره‌ی محتواش جواب بدن و حتی بین متن و تصویر ارتباط برقرار کنن.

📚 در این دوره یاد می‌گیرید:

- ساختار و معماری مدل‌های VLM

- کاربردهای جذاب مثل پرسش‌وپاسخ تصویری و مولتی‌مودال

- نحوه‌ی آموزش و به‌کارگیری این مدل‌ها در پروژه‌های واقعی

🔗 مشاهده دوره:
https://mktb.me/e3gx/

کد تخفیف 70 درصدی دوره جدید VLM


COUPON-c4cd3


——————————————

🎁همچنین به عنوان پیش نیاز با 70 درصد تخفیف ویژه به مدت محدود دوره محبوب و پرفروش LLM را نیز میتوانید با کد زیر تهیه کنید.


COUPON-c2e42


https://mktb.me/04dr/

حتما موقع استفاده تیک دسترسی کامل را بردارید، اگر قبلا در سبد خرید بوده حذف کرده و مجدد با برداشتن این تیک به سبد خرد خود اضافه کنید.

~~~
کانال تلگرامی دوره
@llm_huggingface
7❤‍🔥1👍1
امروزه LLMها دیگر فقط متن نمی‌فهمند؛ آن‌ها می‌توانند داده‌های چندرسانه‌ای مثل صدا، تصویر و متن را پردازش کنند و عملکردی فراتر از مدل‌های تخصصی ارائه دهند. ولی هنوز مشکل بزرگشان این است که نمی‌توانند سری‌های زمانی (Time Series) را به‌خوبی تحلیل کنند.

حالا OpenTSLM این محدودیت را رفع می‌کند: این مدل زبان بزرگ، سری‌های زمانی پزشکی چندمتغیره را به‌عنوان ورودی می‌پذیرد و می‌تواند روی آن‌ها استدلال کند، توضیح بدهد و نتایج را به زبانخوشح طبیعی ارائه کند، برای مثال در تشخیص فعالیت انسانی، تحلیل خواب، پاسخ به سؤالات ECG و تولید توضیحات سری‌های زمانی.

خلاصه: OpenTSLM، LLM مخصوص سری‌های زمانی پزشکی است که همزمان چند سری را پردازش و نتایج قابل فهم برای انسان تولید می‌کند. قاعدتا توقع میره روی داده های بورس و کریپتو و ... هم بشه فاین تیون کرد

این مدل توسط تیمی بین‌رشته‌ای از دانشگاه استنفورد، ETH زوریخ، گوگل ریسرچ توسعه داده شده است.

https://github.com/StanfordBDHG/OpenTSLM
23👍5🤯3❤‍🔥2
Forwarded from آموزش LLM و VLM
دوره MCP هاگینگ فیس منتشر شد

https://huggingface.co/learn/mcp-course/
9
یکی از دوستان برای پروژه ای نیاز به جمع آوری اطلاعاتی دارد، ممنون میشم کمک کنید:

درود و مهر

برای یک پروژه‌ی پژوهشی در زمینه‌ی «تشخیص همدلی در گفتگوهای فارسی» به کمکتون نیاز دارم.

لطفاً چند دقیقه وقت بذارید و به ۲۰ موقعیت کوتاهی که در این پرسشنامه هست، یک پاسخ «واقعی و طبیعی» بدید. (انگار که واقعاً اون جمله رو از یک دوست شنیدید و می‌خواید جوابش رو تایپ کنید).

پاسخ‌ها کاملاً ناشناس جمع‌آوری می‌شن.

هدف ما جمع‌آوری پاسخ‌های «انسانی» و «واقعی» هست، پس لطفاً رسمی یا کتابی جواب ندید.

ممنون از وقتی که می‌ذارید. 🙏

https://forms.gle/iUAfLpPmHNYz9Tfj6
6❤‍🔥1
Forwarded from آموزش LLM و VLM
تیم DeepSeek دوباره ترکوند! این‌بار با مدل متن‌باز DeepSeek-OCR که نه‌تنها OCR فوق‌دقیقیه، بلکه با فناوری جدیدش به نام Context Optical Compression می‌تونه ورودی‌ها رو تا ۱۰ برابر فشرده‌تر به مدل‌های زبانی بده — بدون افت دقت! 🔥

کاربردها:

استخراج متن از عکس، اسکرین‌شات و PDF

تبدیل PDF به Markdown یا HTML با حفظ جداول و ساختار

خلاصه‌سازی و تحلیل اسناد طولانی

استخراج داده از فاکتورها و فرم‌ها

پرسش‌وپاسخ درباره محتوای تصویر یا سند


🏆 دستاوردهای کلیدی:

فشرده‌سازی هوشمند زمینه (Context Compression)

دقت بالاتر از Donut و TrOCR

پشتیبانی از رزولوشن پویا برای اسناد بزرگ



🔗 deepseek.ai/blog/deepseek-ocr-context-compression


🔗https://huggingface.co/deepseek-ai/DeepSeek-OCR


#AI #OCR #DeepSeek #LLM #OpenSource
20❤‍🔥2
پرسشنامه پروژه یکی از همراهان کانال،
اگر صلاح دونستید کمک‌کنید

سلام 👋
ما یه تیم دانشجویی هستیم که روی «تجربه و رفتار خرید کاربران» کار می‌کنیم.
پر کردن این پرسشنامه کمتر از سه دقیقه زمان می‌بره ⏱️
پاسخ‌هاتون به ما کمک می‌کنه تا نتایج تحقیق دقیق‌تر و مفیدتر باشه 🌱

ممنون از وقتی که می‌ذارید 💛 🙏🏼

https://survey.porsline.ir/s/N8qRLxby
Forwarded from آموزش LLM و VLM
DeepSeek-OCR:

https://colab.research.google.com/drive/1Fjzv3UYNoOt28HpM0RMUc8kG34EFgvuu?usp=sharing

با این مدل جدید دیپ سیک که قبلا توضیح دادیم
محتوای screenshots, PDF, form, table و handwritten یا متن نویزی را به markdown تمیز تبدیل کنید.
❤‍🔥19👌21
Forwarded from آموزش LLM و VLM
📢 از اونجایی که VRAM نسخه رایگان کولب برای لود مدل Deepseek-OCR کافی نیست و مشکل OOM میخورید، بعضی از همراهان گفتن نوت‌بوک روی Colab اجرا نمی‌شه ...

برای تست راحت مدل من مدلو با 4 بیت لود کردم که برای GPUهای T4 بی دردسر اجرا شه 👇

https://colab.research.google.com/github/Alireza-Akhavan/LLM/blob/main/deepseek_ocr_inference_4bit.ipynb

فقط کافیه عکس خودتونو کنارش بزارید و آدرسشو تو متغیر image_file بنویسید...
🔥16👍3❤‍🔥1
تبدیل PDF از اسلایدها (عکس) به PowerPoint با هوش مصنوعی
یه اسکریپت جالب نوشتم که هنوز کامل نیست ولی خیلی به دردم خورد! 💡
🎯 چیکار میکنه؟
یه فایل PDF از اسلایدها میگیره و با کمک DeepSeek-OCR با حفظ مکان عنوان‌ها، عکس‌ها و بقیه المان‌ها، یه PowerPoint کامل بهتون تحویل میده!
🔗 گیت‌هاب: github.com/Alireza-Akhavan/pdf_to_ppt_with_deepseekocr

📹 یه کیس واقعی ازش استفاده کردم:
کل ویدیوهای کورس Agentic از Andrew Ng رو پردازش کردم:
با ffmpeg فقط فریم‌هایی که تغییر داشتن رو سیو کردم
با OpenCV فریم‌هایی که چهره Andrew بود رو حذف کردم
اسلایدهایی که مرحله به مرحله کامل میشدن رو یکی کردم
همه رو تبدیل به یه PDF کردم
با DeepSeek-OCR تبدیل به Markdown و JSON (موقعیت‌ها) شد
با python-pptx همه چیز رو سر جاش گذاشتم و یه PPT درست کردم

📦 چی تو گیت‌هاب هست؟
فرآیند از PDF به بعد رو آپلود کردم. اگه علاقه دارید کاملش کنید یا ایده بدید، خوشحال میشم! 🙌

من میخواستم کار خودمو راه بندازم و خیلی روش وقت نذاشتم. اما با صرف وقت و سلیقه، قشنگ میشه یه محصول خفن ازش ساخت...

https://github.com/Alireza-Akhavan/pdf_to_ppt_with_deepseekocr
16👍6👌2❤‍🔥1🔥1
اگر شما در توسعه وب یا فرانت‌اند یا فول‌استک کار می‌کنید، این می‌تواند خبری خوب باشد که می‌توانید بدون خروج از حوزه JavaScript، وارد دنیای ML شوید؛
چون JavaScript دارد نقش بزرگ‌تری در حوزه یادگیری ماشین پیدا می‌کند، مخصوصاً برای محیط‌های کلاینت وب...

زبان Python هنوز در میدان یادگیری ماشین سلطه دارد، ولی به این دلیل نیست که به‌صورت ذاتی بهترین است، بلکه به خاطر این است که محیطِ کتابخانه‌ها (مثل NumPy، Pandas) و پشتیبانی شرکت‌ها بسیار خوب بوده، اما JavaScript به منظور باز کردنِ فرصت‌هایی جدید و اجرای مدل‌ها در مرورگر، دارد، وارد عرصهٔ یادگیری ماشین می‌شود.

اجرای مدل‌ها در سمت کاربر، می‌تواند مزایایی از لحاظ حریم خصوصی، تأخیر کمتر، نیاز کمتر به اتصال شبکه فراهم کند؛ مثلا، داده‌های حساس، دیگر لازم نیست، حتماً به سرور فرستاده شوند.

thenewstack.io/the-rise-of-javascript-in-machine-learning
👍6🤔21
🚀 Supercharge your OCR Pipelines with Open Models

📚 تیم Hugging Face توی آخرین بلاگش یه مرور عالی روی مدل‌های open-source OCR منتشر کرده.
از مدل‌های معروف مثل PaddleOCR گرفته تا مدل‌های جدیدتر مثل OlmOCR و Chandra،
همه بررسی شدن و نشون داده شده چطور می‌شه با fine-tune یا ترکیب Vision-Language Model‌ها
به دقت بالاتر و performance بهتر رسید.

💡 اگر روی taskهایی مثل document understanding، table extraction یا visual QA کار می‌کنین،
این پست پر از insightهای کاربردی برای انتخاب و deploy مدل‌های مناسب هست.

📎 لینک مطلب:
👉 huggingface.co/blog/ocr-open-models
👍94🔥4
2025/10/28 02:53:03
Back to Top
HTML Embed Code: