Telegram Web
Forwarded from آموزش LLM و VLM
Media is too big
VIEW IN TELEGRAM
🌟 مدل‌های زبانی-تصویری (VLM)| مدرس: علیرضا اخوان‌پور

مدل‌های زبانی-تصویری (VLM) نسل جدیدی از مدل‌های مولد هستن که علاوه بر متن، تصویر رو هم می‌فهمن. یعنی می‌تونن عکس رو توصیف کنن، به سوال درباره‌ی محتواش جواب بدن و حتی بین متن و تصویر ارتباط برقرار کنن.

📚 در این دوره یاد می‌گیرید:

- ساختار و معماری مدل‌های VLM

- کاربردهای جذاب مثل پرسش‌وپاسخ تصویری و مولتی‌مودال

- نحوه‌ی آموزش و به‌کارگیری این مدل‌ها در پروژه‌های واقعی

🔗 مشاهده دوره:
https://mktb.me/e3gx/

کد تخفیف 70 درصدی دوره جدید VLM


COUPON-c4cd3


——————————————

🎁همچنین به عنوان پیش نیاز با 70 درصد تخفیف ویژه به مدت محدود دوره محبوب و پرفروش LLM را نیز میتوانید با کد زیر تهیه کنید.


COUPON-c2e42


https://mktb.me/04dr/

حتما موقع استفاده تیک دسترسی کامل را بردارید، اگر قبلا در سبد خرید بوده حذف کرده و مجدد با برداشتن این تیک به سبد خرد خود اضافه کنید.

~~~
کانال تلگرامی دوره
@llm_huggingface
7❤‍🔥1👍1
امروزه LLMها دیگر فقط متن نمی‌فهمند؛ آن‌ها می‌توانند داده‌های چندرسانه‌ای مثل صدا، تصویر و متن را پردازش کنند و عملکردی فراتر از مدل‌های تخصصی ارائه دهند. ولی هنوز مشکل بزرگشان این است که نمی‌توانند سری‌های زمانی (Time Series) را به‌خوبی تحلیل کنند.

حالا OpenTSLM این محدودیت را رفع می‌کند: این مدل زبان بزرگ، سری‌های زمانی پزشکی چندمتغیره را به‌عنوان ورودی می‌پذیرد و می‌تواند روی آن‌ها استدلال کند، توضیح بدهد و نتایج را به زبانخوشح طبیعی ارائه کند، برای مثال در تشخیص فعالیت انسانی، تحلیل خواب، پاسخ به سؤالات ECG و تولید توضیحات سری‌های زمانی.

خلاصه: OpenTSLM، LLM مخصوص سری‌های زمانی پزشکی است که همزمان چند سری را پردازش و نتایج قابل فهم برای انسان تولید می‌کند. قاعدتا توقع میره روی داده های بورس و کریپتو و ... هم بشه فاین تیون کرد

این مدل توسط تیمی بین‌رشته‌ای از دانشگاه استنفورد، ETH زوریخ، گوگل ریسرچ توسعه داده شده است.

https://github.com/StanfordBDHG/OpenTSLM
25👍6🤯3❤‍🔥2
Forwarded from آموزش LLM و VLM
دوره MCP هاگینگ فیس منتشر شد

https://huggingface.co/learn/mcp-course/
10
یکی از دوستان برای پروژه ای نیاز به جمع آوری اطلاعاتی دارد، ممنون میشم کمک کنید:

درود و مهر

برای یک پروژه‌ی پژوهشی در زمینه‌ی «تشخیص همدلی در گفتگوهای فارسی» به کمکتون نیاز دارم.

لطفاً چند دقیقه وقت بذارید و به ۲۰ موقعیت کوتاهی که در این پرسشنامه هست، یک پاسخ «واقعی و طبیعی» بدید. (انگار که واقعاً اون جمله رو از یک دوست شنیدید و می‌خواید جوابش رو تایپ کنید).

پاسخ‌ها کاملاً ناشناس جمع‌آوری می‌شن.

هدف ما جمع‌آوری پاسخ‌های «انسانی» و «واقعی» هست، پس لطفاً رسمی یا کتابی جواب ندید.

ممنون از وقتی که می‌ذارید. 🙏

https://forms.gle/iUAfLpPmHNYz9Tfj6
6❤‍🔥1
Forwarded from آموزش LLM و VLM
تیم DeepSeek دوباره ترکوند! این‌بار با مدل متن‌باز DeepSeek-OCR که نه‌تنها OCR فوق‌دقیقیه، بلکه با فناوری جدیدش به نام Context Optical Compression می‌تونه ورودی‌ها رو تا ۱۰ برابر فشرده‌تر به مدل‌های زبانی بده — بدون افت دقت! 🔥

کاربردها:

استخراج متن از عکس، اسکرین‌شات و PDF

تبدیل PDF به Markdown یا HTML با حفظ جداول و ساختار

خلاصه‌سازی و تحلیل اسناد طولانی

استخراج داده از فاکتورها و فرم‌ها

پرسش‌وپاسخ درباره محتوای تصویر یا سند


🏆 دستاوردهای کلیدی:

فشرده‌سازی هوشمند زمینه (Context Compression)

دقت بالاتر از Donut و TrOCR

پشتیبانی از رزولوشن پویا برای اسناد بزرگ



🔗 deepseek.ai/blog/deepseek-ocr-context-compression


🔗https://huggingface.co/deepseek-ai/DeepSeek-OCR


#AI #OCR #DeepSeek #LLM #OpenSource
20❤‍🔥2👍1
پرسشنامه پروژه یکی از همراهان کانال،
اگر صلاح دونستید کمک‌کنید

سلام 👋
ما یه تیم دانشجویی هستیم که روی «تجربه و رفتار خرید کاربران» کار می‌کنیم.
پر کردن این پرسشنامه کمتر از سه دقیقه زمان می‌بره ⏱️
پاسخ‌هاتون به ما کمک می‌کنه تا نتایج تحقیق دقیق‌تر و مفیدتر باشه 🌱

ممنون از وقتی که می‌ذارید 💛 🙏🏼

https://survey.porsline.ir/s/N8qRLxby
Forwarded from آموزش LLM و VLM
DeepSeek-OCR:

https://colab.research.google.com/drive/1Fjzv3UYNoOt28HpM0RMUc8kG34EFgvuu?usp=sharing

با این مدل جدید دیپ سیک که قبلا توضیح دادیم
محتوای screenshots, PDF, form, table و handwritten یا متن نویزی را به markdown تمیز تبدیل کنید.
❤‍🔥192👌2
Forwarded from آموزش LLM و VLM
📢 از اونجایی که VRAM نسخه رایگان کولب برای لود مدل Deepseek-OCR کافی نیست و مشکل OOM میخورید، بعضی از همراهان گفتن نوت‌بوک روی Colab اجرا نمی‌شه ...

برای تست راحت مدل من مدلو با 4 بیت لود کردم که برای GPUهای T4 بی دردسر اجرا شه 👇

https://colab.research.google.com/github/Alireza-Akhavan/LLM/blob/main/deepseek_ocr_inference_4bit.ipynb

فقط کافیه عکس خودتونو کنارش بزارید و آدرسشو تو متغیر image_file بنویسید...
🔥17👍3❤‍🔥1
تبدیل PDF از اسلایدها (عکس) به PowerPoint با هوش مصنوعی
یه اسکریپت جالب نوشتم که هنوز کامل نیست ولی خیلی به دردم خورد! 💡
🎯 چیکار میکنه؟
یه فایل PDF از اسلایدها میگیره و با کمک DeepSeek-OCR با حفظ مکان عنوان‌ها، عکس‌ها و بقیه المان‌ها، یه PowerPoint کامل بهتون تحویل میده!
🔗 گیت‌هاب: github.com/Alireza-Akhavan/pdf_to_ppt_with_deepseekocr

📹 یه کیس واقعی ازش استفاده کردم:
کل ویدیوهای کورس Agentic از Andrew Ng رو پردازش کردم:
با ffmpeg فقط فریم‌هایی که تغییر داشتن رو سیو کردم
با OpenCV فریم‌هایی که چهره Andrew بود رو حذف کردم
اسلایدهایی که مرحله به مرحله کامل میشدن رو یکی کردم
همه رو تبدیل به یه PDF کردم
با DeepSeek-OCR تبدیل به Markdown و JSON (موقعیت‌ها) شد
با python-pptx همه چیز رو سر جاش گذاشتم و یه PPT درست کردم

📦 چی تو گیت‌هاب هست؟
فرآیند از PDF به بعد رو آپلود کردم. اگه علاقه دارید کاملش کنید یا ایده بدید، خوشحال میشم! 🙌

من میخواستم کار خودمو راه بندازم و خیلی روش وقت نذاشتم. اما با صرف وقت و سلیقه، قشنگ میشه یه محصول خفن ازش ساخت...

https://github.com/Alireza-Akhavan/pdf_to_ppt_with_deepseekocr
19👍7👌2❤‍🔥1🔥1
اگر شما در توسعه وب یا فرانت‌اند یا فول‌استک کار می‌کنید، این می‌تواند خبری خوب باشد که می‌توانید بدون خروج از حوزه JavaScript، وارد دنیای ML شوید؛
چون JavaScript دارد نقش بزرگ‌تری در حوزه یادگیری ماشین پیدا می‌کند، مخصوصاً برای محیط‌های کلاینت وب...

زبان Python هنوز در میدان یادگیری ماشین سلطه دارد، ولی به این دلیل نیست که به‌صورت ذاتی بهترین است، بلکه به خاطر این است که محیطِ کتابخانه‌ها (مثل NumPy، Pandas) و پشتیبانی شرکت‌ها بسیار خوب بوده، اما JavaScript به منظور باز کردنِ فرصت‌هایی جدید و اجرای مدل‌ها در مرورگر، دارد، وارد عرصهٔ یادگیری ماشین می‌شود.

اجرای مدل‌ها در سمت کاربر، می‌تواند مزایایی از لحاظ حریم خصوصی، تأخیر کمتر، نیاز کمتر به اتصال شبکه فراهم کند؛ مثلا، داده‌های حساس، دیگر لازم نیست، حتماً به سرور فرستاده شوند.

thenewstack.io/the-rise-of-javascript-in-machine-learning
👍6🤔31
🚀 Supercharge your OCR Pipelines with Open Models

📚 تیم Hugging Face توی آخرین بلاگش یه مرور عالی روی مدل‌های open-source OCR منتشر کرده.
از مدل‌های معروف مثل PaddleOCR گرفته تا مدل‌های جدیدتر مثل OlmOCR و Chandra،
همه بررسی شدن و نشون داده شده چطور می‌شه با fine-tune یا ترکیب Vision-Language Model‌ها
به دقت بالاتر و performance بهتر رسید.

💡 اگر روی taskهایی مثل document understanding، table extraction یا visual QA کار می‌کنین،
این پست پر از insightهای کاربردی برای انتخاب و deploy مدل‌های مناسب هست.

📎 لینک مطلب:
👉 huggingface.co/blog/ocr-open-models
👍125🔥5
Forwarded from آموزش LLM و VLM
This media is not supported in your browser
VIEW IN TELEGRAM
مدل‌های VLM (Vision-Language Model) فقط تصویر و زبان رو ترکیب می‌کنن و هدفشون درک یا توضیح صحنه‌هاست.
اما VLA (Vision-Language-Action)ها یه قدم جلوترن — اون‌ها علاوه بر دیدن و فهمیدن، اقدام هم می‌کنن؛ یعنی می‌تونن در محیط واقعی تصمیم بگیرن و عمل کنن.

🔹 تازه‌ترین نمونه این دسته، مدل GigaBrain-0 هست:
مدلی پایه‌ای برای ربات‌های هوشمند که با استفاده از داده‌های ساخته‌شده توسط world model (مثل ویدیوهای مصنوعی، انتقال از انسان یا شبیه‌ساز به واقعیت) یاد می‌گیره.
به لطف این روش، دیگه لازم نیست حجم زیادی داده واقعی از ربات‌ها جمع‌آوری بشه.

📈 نتیجه:

تعمیم بهتر بین وظایف مختلف

عملکرد قوی‌تر در کارهای پیچیده و بلندمدت

تصمیم‌گیری پایدارتر

نسخه سبک‌ترش، GigaBrain-0-Small هم برای سخت‌افزارهایی مثل NVIDIA Jetson AGX Orin بهینه شده.

💡 خلاصه: GigaBrain-0 گام بزرگیه به سمت ربات‌هایی که مثل انسان می‌بینن، می‌فهمن و عمل می‌کنن.

https://huggingface.co/open-gigaai

#vla #vlm
11❤‍🔥2
Forwarded from آموزش LLM و VLM
اینم یکی از همراهان عزیز کانال تو نظرات پست قبلی معرفی کرده

AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning

https://autovla.github.io/

#vla
9👍2
🎉 فقط ۳ روز دیگه (۴ نوامبر) تولد ۹ سالگی کاناله!
به همین مناسبت، تخفیف‌های ویژه روی همه دوره‌ها در راهه 😍
هم دوره‌های کلاس‌ویژن و هم مکتب‌خونه 🔥
منتظر باشید! 💫
31
This media is not supported in your browser
VIEW IN TELEGRAM
🎉🎂 تولد ۹ سالگی کانال Tensorflow مبارک! 🎂🎉
به مناسبت این اتفاق خاص، براتون یه تخفیف فوق‌العاده در نظر گرفتیم 👇

🔥 ۷۰٪ تخفیف روی همه دوره‌ها
💥 و ۱۰۰٪ تخفیف (رایگان!) برای دوره یادگیری ماشین

📚 دوره‌ها در مکتب‌خونه:

* 🤖 دوره یادگیری ماشین — کد تخفیف: happy9-ml
* 🧠 دوره دیپ‌لرنینگ — کد تخفیف: happy9-dl
* 🦙 دوره LLM — کد تخفیف: happy9-llm
* 👁 دوره OpenCV — کد تخفیف: happy9-opencv
* 📸 دوره Vision-Language Models (VLM) — کد تخفیف: happy9-vlm

🎓 همچنین تمامی دوره‌های کلاس‌ویژن (از مقدمات تا GNN!)
در دسترس شماست با ۷۰٪ تخفیف
🔗 https://class.vision/
کد تخفیف: haapy9

فقط تا 22 آبان! فرصت رو از دست نده و با این تخفیف ویژه شروع کن 🚀
28🔥32👍1
9 سال پیش در چنین روزی کانال تنسرفلو ایجاد شد...
🔥7215👀3😱2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🎉🎂 تولد ۹ سالگی کانال Tensorflow مبارک! 🎂🎉
به مناسبت این اتفاق خاص، براتون یه تخفیف فوق‌العاده در نظر گرفتیم 👇

🔥 ۷۰٪ تخفیف روی همه دوره‌ها
💥 و ۱۰۰٪ تخفیف (رایگان!) برای دوره یادگیری ماشین

📚 دوره‌ها در مکتب‌خونه:

* 🤖 دوره یادگیری ماشین — کد تخفیف: happy9-ml
* 🧠 دوره دیپ‌لرنینگ — کد تخفیف: happy9-dl
* 🦙 دوره LLM — کد تخفیف: happy9-llm
* 👁 دوره OpenCV — کد تخفیف: happy9-opencv
* 📸 دوره Vision-Language Models (VLM) — کد تخفیف: happy9-vlm

🎓 همچنین تمامی دوره‌های کلاس‌ویژن (از مقدمات تا GNN!)
در دسترس شماست با ۷۰٪ تخفیف
🔗 https://class.vision/
کد تخفیف: haapy9

فقط تا 22 آبان! فرصت رو از دست نده و با این تخفیف ویژه شروع کن 🚀
7❤‍🔥1👏1
2025/11/08 01:04:36
Back to Top
HTML Embed Code: