Forwarded from آموزش LLM و VLM
امروز نسخه سبکتر Qwen3-VL رو منتشر شد!
امروز، ۴ اکتبر ۲۰۲۵، تیم Qwen دو مدل جدید از خانواده Qwen3-VL رو منتشر کرد:
مدل Qwen3-VL-30B-A3B-Instruct
و Qwen3-VL-30B-A3B-Thinking
بههمراه نسخهی FP8 برای هر دو مدل که حجم و مصرف حافظه رو بهطور قابلتوجهی پایین میاره.
تا قبل از این، Qwen3-VL فقط مدلهای خیلی سنگین داشت و عملاً نسخهای سبک یا بهینه برای استفاده عمومی نداشت. حالا با این نسخه FP8 و تنظیمات جدید، بالاخره میشه مدلهای Qwen3-VL رو راحتتر روی GPUهای معمولی هم بالا آورد.
🔹 نسخه Instruct بیشتر برای کارهای گفتوگومحور و دستورمحور طراحی شده.
🔹 نسخه Thinking روی استدلال پیچیده و فهم عمیقتر تصویر و ویدیو تمرکز داره.
هر دو مدل از فهم متن و تصویر پشتیبانی میکنن، OCR قوی دارن (تا ۳۲ زبان)، و حتی میتونن از روی تصویر کد HTML یا JS بسازن!
پشتیبانی از context طولانی (تا ۱ میلیون توکن) هم داره — چیزی که برای پروژههای چندرسانهای واقعاً غنیمته.
📦 https://github.com/QwenLM/Qwen3-VL
امروز، ۴ اکتبر ۲۰۲۵، تیم Qwen دو مدل جدید از خانواده Qwen3-VL رو منتشر کرد:
مدل Qwen3-VL-30B-A3B-Instruct
و Qwen3-VL-30B-A3B-Thinking
بههمراه نسخهی FP8 برای هر دو مدل که حجم و مصرف حافظه رو بهطور قابلتوجهی پایین میاره.
تا قبل از این، Qwen3-VL فقط مدلهای خیلی سنگین داشت و عملاً نسخهای سبک یا بهینه برای استفاده عمومی نداشت. حالا با این نسخه FP8 و تنظیمات جدید، بالاخره میشه مدلهای Qwen3-VL رو راحتتر روی GPUهای معمولی هم بالا آورد.
🔹 نسخه Instruct بیشتر برای کارهای گفتوگومحور و دستورمحور طراحی شده.
🔹 نسخه Thinking روی استدلال پیچیده و فهم عمیقتر تصویر و ویدیو تمرکز داره.
هر دو مدل از فهم متن و تصویر پشتیبانی میکنن، OCR قوی دارن (تا ۳۲ زبان)، و حتی میتونن از روی تصویر کد HTML یا JS بسازن!
پشتیبانی از context طولانی (تا ۱ میلیون توکن) هم داره — چیزی که برای پروژههای چندرسانهای واقعاً غنیمته.
📦 https://github.com/QwenLM/Qwen3-VL
👍12❤1❤🔥1
دیاگرام بکشید، هوش مصنوعی کدش رو بزنه:
AgentKit
thenewstack.io/openai-launches-a-no-code-agent-builder
محصول جدید OpenAI، یعنی AgentKit، یک ابزار سازنده ایجنت بدون کد است که به توسعهدهندگان و شرکتها امکان ساخت و استقرار سریع سیستمهای چند ایجنتی را میدهد.
همچنین، Apps in ChatGPT به کاربران اجازه میدهد تا برنامههای شخص ثالث، مانند Zillow، را مستقیماً از طریق رابط چتجیپیتی فراخوانی و با آنها تعامل داشته باشند.
AgentKit
thenewstack.io/openai-launches-a-no-code-agent-builder
محصول جدید OpenAI، یعنی AgentKit، یک ابزار سازنده ایجنت بدون کد است که به توسعهدهندگان و شرکتها امکان ساخت و استقرار سریع سیستمهای چند ایجنتی را میدهد.
همچنین، Apps in ChatGPT به کاربران اجازه میدهد تا برنامههای شخص ثالث، مانند Zillow، را مستقیماً از طریق رابط چتجیپیتی فراخوانی و با آنها تعامل داشته باشند.
The New Stack
OpenAI Launches a No-Code Agent Builder
At its developer conference in San Francisco, OpenAI beta launched AgentKit, a no-code agent builder, and the ability to invoke third-party apps in ChatGPT.
⚡7❤🔥2👍2❤1
انقلاب سامسونگ در هوش مصنوعی: مدل ۷ میلیونی که غولها را شکست داد
فرانسیس شوله اینجا، این رو بازنشر کرده بود:
https://fixupx.com/jacksonatkinsx/status/1975556245617512460?s=12
@cvision
@llm_huggingface
فرانسیس شوله اینجا، این رو بازنشر کرده بود:
https://fixupx.com/jacksonatkinsx/status/1975556245617512460?s=12
وقتی این مقاله را خواندم مغزم هنگ کرد.
یک مدل خیلی کوچک با تنها ۷ میلیون پارامتر همین الان در آزمونهای استدلال روی هر دو مجموعه ARG-AGI 1 و ARC-AGI 2، از DeepSeek-R1، Gemini 2.5 pro و o3-mini جلو زد.
اسمش Tiny Recursive Model (TRM) از سامسونگ است.
چطور مدلی که ۱۰٬۰۰۰ برابر کوچکتر است میتواند باهوشتر باشد؟
نحوه کارش اینطور است:
نوشتن یک پاسخ اولیه: برخلاف یک مدل زبان بزرگ (LLM) که کلمهبهکلمه تولید میکند، TRM ابتدا یک «پیشنویس» سریع و کامل از راهحل تولید میکند. این را میتوان اولین حدس خام آن دانست.
خلق یک «اسکراچپد (scratchpad)»: سپس فضایی جداگانه برای افکار درونیاش میسازد — یک «اسکراچپد» استدلال نهفته. اینجا است که جادوی واقعی رخ میدهد.
خودانتقادی شدید: مدل وارد یک حلقهٔ درونی شدید میشود. پیشنویسش را با مسئلهٔ اصلی مقایسه میکند و بارها و بارها (۶ بار پشتسرِ هم) استدلالش را در اسکرچپد تصحیح میکند و از خودش میپرسد «آیا منطق من درست است؟ خطاها کجا هستند؟»
بازنویسی پاسخ: پس از این «تفکر» متمرکز، از منطق بهبود یافتهٔ موجود در اسکرچپد استفاده میکند تا یک پیشنویس کاملاً جدید و بسیار بهتر از پاسخ نهایی بسازد.
تکرار تا رسیدن به اطمینان: کل فرایند — پیشنویس، تفکر، اصلاح — تا ۱۶ بار تکرار میشود. هر چرخه مدل را به حلِ مسئلهای صحیحتر و منطقیتر نزدیکتر میکند.
چرا این مهم است:
رهبران کسبوکار: این همان چیزی است که برتری الگوریتمی (algorithmic advantage) به نظر میرسد. در حالی که رقبا برای مقیاسبندی خام هزینههای عظیمی در فرایند inference میپردازند، یک مدل هوشمندتر و کارآمدتر میتواند عملکرد بهتر را با کسری از هزینه ارائه دهد.
پژوهشگران: این تأیید مهمی برای ایدههای نوروسیمبولیک (neuro-symbolic) است. توانایی مدل در «تفکر» بازگشتی (recursively) پیش از «عمل»، نشان میدهد که معماری، نه صرفاً مقیاس، میتواند محرک اصلی قابلیت استدلال باشد.
عملیکنندگان: استدلال در سطح SOTA (state-of-the-art) دیگر پشت خوشههای GPU میلیارد دلاری قفلشده نیست. این مقاله یک نقشهراه بسیار کارآمد و کمپارامتر برای ساخت سامانههای استدلالی (reasoners) تخصصی فراهم میکند که میتوانند در هر جا اجرا شوند.
این فقط کوچکسازیِ مقیاس نیست؛ این یک روش کاملاً متفاوت و هدفمندتر برای حل مسائل است.
@cvision
@llm_huggingface
🧵 Thread • FixupX
Jackson Atkins (@JacksonAtkinsX)
My brain broke when I read this paper.
A tiny 7 Million parameter model just beat DeepSeek-R1, Gemini 2.5 pro, and o3-mini at reasoning on both ARG-AGI 1 and ARC-AGI 2.
It's called Tiny Recursive Model (TRM) from Samsung.
How can a model 10,000x smaller…
A tiny 7 Million parameter model just beat DeepSeek-R1, Gemini 2.5 pro, and o3-mini at reasoning on both ARG-AGI 1 and ARC-AGI 2.
It's called Tiny Recursive Model (TRM) from Samsung.
How can a model 10,000x smaller…
🤯26❤17👍4👌3❤🔥2
Forwarded from آموزش LLM و VLM
Media is too big
VIEW IN TELEGRAM
🌟 مدلهای زبانی-تصویری (VLM)| مدرس: علیرضا اخوانپور
مدلهای زبانی-تصویری (VLM) نسل جدیدی از مدلهای مولد هستن که علاوه بر متن، تصویر رو هم میفهمن. یعنی میتونن عکس رو توصیف کنن، به سوال دربارهی محتواش جواب بدن و حتی بین متن و تصویر ارتباط برقرار کنن.
📚 در این دوره یاد میگیرید:
🔗 مشاهده دوره:
https://mktb.me/e3gx/
کد تخفیف 70 درصدی دوره جدید VLM
——————————————
🎁همچنین به عنوان پیش نیاز با 70 درصد تخفیف ویژه به مدت محدود دوره محبوب و پرفروش LLM را نیز میتوانید با کد زیر تهیه کنید.
https://mktb.me/04dr/
❌ حتما موقع استفاده تیک دسترسی کامل را بردارید، اگر قبلا در سبد خرید بوده حذف کرده و مجدد با برداشتن این تیک به سبد خرد خود اضافه کنید.
~~~
کانال تلگرامی دوره
@llm_huggingface
مدلهای زبانی-تصویری (VLM) نسل جدیدی از مدلهای مولد هستن که علاوه بر متن، تصویر رو هم میفهمن. یعنی میتونن عکس رو توصیف کنن، به سوال دربارهی محتواش جواب بدن و حتی بین متن و تصویر ارتباط برقرار کنن.
📚 در این دوره یاد میگیرید:
- ساختار و معماری مدلهای VLM
- کاربردهای جذاب مثل پرسشوپاسخ تصویری و مولتیمودال
- نحوهی آموزش و بهکارگیری این مدلها در پروژههای واقعی
🔗 مشاهده دوره:
https://mktb.me/e3gx/
کد تخفیف 70 درصدی دوره جدید VLM
COUPON-c4cd3——————————————
🎁همچنین به عنوان پیش نیاز با 70 درصد تخفیف ویژه به مدت محدود دوره محبوب و پرفروش LLM را نیز میتوانید با کد زیر تهیه کنید.
COUPON-c2e42https://mktb.me/04dr/
❌ حتما موقع استفاده تیک دسترسی کامل را بردارید، اگر قبلا در سبد خرید بوده حذف کرده و مجدد با برداشتن این تیک به سبد خرد خود اضافه کنید.
~~~
کانال تلگرامی دوره
@llm_huggingface
❤7❤🔥1👍1
Forwarded from 🚀 کلاسویژن | یادگیری هوش مصنوعی از پایه تا پیشرفته
تخفیف 70 درصدی دوره "آموزش پردازش تصویر و بینایی ماشین با OpenCV" برای 200 نفر
https://mktb.me/81nt/
❌برای استفاده کد تخفیف، باید قبل اضافه کردن دوره به سبد خرید، تیک دسترسی کامل را بردارید
COUPON-cd4f3
https://mktb.me/81nt/
❌برای استفاده کد تخفیف، باید قبل اضافه کردن دوره به سبد خرید، تیک دسترسی کامل را بردارید
مکتبخونه
آموزش پردازش تصویر و بینایی ماشین با OpenCV
دوره آموزش پردازش تصویر و بینایی ماشین با opencv برای ایجاد یک پایه قوی در بینایی کامپیوتر طراحی شده است. در این دوره شما درک کاملی از تقریبا تمام ابزارهای OpenCV برای پردازش تصویر، بینایی کامپیوتری، پردازش ویدئو و اصول اولیه هوش مصنوعی خواهید داشت.
❤7❤🔥1
امروزه LLMها دیگر فقط متن نمیفهمند؛ آنها میتوانند دادههای چندرسانهای مثل صدا، تصویر و متن را پردازش کنند و عملکردی فراتر از مدلهای تخصصی ارائه دهند. ولی هنوز مشکل بزرگشان این است که نمیتوانند سریهای زمانی (Time Series) را بهخوبی تحلیل کنند.
حالا OpenTSLM این محدودیت را رفع میکند: این مدل زبان بزرگ، سریهای زمانی پزشکی چندمتغیره را بهعنوان ورودی میپذیرد و میتواند روی آنها استدلال کند، توضیح بدهد و نتایج را به زبانخوشح طبیعی ارائه کند، برای مثال در تشخیص فعالیت انسانی، تحلیل خواب، پاسخ به سؤالات ECG و تولید توضیحات سریهای زمانی.
خلاصه: OpenTSLM، LLM مخصوص سریهای زمانی پزشکی است که همزمان چند سری را پردازش و نتایج قابل فهم برای انسان تولید میکند. قاعدتا توقع میره روی داده های بورس و کریپتو و ... هم بشه فاین تیون کرد
این مدل توسط تیمی بینرشتهای از دانشگاه استنفورد، ETH زوریخ، گوگل ریسرچ توسعه داده شده است.
https://github.com/StanfordBDHG/OpenTSLM
حالا OpenTSLM این محدودیت را رفع میکند: این مدل زبان بزرگ، سریهای زمانی پزشکی چندمتغیره را بهعنوان ورودی میپذیرد و میتواند روی آنها استدلال کند، توضیح بدهد و نتایج را به زبانخوشح طبیعی ارائه کند، برای مثال در تشخیص فعالیت انسانی، تحلیل خواب، پاسخ به سؤالات ECG و تولید توضیحات سریهای زمانی.
خلاصه: OpenTSLM، LLM مخصوص سریهای زمانی پزشکی است که همزمان چند سری را پردازش و نتایج قابل فهم برای انسان تولید میکند. قاعدتا توقع میره روی داده های بورس و کریپتو و ... هم بشه فاین تیون کرد
این مدل توسط تیمی بینرشتهای از دانشگاه استنفورد، ETH زوریخ، گوگل ریسرچ توسعه داده شده است.
https://github.com/StanfordBDHG/OpenTSLM
❤23👍5🤯3❤🔥2
یکی از دوستان برای پروژه ای نیاز به جمع آوری اطلاعاتی دارد، ممنون میشم کمک کنید:
درود و مهر
برای یک پروژهی پژوهشی در زمینهی «تشخیص همدلی در گفتگوهای فارسی» به کمکتون نیاز دارم.
لطفاً چند دقیقه وقت بذارید و به ۲۰ موقعیت کوتاهی که در این پرسشنامه هست، یک پاسخ «واقعی و طبیعی» بدید. (انگار که واقعاً اون جمله رو از یک دوست شنیدید و میخواید جوابش رو تایپ کنید).
پاسخها کاملاً ناشناس جمعآوری میشن.
هدف ما جمعآوری پاسخهای «انسانی» و «واقعی» هست، پس لطفاً رسمی یا کتابی جواب ندید.
ممنون از وقتی که میذارید. 🙏
https://forms.gle/iUAfLpPmHNYz9Tfj6
Google Docs
پرسشنامه واکنش همدلانه به جملات احساسی
در این پژوهش قصد داریم نحوهی واکنش افراد به جملات احساسی را بررسی کنیم.
لطفاً برای هر جملهی زیر، پاسخی بنویسید که در گفتوگوی واقعی ممکن است بگویید.
پاسخها باید طبیعی و انسانی باشند، نه رسمی یا ساختگی.
لطفاً از نوشتن پاسخهای تکراری یا یککلمهای…
لطفاً برای هر جملهی زیر، پاسخی بنویسید که در گفتوگوی واقعی ممکن است بگویید.
پاسخها باید طبیعی و انسانی باشند، نه رسمی یا ساختگی.
لطفاً از نوشتن پاسخهای تکراری یا یککلمهای…
❤6❤🔥1
Forwarded from آموزش LLM و VLM
تیم DeepSeek دوباره ترکوند! اینبار با مدل متنباز DeepSeek-OCR که نهتنها OCR فوقدقیقیه، بلکه با فناوری جدیدش به نام Context Optical Compression میتونه ورودیها رو تا ۱۰ برابر فشردهتر به مدلهای زبانی بده — بدون افت دقت! 🔥
کاربردها:
استخراج متن از عکس، اسکرینشات و PDF
تبدیل PDF به Markdown یا HTML با حفظ جداول و ساختار
خلاصهسازی و تحلیل اسناد طولانی
استخراج داده از فاکتورها و فرمها
پرسشوپاسخ درباره محتوای تصویر یا سند
🏆 دستاوردهای کلیدی:
فشردهسازی هوشمند زمینه (Context Compression)
دقت بالاتر از Donut و TrOCR
پشتیبانی از رزولوشن پویا برای اسناد بزرگ
🔗 deepseek.ai/blog/deepseek-ocr-context-compression
🔗https://huggingface.co/deepseek-ai/DeepSeek-OCR
#AI #OCR #DeepSeek #LLM #OpenSource
کاربردها:
استخراج متن از عکس، اسکرینشات و PDF
تبدیل PDF به Markdown یا HTML با حفظ جداول و ساختار
خلاصهسازی و تحلیل اسناد طولانی
استخراج داده از فاکتورها و فرمها
پرسشوپاسخ درباره محتوای تصویر یا سند
🏆 دستاوردهای کلیدی:
فشردهسازی هوشمند زمینه (Context Compression)
دقت بالاتر از Donut و TrOCR
پشتیبانی از رزولوشن پویا برای اسناد بزرگ
🔗 deepseek.ai/blog/deepseek-ocr-context-compression
🔗https://huggingface.co/deepseek-ai/DeepSeek-OCR
#AI #OCR #DeepSeek #LLM #OpenSource
❤20❤🔥2
پرسشنامه پروژه یکی از همراهان کانال،
اگر صلاح دونستید کمککنید
اگر صلاح دونستید کمککنید
سلام 👋
ما یه تیم دانشجویی هستیم که روی «تجربه و رفتار خرید کاربران» کار میکنیم.
پر کردن این پرسشنامه کمتر از سه دقیقه زمان میبره ⏱️
پاسخهاتون به ما کمک میکنه تا نتایج تحقیق دقیقتر و مفیدتر باشه 🌱
ممنون از وقتی که میذارید 💛 🙏🏼
https://survey.porsline.ir/s/N8qRLxby
Porsline
بررسی رفتار خرید کاربران
با پُرسلاین به راحتی پرسشنامه خود را طراحی و ارسال کنید و با گزارشهای لحظهای آن به سرعت تصمیم بگیرید
اخیرا OpenAI یک مرورگر وب جدید با هوش مصنوعی معرفی کرده به اسم ChatGPT Atlas
techcrunch.com/2025/10/21/openai-launches-an-ai-powered-browser-chatgpt-atlas
neowin.net/news/openai-introduces-chatgpt-atlas-a-new-ai-powered-web-browser
techcrunch.com/2025/10/21/openai-launches-an-ai-powered-browser-chatgpt-atlas
neowin.net/news/openai-introduces-chatgpt-atlas-a-new-ai-powered-web-browser
TechCrunch
OpenAI launches an AI-powered browser: ChatGPT Atlas | TechCrunch
OpenAI is launching an AI-powered browser, its latest challenge to Google as the main way people find information online.
👍6
Forwarded from آموزش LLM و VLM
DeepSeek-OCR:
https://colab.research.google.com/drive/1Fjzv3UYNoOt28HpM0RMUc8kG34EFgvuu?usp=sharing
با این مدل جدید دیپ سیک که قبلا توضیح دادیم
محتوای screenshots, PDF, form, table و handwritten یا متن نویزی را به markdown تمیز تبدیل کنید.
https://colab.research.google.com/drive/1Fjzv3UYNoOt28HpM0RMUc8kG34EFgvuu?usp=sharing
با این مدل جدید دیپ سیک که قبلا توضیح دادیم
محتوای screenshots, PDF, form, table و handwritten یا متن نویزی را به markdown تمیز تبدیل کنید.
Google
DeepseekOCR.ipynb
Colab notebook
❤🔥19👌2❤1
Forwarded from آموزش LLM و VLM
📢 از اونجایی که VRAM نسخه رایگان کولب برای لود مدل Deepseek-OCR کافی نیست و مشکل OOM میخورید، بعضی از همراهان گفتن نوتبوک روی Colab اجرا نمیشه ...
برای تست راحت مدل من مدلو با 4 بیت لود کردم که برای GPUهای T4 بی دردسر اجرا شه 👇
https://colab.research.google.com/github/Alireza-Akhavan/LLM/blob/main/deepseek_ocr_inference_4bit.ipynb
فقط کافیه عکس خودتونو کنارش بزارید و آدرسشو تو متغیر image_file بنویسید...
برای تست راحت مدل من مدلو با 4 بیت لود کردم که برای GPUهای T4 بی دردسر اجرا شه 👇
https://colab.research.google.com/github/Alireza-Akhavan/LLM/blob/main/deepseek_ocr_inference_4bit.ipynb
فقط کافیه عکس خودتونو کنارش بزارید و آدرسشو تو متغیر image_file بنویسید...
🔥16👍3❤🔥1
تبدیل PDF از اسلایدها (عکس) به PowerPoint با هوش مصنوعی
یه اسکریپت جالب نوشتم که هنوز کامل نیست ولی خیلی به دردم خورد! 💡
🎯 چیکار میکنه؟
یه فایل PDF از اسلایدها میگیره و با کمک DeepSeek-OCR با حفظ مکان عنوانها، عکسها و بقیه المانها، یه PowerPoint کامل بهتون تحویل میده!
🔗 گیتهاب: github.com/Alireza-Akhavan/pdf_to_ppt_with_deepseekocr
📹 یه کیس واقعی ازش استفاده کردم:
کل ویدیوهای کورس Agentic از Andrew Ng رو پردازش کردم:
✅ با ffmpeg فقط فریمهایی که تغییر داشتن رو سیو کردم
✅ با OpenCV فریمهایی که چهره Andrew بود رو حذف کردم
✅ اسلایدهایی که مرحله به مرحله کامل میشدن رو یکی کردم
✅ همه رو تبدیل به یه PDF کردم
✅ با DeepSeek-OCR تبدیل به Markdown و JSON (موقعیتها) شد
✅ با python-pptx همه چیز رو سر جاش گذاشتم و یه PPT درست کردم
📦 چی تو گیتهاب هست؟
فرآیند از PDF به بعد رو آپلود کردم. اگه علاقه دارید کاملش کنید یا ایده بدید، خوشحال میشم! 🙌
من میخواستم کار خودمو راه بندازم و خیلی روش وقت نذاشتم. اما با صرف وقت و سلیقه، قشنگ میشه یه محصول خفن ازش ساخت...
https://github.com/Alireza-Akhavan/pdf_to_ppt_with_deepseekocr
یه اسکریپت جالب نوشتم که هنوز کامل نیست ولی خیلی به دردم خورد! 💡
🎯 چیکار میکنه؟
یه فایل PDF از اسلایدها میگیره و با کمک DeepSeek-OCR با حفظ مکان عنوانها، عکسها و بقیه المانها، یه PowerPoint کامل بهتون تحویل میده!
🔗 گیتهاب: github.com/Alireza-Akhavan/pdf_to_ppt_with_deepseekocr
📹 یه کیس واقعی ازش استفاده کردم:
کل ویدیوهای کورس Agentic از Andrew Ng رو پردازش کردم:
✅ با ffmpeg فقط فریمهایی که تغییر داشتن رو سیو کردم
✅ با OpenCV فریمهایی که چهره Andrew بود رو حذف کردم
✅ اسلایدهایی که مرحله به مرحله کامل میشدن رو یکی کردم
✅ همه رو تبدیل به یه PDF کردم
✅ با DeepSeek-OCR تبدیل به Markdown و JSON (موقعیتها) شد
✅ با python-pptx همه چیز رو سر جاش گذاشتم و یه PPT درست کردم
📦 چی تو گیتهاب هست؟
فرآیند از PDF به بعد رو آپلود کردم. اگه علاقه دارید کاملش کنید یا ایده بدید، خوشحال میشم! 🙌
من میخواستم کار خودمو راه بندازم و خیلی روش وقت نذاشتم. اما با صرف وقت و سلیقه، قشنگ میشه یه محصول خفن ازش ساخت...
https://github.com/Alireza-Akhavan/pdf_to_ppt_with_deepseekocr
❤16👍6👌2❤🔥1🔥1
اگر شما در توسعه وب یا فرانتاند یا فولاستک کار میکنید، این میتواند خبری خوب باشد که میتوانید بدون خروج از حوزه JavaScript، وارد دنیای ML شوید؛
چون JavaScript دارد نقش بزرگتری در حوزه یادگیری ماشین پیدا میکند، مخصوصاً برای محیطهای کلاینت وب...
زبان Python هنوز در میدان یادگیری ماشین سلطه دارد، ولی به این دلیل نیست که بهصورت ذاتی بهترین است، بلکه به خاطر این است که محیطِ کتابخانهها (مثل NumPy، Pandas) و پشتیبانی شرکتها بسیار خوب بوده، اما JavaScript به منظور باز کردنِ فرصتهایی جدید و اجرای مدلها در مرورگر، دارد، وارد عرصهٔ یادگیری ماشین میشود.
اجرای مدلها در سمت کاربر، میتواند مزایایی از لحاظ حریم خصوصی، تأخیر کمتر، نیاز کمتر به اتصال شبکه فراهم کند؛ مثلا، دادههای حساس، دیگر لازم نیست، حتماً به سرور فرستاده شوند.
thenewstack.io/the-rise-of-javascript-in-machine-learning
چون JavaScript دارد نقش بزرگتری در حوزه یادگیری ماشین پیدا میکند، مخصوصاً برای محیطهای کلاینت وب...
زبان Python هنوز در میدان یادگیری ماشین سلطه دارد، ولی به این دلیل نیست که بهصورت ذاتی بهترین است، بلکه به خاطر این است که محیطِ کتابخانهها (مثل NumPy، Pandas) و پشتیبانی شرکتها بسیار خوب بوده، اما JavaScript به منظور باز کردنِ فرصتهایی جدید و اجرای مدلها در مرورگر، دارد، وارد عرصهٔ یادگیری ماشین میشود.
اجرای مدلها در سمت کاربر، میتواند مزایایی از لحاظ حریم خصوصی، تأخیر کمتر، نیاز کمتر به اتصال شبکه فراهم کند؛ مثلا، دادههای حساس، دیگر لازم نیست، حتماً به سرور فرستاده شوند.
thenewstack.io/the-rise-of-javascript-in-machine-learning
The New Stack
The Rise of JavaScript in Machine Learning
Full-stack developer Laurie Lay explains why using JavaScript and Node.js with machine learning can improve an app's functions and security.
👍6🤔2❤1
🚀 Supercharge your OCR Pipelines with Open Models
📚 تیم Hugging Face توی آخرین بلاگش یه مرور عالی روی مدلهای open-source OCR منتشر کرده.
از مدلهای معروف مثل PaddleOCR گرفته تا مدلهای جدیدتر مثل OlmOCR و Chandra،
همه بررسی شدن و نشون داده شده چطور میشه با fine-tune یا ترکیب Vision-Language Modelها
به دقت بالاتر و performance بهتر رسید.
💡 اگر روی taskهایی مثل document understanding، table extraction یا visual QA کار میکنین،
این پست پر از insightهای کاربردی برای انتخاب و deploy مدلهای مناسب هست.
📎 لینک مطلب:
👉 huggingface.co/blog/ocr-open-models
📚 تیم Hugging Face توی آخرین بلاگش یه مرور عالی روی مدلهای open-source OCR منتشر کرده.
از مدلهای معروف مثل PaddleOCR گرفته تا مدلهای جدیدتر مثل OlmOCR و Chandra،
همه بررسی شدن و نشون داده شده چطور میشه با fine-tune یا ترکیب Vision-Language Modelها
به دقت بالاتر و performance بهتر رسید.
💡 اگر روی taskهایی مثل document understanding، table extraction یا visual QA کار میکنین،
این پست پر از insightهای کاربردی برای انتخاب و deploy مدلهای مناسب هست.
📎 لینک مطلب:
👉 huggingface.co/blog/ocr-open-models
👍9❤4🔥4
