Telegram Web
Veo 3 shows emergent zero-shot abilities across many visual tasks, indicating that video models are on a path to becoming vision foundation models—just like LLMs became foundation models for language.
توی این مقاله از محققین گوگل دست‌آورد جدیدی رو نشون میده که مدل‌های ویدیویی دارن کم کم خیلی بهتر میشن که از پس اتفاقات فیزیکی و کارهای بنیادی برمیان.

#Video #AI #Article #Arxiv #Veo3 #Veo #Google #Deepmind
@pythony

https://video-zero-shot.github.io
😨11👍2
Media is too big
VIEW IN TELEGRAM
🌟 آموزش مدل‌های زبانی-تصویری (VLM) منتشر شد🎉


مدل‌های زبانی-تصویری (VLM) نسل جدیدی از مدل‌های مولد هستن که علاوه بر متن، تصویر رو هم می‌فهمن. یعنی می‌تونن عکس رو توصیف کنن، به سوال درباره‌ی محتواش جواب بدن و حتی بین متن و تصویر ارتباط برقرار کنن.

📚 در این دوره یاد می‌گیرید:

- ساختار و معماری مدل‌های VLM

- کاربردهای جذاب مثل پرسش‌وپاسخ تصویری و مولتی‌مودال

- نحوه‌ی آموزش و به‌کارگیری این مدل‌ها در پروژه‌های واقعی

🎁 تخفیف ویژه 70٪ با کد زیر:

COUPON-c4cd3

🔥 برای اطلاع از  کدهای تخفیف، همین حالا عضو کانال تلگرام ما بشید:
👇👇👇
@llm_huggingface
👆👆👆

🎓ما رو تو اینستاگرام هم دنبال کنید...

https://www.instagram.com/class.vision

🔗 مشاهده دوره:
https://mktb.me/e3gx/
9
2025/10/04 13:39:58
Back to Top
HTML Embed Code: