BIGDATAI Telegram 1123
Forwarded from Machinelearning
🔥 VideoLLaMA 3: Frontier Multimodal Foundation Models for Video Understanding


VideoLLaMA - это серия мультимодальных моделей (MLLM), разработанных для различных задач понимания изображений и видео!

🌟 Модели поддерживают возможности обработки текста, изображений и видео.

Модели подойдут для создания универсальных приложений, способных решать широкий спектр задач, связанных с анализом визуальной информации.

🖐️Результаты 7B модели: DocVQA: 94,9, MathVision: 26,2, VideoMME: 66,2/70,3, MLVU: 73,0
🤏 Результаты 2B-модели для мобильных устройств: MMMU: 45.3, VideoMME: 59.6/63.4

🔐 Лицензирование: Apache-2.0

Github: https://github.com/DAMO-NLP-SG/VideoLLaMA3
Image Demo: https://huggingface.co/spaces/lixin4ever/VideoLLaMA3-Image
Video Demo: https://huggingface.co/spaces/lixin4ever/VideoLLaMA3

@ai_machinelearning_big_data

#video #MLLM #opensource #VideoLLaMA #VideoUnderstanding
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍2



tgoop.com/bigdatai/1123
Create:
Last Update:

🔥 VideoLLaMA 3: Frontier Multimodal Foundation Models for Video Understanding


VideoLLaMA - это серия мультимодальных моделей (MLLM), разработанных для различных задач понимания изображений и видео!

🌟 Модели поддерживают возможности обработки текста, изображений и видео.

Модели подойдут для создания универсальных приложений, способных решать широкий спектр задач, связанных с анализом визуальной информации.

🖐️Результаты 7B модели: DocVQA: 94,9, MathVision: 26,2, VideoMME: 66,2/70,3, MLVU: 73,0
🤏 Результаты 2B-модели для мобильных устройств: MMMU: 45.3, VideoMME: 59.6/63.4

🔐 Лицензирование: Apache-2.0

Github: https://github.com/DAMO-NLP-SG/VideoLLaMA3
Image Demo: https://huggingface.co/spaces/lixin4ever/VideoLLaMA3-Image
Video Demo: https://huggingface.co/spaces/lixin4ever/VideoLLaMA3

@ai_machinelearning_big_data

#video #MLLM #opensource #VideoLLaMA #VideoUnderstanding

BY Big Data AI









Share with your friend now:
tgoop.com/bigdatai/1123

View MORE
Open in Telegram


Telegram News

Date: |

Unlimited number of subscribers per channel More>> The best encrypted messaging apps Telegram message that reads: "Bear Market Screaming Therapy Group. You are only allowed to send screaming voice notes. Everything else = BAN. Text pics, videos, stickers, gif = BAN. Anything other than screaming = BAN. You think you are smart = BAN. Developing social channels based on exchanging a single message isn’t exactly new, of course. Back in 2014, the “Yo” app was launched with the sole purpose of enabling users to send each other the greeting “Yo.”
from us


Telegram Big Data AI
FROM American