tgoop.com/bigdatai/1124
Last Update:
VideoLLaMA - это серия мультимодальных моделей (MLLM), разработанных для различных задач понимания изображений и видео!
Модели подойдут для создания универсальных приложений, способных решать широкий спектр задач, связанных с анализом визуальной информации.
🖐️Результаты 7B модели: DocVQA: 94,9, MathVision: 26,2, VideoMME: 66,2/70,3, MLVU: 73,0
🤏 Результаты 2B-модели для мобильных устройств: MMMU: 45.3, VideoMME: 59.6/63.4
▪ Github: https://github.com/DAMO-NLP-SG/VideoLLaMA3
▪Image Demo: https://huggingface.co/spaces/lixin4ever/VideoLLaMA3-Image
▪Video Demo: https://huggingface.co/spaces/lixin4ever/VideoLLaMA3
@ai_machinelearning_big_data
#video #MLLM #opensource #VideoLLaMA #VideoUnderstanding