tgoop.com/bigdatai/1123
Last Update:
VideoLLaMA - ΡΡΠΎ ΡΠ΅ΡΠΈΡ ΠΌΡΠ»ΡΡΠΈΠΌΠΎΠ΄Π°Π»ΡΠ½ΡΡ
ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ (MLLM), ΡΠ°Π·ΡΠ°Π±ΠΎΡΠ°Π½Π½ΡΡ
Π΄Π»Ρ ΡΠ°Π·Π»ΠΈΡΠ½ΡΡ
Π·Π°Π΄Π°Ρ ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΡ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠΉ ΠΈ Π²ΠΈΠ΄Π΅ΠΎ!
ΠΠΎΠ΄Π΅Π»ΠΈ ΠΏΠΎΠ΄ΠΎΠΉΠ΄ΡΡ Π΄Π»Ρ ΡΠΎΠ·Π΄Π°Π½ΠΈΡ ΡΠ½ΠΈΠ²Π΅ΡΡΠ°Π»ΡΠ½ΡΡ
ΠΏΡΠΈΠ»ΠΎΠΆΠ΅Π½ΠΈΠΉ, ΡΠΏΠΎΡΠΎΠ±Π½ΡΡ
ΡΠ΅ΡΠ°ΡΡ ΡΠΈΡΠΎΠΊΠΈΠΉ ΡΠΏΠ΅ΠΊΡΡ Π·Π°Π΄Π°Ρ, ΡΠ²ΡΠ·Π°Π½Π½ΡΡ
Ρ Π°Π½Π°Π»ΠΈΠ·ΠΎΠΌ Π²ΠΈΠ·ΡΠ°Π»ΡΠ½ΠΎΠΉ ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΠΈ.
ποΈΠ Π΅Π·ΡΠ»ΡΡΠ°ΡΡ 7B ΠΌΠΎΠ΄Π΅Π»ΠΈ: DocVQA: 94,9, MathVision: 26,2, VideoMME: 66,2/70,3, MLVU: 73,0
π€ Π Π΅Π·ΡΠ»ΡΡΠ°ΡΡ 2B-ΠΌΠΎΠ΄Π΅Π»ΠΈ Π΄Π»Ρ ΠΌΠΎΠ±ΠΈΠ»ΡΠ½ΡΡ
ΡΡΡΡΠΎΠΉΡΡΠ²: MMMU: 45.3, VideoMME: 59.6/63.4
βͺ Github: https://github.com/DAMO-NLP-SG/VideoLLaMA3
βͺImage Demo: https://huggingface.co/spaces/lixin4ever/VideoLLaMA3-Image
βͺVideo Demo: https://huggingface.co/spaces/lixin4ever/VideoLLaMA3
@ai_machinelearning_big_data
#video #MLLM #opensource #VideoLLaMA #VideoUnderstanding