Борис опять@boris

Борис опять

Под конец года все бигтехи всполошились и постоянно что-то релизят, так что я задолжал вам собственный контент. К счастью пока летел в самолёте прочитал несколько интересных статей и буду постепенно публиковать обзоры. Начнём с максимально простой статьи.

# LLAVA-CoT: Let Vision Language Models Reason Step-by-Step

Долго думающие модели у всех на слуху.

▫️Эта работа — попытка сделать o1-подобный test-time inference и рассуждения в VLM.

Дообучили VLM (лламу) на синтетическом VQA (visual question answering) датасете, где ответ модели выстроен в виде четырех стадий:
🔹Summary.
🔹Caption.
🔹Reasoning.
🔹Conclusion.
Cтадии разделяются специальными токенами.

Датасет относительно небольшой, всего 100к примеров. Собрали поэтапным промптингом GPT-4o, так что полная синтетика.

Для инференса придумали stage-level beam search, благодаря которому и достигается эффект идентичный натуральному о1: для каждой стадии генерируется N кандидатов, модель выбирает лучший. В отличие от обычного beam search выбор между альтернативными гиппотезами происходит не на уровне токена, а на уровне стадии рассуждения. Так что оно последовательно думает над несколькими вариантами следующего большого шага, затем выбирает лучший.

🔺В результате получили результаты лучше Gemini Pro 1.5 и Gpt-4o-mini, почти догонали Sonnet 3.5. Очень неплохо если учесть, что использовали 11B модель и небольшой синтетический датасет. К сожалению не тестировали на MMMU-Pro, где как раз больше всего нужна какая-то способность рассуждать.

www.tgoop.com/boris_again/2959

5.3K viewsedited Dec 19 at 17:43

tgoop.com/boris_again/2959

Create: 2024-12-19
Last Update: 2025-01-08 02:54:04

BY Борис опять

Share with your friend now:
tgoop.com/boris_again/2959

Telegram News

Под конец года все бигтехи всполошились и постоянно что-то релизят