tgoop.com/building_singularity/71
Last Update:
Честный замер LLM на способность следовать инструкциям
Пара проблем в современных бенчмарках для LLM'ок:
- неточный замер используя GPT-4 (часто замеряются модели, которые GPT-4 и дистиллировали :D)
- огромный претрейн датасет может пересекаться или иметь очень похожие примеры на тестовый (метрики завышаются)
Про второе можно почитать в этом блогпосте от lmsys, проблема важная.
А частично про первое ресерчеры из гугла написали прикольную статью: Instruction-Following Evaluation for Large Language Models
Они предложили использовать verifiable instructions: инструкции (промпты), выполнение которых легко проверить кодом.
Они выделили 25 типов таких заданий (см. картинку 1): выдать ответ в формате json / написать ровно 2 абзаца / ровно 3 пункта / закончить такой то фразой / etc. Конкретные примеры на картинке 2.
Эти инструкции проверяют именно умение instruction following и не зависят от внешнего оценивания типа GPT-4.
Они даже выложили код
Можно скриптом в 1 строчку оценить результаты вашей собственной LLM'ки.
Идея классная. Выглядит несложным для любого домена написать таких примеров и автоматически замерять, behavioural testing кажется называется)
Ещё они замерили свой гугловый PaLM 2 (small) против GPT-4 (картинка 3) и проиграли ему везде =)
Интересно почему они сравнивали со small моделью. Ваши гипотезы?)



