Приближаем сингулярность@building

Приближаем сингулярность

Честный замер LLM на способность следовать инструкциям

Пара проблем в современных бенчмарках для LLM'ок:
- неточный замер используя GPT-4 (часто замеряются модели, которые GPT-4 и дистиллировали :D)
- огромный претрейн датасет может пересекаться или иметь очень похожие примеры на тестовый (метрики завышаются)

Про второе можно почитать в этом блогпосте от lmsys, проблема важная.

А частично про первое ресерчеры из гугла написали прикольную статью: Instruction-Following Evaluation for Large Language Models

Они предложили использовать verifiable instructions: инструкции (промпты), выполнение которых легко проверить кодом.

Они выделили 25 типов таких заданий (см. картинку 1): выдать ответ в формате json / написать ровно 2 абзаца / ровно 3 пункта / закончить такой то фразой / etc. Конкретные примеры на картинке 2.

Эти инструкции проверяют именно умение instruction following и не зависят от внешнего оценивания типа GPT-4.

Они даже выложили код

👏

Можно скриптом в 1 строчку оценить результаты вашей собственной LLM'ки.

Идея классная. Выглядит несложным для любого домена написать таких примеров и автоматически замерять, behavioural testing кажется называется)

Ещё они замерили свой гугловый PaLM 2 (small) против GPT-4 (картинка 3) и проиграли ему везде =)
Интересно почему они сравнивали со small моделью. Ваши гипотезы?)

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥14👍5❤2🤔1

www.tgoop.com/building_singularity/71

1.11K viewsNov 24, 2023 at 15:10