BUILDING_SINGULARITY Telegram 70
Честный замер LLM на способность следовать инструкциям

Пара проблем в современных бенчмарках для LLM'ок:
- неточный замер используя GPT-4 (часто замеряются модели, которые GPT-4 и дистиллировали :D)
- огромный претрейн датасет может пересекаться или иметь очень похожие примеры на тестовый (метрики завышаются)

Про второе можно почитать в этом блогпосте от lmsys, проблема важная.

А частично про первое ресерчеры из гугла написали прикольную статью: Instruction-Following Evaluation for Large Language Models

Они предложили использовать verifiable instructions: инструкции (промпты), выполнение которых легко проверить кодом.

Они выделили 25 типов таких заданий (см. картинку 1): выдать ответ в формате json / написать ровно 2 абзаца / ровно 3 пункта / закончить такой то фразой / etc. Конкретные примеры на картинке 2.

Эти инструкции проверяют именно умение instruction following и не зависят от внешнего оценивания типа GPT-4.

Они даже выложили код 👏
Можно скриптом в 1 строчку оценить результаты вашей собственной LLM'ки.

Идея классная. Выглядит несложным для любого домена написать таких примеров и автоматически замерять, behavioural testing кажется называется)

Ещё они замерили свой гугловый PaLM 2 (small) против GPT-4 (картинка 3) и проиграли ему везде =)
Интересно почему они сравнивали со small моделью. Ваши гипотезы?)
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍52🤔1



tgoop.com/building_singularity/70
Create:
Last Update:

Честный замер LLM на способность следовать инструкциям

Пара проблем в современных бенчмарках для LLM'ок:
- неточный замер используя GPT-4 (часто замеряются модели, которые GPT-4 и дистиллировали :D)
- огромный претрейн датасет может пересекаться или иметь очень похожие примеры на тестовый (метрики завышаются)

Про второе можно почитать в этом блогпосте от lmsys, проблема важная.

А частично про первое ресерчеры из гугла написали прикольную статью: Instruction-Following Evaluation for Large Language Models

Они предложили использовать verifiable instructions: инструкции (промпты), выполнение которых легко проверить кодом.

Они выделили 25 типов таких заданий (см. картинку 1): выдать ответ в формате json / написать ровно 2 абзаца / ровно 3 пункта / закончить такой то фразой / etc. Конкретные примеры на картинке 2.

Эти инструкции проверяют именно умение instruction following и не зависят от внешнего оценивания типа GPT-4.

Они даже выложили код 👏
Можно скриптом в 1 строчку оценить результаты вашей собственной LLM'ки.

Идея классная. Выглядит несложным для любого домена написать таких примеров и автоматически замерять, behavioural testing кажется называется)

Ещё они замерили свой гугловый PaLM 2 (small) против GPT-4 (картинка 3) и проиграли ему везде =)
Интересно почему они сравнивали со small моделью. Ваши гипотезы?)

BY Приближаем сингулярность






Share with your friend now:
tgoop.com/building_singularity/70

View MORE
Open in Telegram


Telegram News

Date: |

Private channels are only accessible to subscribers and don’t appear in public searches. To join a private channel, you need to receive a link from the owner (administrator). A private channel is an excellent solution for companies and teams. You can also use this type of channel to write down personal notes, reflections, etc. By the way, you can make your private channel public at any moment. Users are more open to new information on workdays rather than weekends. Hashtags Write your hashtags in the language of your target audience. Public channels are public to the internet, regardless of whether or not they are subscribed. A public channel is displayed in search results and has a short address (link).
from us


Telegram Приближаем сингулярность
FROM American