tgoop.com/nlpwanderer/106
Last Update:
LMSys Arena Explorer
Долгожданный блогпост от lmsys прошел как-то мимо меня.
В чем суть: авторы арены сделали топик моделинг (
Основано на известном опенсорсном пайплайне BertTopic (UMAP + HDBSCAN) и модели text-embedding-3-large от OpenAI.
Для анализа использовали на удивление не очень много данных - за два месяца лета 2024 года и лишь 52 тысячи дедуплицированных промптов. Человеческий преференс датасет с 100к запросами также был опенсорснут, что замечательно, так как происходит редко.
Почему это важно: для разработчиков моделей и датасетов, а также просто энтузиастов и продвинутых пользователей крайне важно понимать категории и подкатегории (таксономии) реальных запросов, оценивать качество моделей на конкретных срезах, понимать для чего именно конечный пользователь использует модель. Очень советую всем хотя бы полистать пайчарт, так как возможно узнаете о новых для себя темах.
Некоторые инсайты
- Запросы сами по себе сильно неравномерно распределены по категориям, что говорит о возможности хакать арену прокачивая самые популярные топики.
- Самая популярная тема в общении с моделями: Веб разработка и скриптинг.
- Романтические советы от LLM почему-то довольно популярны...
- Люди очень часто тестируют модели на логику и математику - возможно этим объясняется большая корреляция скоров арены с бенчмарками, так как вероятно из них вопросы и копируются.
- Медицинские советы хоть LLM давать и не должны, но это вторая по популярности категория запросов
Так же в визуализации есть такие же пай-чарты и для WebDev арены и для text-to-image запросов, что тоже очень полезно видеть.
Кроме того, lmsys сделали еще и отдельную вкладку с так называемой P2L (Prompt-to-Leaderboard) визуализацией, где можно посмотреть качество разных моделей в отдельных категориях и на отдельных промптах, что может помочь выбрать нужную для задачи модель (они даже сделали специальный чат-мод для этого P2L Router).
В целом радует, что сравнение и оценка LLM потихоньку начинает менять свой фокус с отполированных бенчмарков к более интересным юз-кейсам. Например, OpenAI в техрепорте GPT-4.5 представила только лишь мультиязычный MMLU в разрезе по языкам, игнорируя все классические сравнения, а основное внимание сконцентрировала на Red Teaming, агентах и creative writing оценке.
BY NLP Wanderer

Share with your friend now:
tgoop.com/nlpwanderer/106