NLPWANDERER Telegram 106
LMSys Arena Explorer

Долгожданный блогпост от lmsys прошел как-то мимо меня.

В чем суть: авторы арены сделали топик моделинг (наконец-таки он интересен) запросов от пользователей и красиво его визуализировали в виде интерактивных pie чартов. А еще появилась отдельная вкладка с визуализацией на сайте lmarena.ai.

Основано на известном опенсорсном пайплайне BertTopic (UMAP + HDBSCAN) и модели text-embedding-3-large от OpenAI.

Для анализа использовали на удивление не очень много данных - за два месяца лета 2024 года и лишь 52 тысячи дедуплицированных промптов. Человеческий преференс датасет с 100к запросами также был опенсорснут, что замечательно, так как происходит редко.

Почему это важно: для разработчиков моделей и датасетов, а также просто энтузиастов и продвинутых пользователей крайне важно понимать категории и подкатегории (таксономии) реальных запросов, оценивать качество моделей на конкретных срезах, понимать для чего именно конечный пользователь использует модель. Очень советую всем хотя бы полистать пайчарт, так как возможно узнаете о новых для себя темах.

Некоторые инсайты
- Запросы сами по себе сильно неравномерно распределены по категориям, что говорит о возможности хакать арену прокачивая самые популярные топики.
- Самая популярная тема в общении с моделями: Веб разработка и скриптинг.
- Романтические советы от LLM почему-то довольно популярны...
- Люди очень часто тестируют модели на логику и математику - возможно этим объясняется большая корреляция скоров арены с бенчмарками, так как вероятно из них вопросы и копируются.
- Медицинские советы хоть LLM давать и не должны, но это вторая по популярности категория запросов

Так же в визуализации есть такие же пай-чарты и для WebDev арены и для text-to-image запросов, что тоже очень полезно видеть.

Кроме того, lmsys сделали еще и отдельную вкладку с так называемой P2L (Prompt-to-Leaderboard) визуализацией, где можно посмотреть качество разных моделей в отдельных категориях и на отдельных промптах, что может помочь выбрать нужную для задачи модель (они даже сделали специальный чат-мод для этого P2L Router).

В целом радует, что сравнение и оценка LLM потихоньку начинает менять свой фокус с отполированных бенчмарков к более интересным юз-кейсам. Например, OpenAI в техрепорте GPT-4.5 представила только лишь мультиязычный MMLU в разрезе по языкам, игнорируя все классические сравнения, а основное внимание сконцентрировала на Red Teaming, агентах и creative writing оценке.



tgoop.com/nlpwanderer/106
Create:
Last Update:

LMSys Arena Explorer

Долгожданный блогпост от lmsys прошел как-то мимо меня.

В чем суть: авторы арены сделали топик моделинг (наконец-таки он интересен) запросов от пользователей и красиво его визуализировали в виде интерактивных pie чартов. А еще появилась отдельная вкладка с визуализацией на сайте lmarena.ai.

Основано на известном опенсорсном пайплайне BertTopic (UMAP + HDBSCAN) и модели text-embedding-3-large от OpenAI.

Для анализа использовали на удивление не очень много данных - за два месяца лета 2024 года и лишь 52 тысячи дедуплицированных промптов. Человеческий преференс датасет с 100к запросами также был опенсорснут, что замечательно, так как происходит редко.

Почему это важно: для разработчиков моделей и датасетов, а также просто энтузиастов и продвинутых пользователей крайне важно понимать категории и подкатегории (таксономии) реальных запросов, оценивать качество моделей на конкретных срезах, понимать для чего именно конечный пользователь использует модель. Очень советую всем хотя бы полистать пайчарт, так как возможно узнаете о новых для себя темах.

Некоторые инсайты
- Запросы сами по себе сильно неравномерно распределены по категориям, что говорит о возможности хакать арену прокачивая самые популярные топики.
- Самая популярная тема в общении с моделями: Веб разработка и скриптинг.
- Романтические советы от LLM почему-то довольно популярны...
- Люди очень часто тестируют модели на логику и математику - возможно этим объясняется большая корреляция скоров арены с бенчмарками, так как вероятно из них вопросы и копируются.
- Медицинские советы хоть LLM давать и не должны, но это вторая по популярности категория запросов

Так же в визуализации есть такие же пай-чарты и для WebDev арены и для text-to-image запросов, что тоже очень полезно видеть.

Кроме того, lmsys сделали еще и отдельную вкладку с так называемой P2L (Prompt-to-Leaderboard) визуализацией, где можно посмотреть качество разных моделей в отдельных категориях и на отдельных промптах, что может помочь выбрать нужную для задачи модель (они даже сделали специальный чат-мод для этого P2L Router).

В целом радует, что сравнение и оценка LLM потихоньку начинает менять свой фокус с отполированных бенчмарков к более интересным юз-кейсам. Например, OpenAI в техрепорте GPT-4.5 представила только лишь мультиязычный MMLU в разрезе по языкам, игнорируя все классические сравнения, а основное внимание сконцентрировала на Red Teaming, агентах и creative writing оценке.

BY NLP Wanderer




Share with your friend now:
tgoop.com/nlpwanderer/106

View MORE
Open in Telegram


Telegram News

Date: |

Choose quality over quantity. Remember that one high-quality post is better than five short publications of questionable value. “[The defendant] could not shift his criminal liability,” Hui said. best-secure-messaging-apps-shutterstock-1892950018.jpg Telegram offers a powerful toolset that allows businesses to create and manage channels, groups, and bots to broadcast messages, engage in conversations, and offer reliable customer support via bots. Developing social channels based on exchanging a single message isn’t exactly new, of course. Back in 2014, the “Yo” app was launched with the sole purpose of enabling users to send each other the greeting “Yo.”
from us


Telegram NLP Wanderer
FROM American