TIPS_AI Telegram 4380
Бенчмарков для LLM сейчас очень много. От математики и кодинга до эмпатии модели.

Бенчмарки — это помощь при выборе модели, но не заменят собственные тесты.

Среди всего, что есть, я чаще смотрю именно их:

LMArena — лидерборд, где сравнивают модели по категориям: кодинг, математика, сложные промпты, креативное письмо, диалоги, языки. Оценки ставят реальные пользователи, так что получается народное ранжирование.

EQ-Bench — проверяет эмоциональный интеллект у моделей: как они ведут диалог, есть ли эмпатия, соблюдают ли правила безопасности и т.д. По сути, бенчмарк на человечность общения. Кстати Sonnet 4.5 лучше всего пишет текста.

Artificial Analysis — тестирует по стандартным бенчмаркам, строит лидерборды и графики, а так же стоимость, размер контекста, скорость и задержки.

LiveBench — довольно честный бенчмарк: вместо заезженных тестов там реальные задания из живых сценариев. Актуальные задачи, защищённые от утечек в тренировочные датасеты.

SWE-Bench — для программистов.

Scale AI — меряют кодинг, рассуждения, безопасность, соответствие правилам. Плюс собирают обратную связь от enterprise-клиентов.

OpenRouter — удобно смотреть, что популярно и что используют.

Hugging Face Spaces — можно найти и общие лидерборды, и узкие бенчмарки.

@tips_ai #tools
👍217🔥4🫡1



tgoop.com/tips_ai/4380
Create:
Last Update:

Бенчмарков для LLM сейчас очень много. От математики и кодинга до эмпатии модели.

Бенчмарки — это помощь при выборе модели, но не заменят собственные тесты.

Среди всего, что есть, я чаще смотрю именно их:

LMArena — лидерборд, где сравнивают модели по категориям: кодинг, математика, сложные промпты, креативное письмо, диалоги, языки. Оценки ставят реальные пользователи, так что получается народное ранжирование.

EQ-Bench — проверяет эмоциональный интеллект у моделей: как они ведут диалог, есть ли эмпатия, соблюдают ли правила безопасности и т.д. По сути, бенчмарк на человечность общения. Кстати Sonnet 4.5 лучше всего пишет текста.

Artificial Analysis — тестирует по стандартным бенчмаркам, строит лидерборды и графики, а так же стоимость, размер контекста, скорость и задержки.

LiveBench — довольно честный бенчмарк: вместо заезженных тестов там реальные задания из живых сценариев. Актуальные задачи, защищённые от утечек в тренировочные датасеты.

SWE-Bench — для программистов.

Scale AI — меряют кодинг, рассуждения, безопасность, соответствие правилам. Плюс собирают обратную связь от enterprise-клиентов.

OpenRouter — удобно смотреть, что популярно и что используют.

Hugging Face Spaces — можно найти и общие лидерборды, и узкие бенчмарки.

@tips_ai #tools

BY Tips AI | IT & AI




Share with your friend now:
tgoop.com/tips_ai/4380

View MORE
Open in Telegram


Telegram News

Date: |

Done! Now you’re the proud owner of a Telegram channel. The next step is to set up and customize your channel. Telegram desktop app: In the upper left corner, click the Menu icon (the one with three lines). Select “New Channel” from the drop-down menu. The optimal dimension of the avatar on Telegram is 512px by 512px, and it’s recommended to use PNG format to deliver an unpixelated avatar. ‘Ban’ on Telegram The group’s featured image is of a Pepe frog yelling, often referred to as the “REEEEEEE” meme. Pepe the Frog was created back in 2005 by Matt Furie and has since become an internet symbol for meme culture and “degen” culture.
from us


Telegram Tips AI | IT & AI
FROM American