Всем привет 👋
Делимся списком языковых моделей, доступных для тестирования и сравнения на llmarena.ru уже сегодня — сейчас их 44:
- Llama 3.2 11B Instruct
- Qwen2.5 72B Instruct
- Cohere: Command R+ (08-2024)
- Google: Gemini Flash 1.5
- Google: Gemini Pro 1.5
- YandexGPT 4 Pro
- Vikhrmodels/Vikhr-Nemo-12B-Instruct-R-21-09-24
- RefalMachine/RuadaptQwen2.5-32B-Pro-Beta
- DeepSeek R1(та самая гроза американских рынков)
- Cotype-Nano от MTS AI
- MiniMax-01 от Hailuo AI
- T-lite от Т-Банка
- T-pro от Т-Банка
Нам всё ещё нужны и важны ваши оценки со сложными вопросами и задачами. Будем рады вашему участию на платформе llmarena.ru или прямо здесь в Telegram!
Делимся списком языковых моделей, доступных для тестирования и сравнения на llmarena.ru уже сегодня — сейчас их 44:
- Llama 3.2 11B Instruct
- Qwen2.5 72B Instruct
- Cohere: Command R+ (08-2024)
- Google: Gemini Flash 1.5
- Google: Gemini Pro 1.5
- YandexGPT 4 Pro
- Vikhrmodels/Vikhr-Nemo-12B-Instruct-R-21-09-24
- RefalMachine/RuadaptQwen2.5-32B-Pro-Beta
- DeepSeek R1
- Cotype-Nano от MTS AI
- MiniMax-01 от Hailuo AI
- T-lite от Т-Банка
- T-pro от Т-Банка
Нам всё ещё нужны и важны ваши оценки со сложными вопросами и задачами. Будем рады вашему участию на платформе llmarena.ru или прямо здесь в Telegram!
🏔 Рейтинг моделей на LLM Arena 2024: кто оказался на вершине?
2024 стал годом стремительного роста и конкуренции среди LLM-моделей. На нашей Арене мы не просто следили за этим, а создавали прозрачную систему оценки, объективно определяя лучших.
Сегодня представляем вам итоговый рейтинг, где учитывались тысячи голосов пользователей, статистическая значимость результатов и реальные способности моделей — он представлен на прикреплённых карточках.
А также хотим отдельно выделить лидеров в специальных номинациях:
✅ Лучшая корпоративная модель — ChatGPT-4o (OpenAI).
✅ Лучшая российская корпоративная модель — GigaChat Max (Sber).
✅ Лучшая open-source модель — Llama 3.1 405B Instruct Turbo (Meta AI*)
✅ Лучшая российская open-source модель — saiga_llama3_70b (Илья Гусев)
Наш рейтинг основан на живых тестах — пользователи сами оценивают модели при решении реальных задач.
Следите за обновлениями — мы продолжаем добавлять и тестировать новые модели на нашей платформе.
Все детали и полный рейтинг — на сайте llmarena.ru и прямо здесь в Telegram.
*Продукт Meta, компания признана экстремистской и запрещена в России.
2024 стал годом стремительного роста и конкуренции среди LLM-моделей. На нашей Арене мы не просто следили за этим, а создавали прозрачную систему оценки, объективно определяя лучших.
Сегодня представляем вам итоговый рейтинг, где учитывались тысячи голосов пользователей, статистическая значимость результатов и реальные способности моделей — он представлен на прикреплённых карточках.
А также хотим отдельно выделить лидеров в специальных номинациях:
✅ Лучшая корпоративная модель — ChatGPT-4o (OpenAI).
✅ Лучшая российская корпоративная модель — GigaChat Max (Sber).
✅ Лучшая open-source модель — Llama 3.1 405B Instruct Turbo (Meta AI*)
✅ Лучшая российская open-source модель — saiga_llama3_70b (Илья Гусев)
Наш рейтинг основан на живых тестах — пользователи сами оценивают модели при решении реальных задач.
Следите за обновлениями — мы продолжаем добавлять и тестировать новые модели на нашей платформе.
Все детали и полный рейтинг — на сайте llmarena.ru и прямо здесь в Telegram.
*Продукт Meta, компания признана экстремистской и запрещена в России.
📌 Актуальны ли для вас сейчас эти модели?
Какие из них хотели бы видеть на Арене?
Какие из них хотели бы видеть на Арене?
Anonymous Poll
57%
DeepSeek: R1 Distill Llama 70B
21%
deepseek-r1-distill-qwen-1.5b
39%
deepseek-r1-distill-qwen-14b
49%
deepseek-r1-distill-qwen-32b
13%
Свой ответ (в комментах)
Всем привет 👋
Наша команда разработчиков ежедневно работает над улучшением платформы, и нам нужна ваша помощь. Хотим побольше узнать об опыте наших пользователей.
Соберём обратную связь, чтобы сделать Арену ещё полезнее для вас!
Заполните небольшую анкету, и, возможно, именно вы внесёте важный вклад в развитие проекта:
➡️ Заполнить анкету
Благодарим за активность. Следите за апдейтами и голосуйте за лучшие модели на нашей платформе!
Наша команда разработчиков ежедневно работает над улучшением платформы, и нам нужна ваша помощь. Хотим побольше узнать об опыте наших пользователей.
Соберём обратную связь, чтобы сделать Арену ещё полезнее для вас!
Заполните небольшую анкету, и, возможно, именно вы внесёте важный вклад в развитие проекта:
Благодарим за активность. Следите за апдейтами и голосуйте за лучшие модели на нашей платформе!
Please open Telegram to view this post
VIEW IN TELEGRAM
👋 Всем привет! В прошлом месяце мы добавили на платформу SLAVA — бенчмарк, который тестирует языковые модели на фактическую точность в российском контексте.
В чём его особенность? Он затрагивает реальные, актуальные и даже спорные темы, которые часто остаются за рамками традиционных бенчмарков.
Со SLAVA модели не просто повторяют заученные фразы — им приходится ориентироваться в локальной специфике, разбираться в нюансах истории, экономики и культуры, формулируя осмысленный, точный и логичный ответ.
Найти бенчмарк можно на сайте llmarena.ru➡️ во вкладке «Таблицы лидеров» ➡️ «SLAVA».
Проверить, какие модели справляются с задачами лучше, можно на сайте llmarena.ru или прямо здесь в Telegram.
Какие бенчмарки вам интересны? Пишите в комментариях 👇
В чём его особенность? Он затрагивает реальные, актуальные и даже спорные темы, которые часто остаются за рамками традиционных бенчмарков.
Со SLAVA модели не просто повторяют заученные фразы — им приходится ориентироваться в локальной специфике, разбираться в нюансах истории, экономики и культуры, формулируя осмысленный, точный и логичный ответ.
Найти бенчмарк можно на сайте llmarena.ru
Проверить, какие модели справляются с задачами лучше, можно на сайте llmarena.ru или прямо здесь в Telegram.
Какие бенчмарки вам интересны? Пишите в комментариях 👇
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Вы просили — мы сделали!
Спасибо всем, кто проголосовал в опросе. Один из интересных запросов, который мы обнаружили — добавить на платформу рейтинг «цена/качество» моделей.
Специально на вкладке Quality vs Price мы реализовали данный график. На графике указана зависимость рейтинга на llmarena.ru и стоимости модели, а также таблица с актуальными ценами и рейтингом ELO.
Таблица позволит вам понять, какие модели являются самыми эффективными, быстрыми и недорогими, а какие уступают конкурентам по цене и качеству.
Подписывайтесь на наш чат, голосуйте за лучшие ответы на сайте llmarena.ru или прямо здесь в Telegram!
Насколько данный график актуален для вас? Пишите в комментариях 👇
Спасибо всем, кто проголосовал в опросе. Один из интересных запросов, который мы обнаружили — добавить на платформу рейтинг «цена/качество» моделей.
Специально на вкладке Quality vs Price мы реализовали данный график. На графике указана зависимость рейтинга на llmarena.ru и стоимости модели, а также таблица с актуальными ценами и рейтингом ELO.
Таблица позволит вам понять, какие модели являются самыми эффективными, быстрыми и недорогими, а какие уступают конкурентам по цене и качеству.
Подписывайтесь на наш чат, голосуйте за лучшие ответы на сайте llmarena.ru или прямо здесь в Telegram!
Насколько данный график актуален для вас? Пишите в комментариях 👇
This media is not supported in your browser
VIEW IN TELEGRAM
Ищем на сайте llmarena.ru или прямо здесь в Telegram и не забываем отдать свой голос — это важно для развития платформы.
UPD: модель оказалась YandexGPT 5 Pro
Please open Telegram to view this post
VIEW IN TELEGRAM
Встречайте PingPong Benchmark и Simple-Evals-RU — новые инструменты для оценки языковых моделей.
Оценка идет по трем критериям:
- Соответствие персонажу — насколько точно модель играет свою роль.
- Развлекательность — насколько интересны её ответы.
- Языковая грамотность — естественность и корректность речи.
Результат — усредненный рейтинг по всем параметрам.
Методология основана на simple-evals от OpenAI, поддерживает только Instruction-модели и использует Zero-shot и Chain-of-Thought промпты.
Оба бенчмарка уже доступны на платформе, найти их можно на сайте llmarena.ru
Какие бенчмарки вам ещё интересны? Пишите в комментариях 👇
Please open Telegram to view this post
VIEW IN TELEGRAM
В этот раз прогрели быстро. А DeepSeek R1 даже успел стать моделью №1 на платформе. Если ещё не успели затестить этого монстра — добро пожаловать на Арену.
В разделе тестирования есть ещё Claude 3.7 Sonnet — голосуйте активнее, чтобы модель быстрее прогрелась и попала в таблицу рейтинга.
Тестируйте, сравнивайте, оценивайте на сайте llmarena.ru или в Telegram.
Каких моделей не хватает на Арене? Пишите в комментариях 👇
Please open Telegram to view this post
VIEW IN TELEGRAM
Пока все следили за обновлением Mistral Small, мы добавили зарубежные модели на лидерборд MERA — один из ведущих бенчмарков для оценки языковых моделей в России.
На платформе стали доступны:
Теперь вы можете наглядно увидеть, как Claude, Gemini, Llama и другие модели справляются с русскоязычными задачами в сравнении с отечественными LLM на одной площадке.
Please open Telegram to view this post
VIEW IN TELEGRAM