- Telegram Web

Please open Telegram to view this post

635 views12:48

Всем привет 👋
Делимся списком языковых моделей, доступных для тестирования и сравнения на llmarena.ru уже сегодня — сейчас их 44:

- Llama 3.2 11B Instruct
- Qwen2.5 72B Instruct
- Cohere: Command R+ (08-2024)
- Google: Gemini Flash 1.5
- Google: Gemini Pro 1.5
- YandexGPT 4 Pro
- Vikhrmodels/Vikhr-Nemo-12B-Instruct-R-21-09-24
- RefalMachine/RuadaptQwen2.5-32B-Pro-Beta
- DeepSeek R1

(та самая гроза американских рынков)

- Cotype-Nano от MTS AI
- MiniMax-01 от Hailuo AI
- T-lite от Т-Банка
- T-pro от Т-Банка

Нам всё ещё нужны и важны ваши оценки со сложными вопросами и задачами. Будем рады вашему участию на платформе llmarena.ru или прямо здесь в Telegram!

662 viewsedited 14:03

LLM Arena

🏔 Рейтинг моделей на LLM Arena 2024: кто оказался на вершине?

2024 стал годом стремительного роста и конкуренции среди LLM-моделей. На нашей Арене мы не просто следили за этим, а создавали прозрачную систему оценки, объективно определяя лучших.

Сегодня представляем вам итоговый рейтинг, где учитывались тысячи голосов пользователей, статистическая значимость результатов и реальные способности моделей — он представлен на прикреплённых карточках.

А также хотим отдельно выделить лидеров в специальных номинациях:

✅ Лучшая корпоративная модель — ChatGPT-4o (OpenAI).
✅ Лучшая российская корпоративная модель — GigaChat Max (Sber).
✅ Лучшая open-source модель — Llama 3.1 405B Instruct Turbo (Meta AI*)
✅ Лучшая российская open-source модель — saiga_llama3_70b (Илья Гусев)

Наш рейтинг основан на живых тестах — пользователи сами оценивают модели при решении реальных задач.

Следите за обновлениями — мы продолжаем добавлять и тестировать новые модели на нашей платформе.

Все детали и полный рейтинг — на сайте llmarena.ru и прямо здесь в Telegram.

*Продукт Meta, компания признана экстремистской и запрещена в России.

589 views10:01

LLM Arena

📌 Актуальны ли для вас сейчас эти модели?
Какие из них хотели бы видеть на Арене?

Anonymous Poll

57%

DeepSeek: R1 Distill Llama 70B

21%

deepseek-r1-distill-qwen-1.5b

39%

deepseek-r1-distill-qwen-14b

49%

deepseek-r1-distill-qwen-32b

13%

Свой ответ (в комментах)

70 voters555 views12:42

LLM Arena

Всем привет 👋

Наша команда разработчиков ежедневно работает над улучшением платформы, и нам нужна ваша помощь. Хотим побольше узнать об опыте наших пользователей.

Соберём обратную связь, чтобы сделать Арену ещё полезнее для вас!

Заполните небольшую анкету, и, возможно, именно вы внесёте важный вклад в развитие проекта:

➡️

Заполнить анкету

Благодарим за активность. Следите за апдейтами и голосуйте за лучшие модели на нашей платформе!

Please open Telegram to view this post

VIEW IN TELEGRAM

492 views14:38

LLM Arena

👋 Всем привет! В прошлом месяце мы добавили на платформу SLAVA — бенчмарк, который тестирует языковые модели на фактическую точность в российском контексте.

В чём его особенность? Он затрагивает реальные, актуальные и даже спорные темы, которые часто остаются за рамками традиционных бенчмарков.

Со SLAVA модели не просто повторяют заученные фразы — им приходится ориентироваться в локальной специфике, разбираться в нюансах истории, экономики и культуры, формулируя осмысленный, точный и логичный ответ.

Найти бенчмарк можно на сайте llmarena.ru ➡️ во вкладке «Таблицы лидеров» ➡️ «SLAVA».

Проверить, какие модели справляются с задачами лучше, можно на сайте llmarena.ru или прямо здесь в Telegram.

Какие бенчмарки вам интересны? Пишите в комментариях 👇

Please open Telegram to view this post

VIEW IN TELEGRAM

613 views09:01

LLM Arena

🔥 Вы просили — мы сделали!

Спасибо всем, кто проголосовал в опросе. Один из интересных запросов, который мы обнаружили — добавить на платформу рейтинг «цена/качество» моделей.

Специально на вкладке Quality vs Price мы реализовали данный график. На графике указана зависимость рейтинга на llmarena.ru и стоимости модели, а также таблица с актуальными ценами и рейтингом ELO.

Таблица позволит вам понять, какие модели являются самыми эффективными, быстрыми и недорогими, а какие уступают конкурентам по цене и качеству.

Подписывайтесь на наш чат, голосуйте за лучшие ответы на сайте llmarena.ru или прямо здесь в Telegram!

Насколько данный график актуален для вас? Пишите в комментариях 👇

684 viewsedited 17:10

LLM Arena

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

🤯

На Арене появилась YandexGPT Experimental Quattro

Ищем на сайте llmarena.ru или прямо здесь в Telegram и не забываем отдать свой голос — это важно для развития платформы.

UPD: модель оказалась YandexGPT 5 Pro

Please open Telegram to view this post

VIEW IN TELEGRAM

2.9K viewsedited 12:26

LLM Arena

590 views15:35

LLM Arena

🔥

Hot News: Сегодня мы добавили на Арену сразу ДВА бенчмарка

Встречайте PingPong Benchmark и Simple-Evals-RU — новые инструменты для оценки языковых моделей.

➡️

PingPong Benchmark тестирует модели в ролевых диалогах. Здесь LLM-ки не только генерируют ответы, но и выступают в роли пользователей. Набор персонажей и ситуаций проверяет способность модели сохранять выбранную роль в многораундовой беседе.

Оценка идет по трем критериям:
- Соответствие персонажу — насколько точно модель играет свою роль.
- Развлекательность — насколько интересны её ответы.
- Языковая грамотность — естественность и корректность речи.

Результат — усредненный рейтинг по всем параметрам.

➡️

Simple-Evals-RU — это бенчмарк, который проверяет модели на математических, логических и программных задачах. Он включает тесты MGSM, MATH, HumanEval, MMLU-Pro и BBH, а также сравнивает стоимость работы моделей на миллион токенов.

Методология основана на simple-evals от OpenAI, поддерживает только Instruction-модели и использует Zero-shot и Chain-of-Thought промпты.

Оба бенчмарка уже доступны на платформе, найти их можно на сайте llmarena.ru ➡️ во вкладке «Таблица лидеров» ➡️ «PingPong» и «Simple-Evals».

Какие бенчмарки вам ещё интересны? Пишите в комментариях 👇

Please open Telegram to view this post

VIEW IN TELEGRAM

1.3K views15:02

LLM Arena

🔥

В лидерборде появились 2 новые модели — DeepSeek R1 и YandexGPT 5 Pro

В этот раз прогрели быстро. А DeepSeek R1 даже успел стать моделью №1 на платформе. Если ещё не успели затестить этого монстра — добро пожаловать на Арену.

В разделе тестирования есть ещё Claude 3.7 Sonnet — голосуйте активнее, чтобы модель быстрее прогрелась и попала в таблицу рейтинга.

Тестируйте, сравнивайте, оценивайте на сайте llmarena.ru или в Telegram.

Каких моделей не хватает на Арене? Пишите в комментариях 👇

Please open Telegram to view this post

VIEW IN TELEGRAM

515 views08:55

LLM Arena

🔥

Зарубежные ИИ на MERA — при поддержке LLM Arena

Пока все следили за обновлением Mistral Small, мы добавили зарубежные модели на лидерборд MERA — один из ведущих бенчмарков для оценки языковых моделей в России.

На платформе стали доступны:

⏺️

Claude 3.7 Sonnet

⏺️

Claude 3.5 Haiku

⏺️

Gemini Flash 2.0

⏺️

DeepSeek-V3

⏺️

Meta Llama 3.3

⏺️

Gemma 3 27B

Теперь вы можете наглядно увидеть, как Claude, Gemini, Llama и другие модели справляются с русскоязычными задачами в сравнении с отечественными LLM на одной площадке.

☝️ Кстати об этом: нам по-прежнему важны ваши оценки, ведь они напрямую влияют на рейтинг Арены. Не забывайте отдавать голоса — и в Telegram, и на сайте.

Please open Telegram to view this post

VIEW IN TELEGRAM

322 views16:00

2025/03/29 22:36:15
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>