Пока все следили за обновлением Mistral Small, мы добавили зарубежные модели на лидерборд MERA — один из ведущих бенчмарков для оценки языковых моделей в России.
На платформе стали доступны:
Теперь вы можете наглядно увидеть, как Claude, Gemini, Llama и другие модели справляются с русскоязычными задачами в сравнении с отечественными LLM на одной площадке.
Please open Telegram to view this post
VIEW IN TELEGRAM
Добавили Llama 4 Maverick и Llama 4 Scout на llmarena.ru
Вышли две новые модели с открытыми весами:
Llama 4 Scout и Llama 4 Maverick — обе мультимодальные, обе на MoE, обе 🔥
Что нового и крутого:
— 10М контекста у Scout — да, 10 миллионов токенов, и модель тянет это с качеством
— Мультимодальность из коробки: текст, картинки, видео, всё в одной архитектуре
— Llama 4 Scout — 17B активных параметров / 109B общих (16 экспертов), работает на одном H100
— Llama 4 Maverick — 17B активных / 400B общих (128 экспертов), уделывает GPT-4o и Gemini 2.0 Flash на бенчмарках
— В основе — Behemoth (ещё в обучении): 288B активных / 2T общих
Обе модели мощно посттренились:
— Сложные данные, онлайн RL, мягкий DPO
— Вычищены «лёгкие» примеры — упор на reasoning, код, математику
— Scout отлично держит длинный контекст (10М) + iRoPE архитектура
— Maverick — топ в мультимодальности и диалогах
Где трогать:
— Hugging Face
— Блогпост
— llmarena.ru
Модели доступны совершенно бесплатно как в публичной, так и в анонимной арене, го тестировать!
Вышли две новые модели с открытыми весами:
Llama 4 Scout и Llama 4 Maverick — обе мультимодальные, обе на MoE, обе 🔥
Что нового и крутого:
— 10М контекста у Scout — да, 10 миллионов токенов, и модель тянет это с качеством
— Мультимодальность из коробки: текст, картинки, видео, всё в одной архитектуре
— Llama 4 Scout — 17B активных параметров / 109B общих (16 экспертов), работает на одном H100
— Llama 4 Maverick — 17B активных / 400B общих (128 экспертов), уделывает GPT-4o и Gemini 2.0 Flash на бенчмарках
— В основе — Behemoth (ещё в обучении): 288B активных / 2T общих
Обе модели мощно посттренились:
— Сложные данные, онлайн RL, мягкий DPO
— Вычищены «лёгкие» примеры — упор на reasoning, код, математику
— Scout отлично держит длинный контекст (10М) + iRoPE архитектура
— Maverick — топ в мультимодальности и диалогах
Где трогать:
— Hugging Face
— Блогпост
— llmarena.ru
Модели доступны совершенно бесплатно как в публичной, так и в анонимной арене, го тестировать!
Мы добавили авторизацию в боте через Telegram. Всё как раньше: задаёте вопросы, оцениваете ответы — только теперь ваш прогресс сохраняется.
За каждый отданный голос на Арене вам начисляются очки опыта. Чем активнее вы — тем выше ваш уровень.
Вместе с уровнем открываются новые возможности: доступ к наградам, статусам, расширенным функциям и рейтингу.
Чем больше активных, авторизованных пользователей — тем точнее система оценки и полезнее рейтинг моделей.
Для новичков мы добавили подробный онбординг: в боте есть гайд, подсказки и объяснения — чтобы быстрее понять механику платформы.
Всё это — благодаря вашей обратной связи. Читали, собирали, внедряли. Спасибо за идеи и замечания.
Тестируйте обновления в Telegram-боте и делитесь в комментариях мнением о новом функционале.
Please open Telegram to view this post
VIEW IN TELEGRAM
Разобраться, как они устроены и какие метрики действительно имеют значение, можно будет вместе с нами 15 апреля на митапе Т-Банка.
Хедлайнерами программы выступит наша команда LLM Arena и авторы бенчмарка MERA — одного из наиболее используемых инструментов для оценки русскоязычных языковых моделей.
Будем разбирать:
- как устроены бенчмарки для текстовых и мультимодальных моделей;
- что учитывать при проверке LLM на качество написания кода;
- как сравнивать между собой специализированные ML-модели.
Встреча пройдёт в офлайн-формате в Москве, подробности по ссылке.
Регистрация уже открыта — приходите, будем рады видеть.
Please open Telegram to view this post
VIEW IN TELEGRAM
Кроме того, состав пополнили предыдущие версии, ранее недоступные.
Теперь на LLM Arena представлены:
Новые модели идут в трёх размерах — GPT 4.1, GPT 4.1 Mini и GPT 4.1 Nano. По сравнению с 4o, GPT 4.1 прокачали по всем фронтам — от кодинга до мультимодальности.
Но самое главное — 4.1 сильно лучше в следовании инструкций, модель теперь меньше забывает инструкции через одно сообщение и газлайтит пользователей.
Мы продолжаем добавлять новые модели на арену — вы можете затестить их уже сейчас:
1. Заходите на сайт llmarena.ru или в наш mini-app прямо в Telegram.
2. Оценивайте модели, голосуйте за лучшие ответы.
3. Делитесь в чате инсайтами.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Роман с данными
LLM моделей становится все больше и больше, разобраться в таком зоопарке становится все сложнее и сложнее.
Openrouter придумал интересный способ навести порядок - они проклассифицировали запросы своих клиентов по типам задач (programming, legal, finance и т.д) - и посмотрели в каких случаях какие модели используются.
Как говорится - все гениальное просто 🙃
Ознакомиться с инфографикой можно по ссылке https://openrouter.ai/rankings
Openrouter придумал интересный способ навести порядок - они проклассифицировали запросы своих клиентов по типам задач (programming, legal, finance и т.д) - и посмотрели в каких случаях какие модели используются.
Как говорится - все гениальное просто 🙃
Ознакомиться с инфографикой можно по ссылке https://openrouter.ai/rankings
На платформе появились новые модели Qwen3 от Alibaba — одного из наиболее технологически продвинутых семейств LLM на сегодняшний день.
Они показывают высокие результаты в тестах, на предварительных тестах уверенно конкурируют с LLaMA 4 402B Maverick и DeepSeek R1 Shannon, и теперь доступны для сравнения на LLM Arena.
Добавлены следующие версии:
1. Заходите на сайт llmarena.ru или в наш mini-app прямо в Telegram.
2. Используйте анонимную арену, сравнивайте модели и голосуйте за лучшие ответы.
3. Делитесь в чате инсайтами.
Please open Telegram to view this post
VIEW IN TELEGRAM
Мы постарались учесть всё, что мешало удобному анализу, и улучшили основные элементы. Теперь он точнее, аккуратнее и лучше отражает реальную картину:
График больше не выглядит сжатым и перегруженным, что делает его более читаемым и облегчает сравнение моделей между собой.
Они помогают оценить статистическую надежность Elo-рейтинга каждой модели.
Теперь вы можете настраивать баланс между input- и output-токенами в зависимости от ваших задач.
Позволяет "очистить" рейтинг от влияния стиля – длины текста, форматирования (списков, выделений).
График построен на свежих данных с основного лидерборда LLM Arena.
Найти график можно на сайте llmarena.ru во вкладке Таблица лидеров
А вы уже нашли свою модель?
❤️ — да, и она стоит своих денег
🔥 — пока только ищу, спасибо за график
Please open Telegram to view this post
VIEW IN TELEGRAM
На платформе теперь доступен майский рейтинг языковых моделей. Строится он на основе ваших оценок, без синтетических тестов.
Что изменилось в рейтинге:
Топ остался стабильным, интерес к новым моделям растёт, голосов становится всё больше.
Посмотреть таблицу полностью можно:
— на сайте llmarena.ru,
— или прямо в Telegram, во вкладке «Таблица лидеров».
Не забывайте отдавать голос лучшему ответу на Анонимной Арене — каждая оценка помогает повысить точность лидерборда и быстрее прогреть новые модели.
Как считаете, кого не хватает в топе? Пишите в комментариях 👇
Please open Telegram to view this post
VIEW IN TELEGRAM
Добавили на платформу Doom (DeathMath) — открытый бенчмарк от Vikhr Models для проверки математических и физических способностей моделей на русском.
Проверяет reasoning на строгих, настоящих задачах. Собран на основе задач Всероссийских олимпиад (ВСОШ), Ломоносовской, Высшей пробы, Физтеха, ОММО и других.
Что проверяет:
— Умение решать реальные олимпиадные и экзаменационные задачи
— Логическое рассуждение и базовые вычислительные навыки
— Способность давать точный ответ, а не «приблизительно верный»
Как работает:
Бенчмарк доступен на сайте llmarena.ru в разделе «Таблицы лидеров» → DeathMath
Своё мнение и вопросы можете оставлять прямо под этим постом 👇
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Мы запустили Arena Explorer — аналитический инструмент, который позволяет глубже понять, как пользователи взаимодействуют с LLM-моделями на нашей платформе.
Он обрабатывает и структурирует большие объемы анонимизированных запросов, помогая выявить ключевые темы и интересы аудитории.
Чтобы показать возможности нового инструмента, мы проанализировали с его помощью более 150 000 русскоязычных промптов. Вот что нам удалось выяснить о самых популярных категориях запросов.
Эти данные показывают основные направления, в которых русскоязычные пользователи применяют LLM. Arena Explorer позволила не только выделить эти категории, но и детализировать подтемы внутри каждой (например, в программировании популярны оптимизация кода и Python, а в науке — авиация и космонавтика).
Хотите сами изучить данные и тренды?
Please open Telegram to view this post
VIEW IN TELEGRAM