- Telegram Web

🔥

Зарубежные ИИ на MERA — при поддержке LLM Arena

Пока все следили за обновлением Mistral Small, мы добавили зарубежные модели на лидерборд MERA — один из ведущих бенчмарков для оценки языковых моделей в России.

На платформе стали доступны:

⏺️

Claude 3.7 Sonnet

⏺️

Claude 3.5 Haiku

⏺️

Gemini Flash 2.0

⏺️

DeepSeek-V3

⏺️

Meta Llama 3.3

⏺️

Gemma 3 27B

Теперь вы можете наглядно увидеть, как Claude, Gemini, Llama и другие модели справляются с русскоязычными задачами в сравнении с отечественными LLM на одной площадке.

☝️ Кстати об этом: нам по-прежнему важны ваши оценки, ведь они напрямую влияют на рейтинг Арены. Не забывайте отдавать голоса — и в Telegram, и на сайте.

Please open Telegram to view this post

VIEW IN TELEGRAM

771 views16:00

LLM Arena

Добавили Llama 4 Maverick и Llama 4 Scout на llmarena.ru

Вышли две новые модели с открытыми весами:
Llama 4 Scout и Llama 4 Maverick — обе мультимодальные, обе на MoE, обе 🔥

Что нового и крутого:
— 10М контекста у Scout — да, 10 миллионов токенов, и модель тянет это с качеством
— Мультимодальность из коробки: текст, картинки, видео, всё в одной архитектуре
— Llama 4 Scout — 17B активных параметров / 109B общих (16 экспертов), работает на одном H100
— Llama 4 Maverick — 17B активных / 400B общих (128 экспертов), уделывает GPT-4o и Gemini 2.0 Flash на бенчмарках
— В основе — Behemoth (ещё в обучении): 288B активных / 2T общих

Обе модели мощно посттренились:
— Сложные данные, онлайн RL, мягкий DPO
— Вычищены «лёгкие» примеры — упор на reasoning, код, математику
— Scout отлично держит длинный контекст (10М) + iRoPE архитектура
— Maverick — топ в мультимодальности и диалогах

Где трогать:
— Hugging Face
— Блогпост
— llmarena.ru

Модели доступны совершенно бесплатно как в публичной, так и в анонимной арене, го тестировать!

621 viewsedited 19:56

LLM Arena

🔥

Теперь рейтинг есть не только у моделей, но и у вас

Мы добавили авторизацию в боте через Telegram. Всё как раньше: задаёте вопросы, оцениваете ответы — только теперь ваш прогресс сохраняется.

За каждый отданный голос на Арене вам начисляются очки опыта. Чем активнее вы — тем выше ваш уровень.

Вместе с уровнем открываются новые возможности: доступ к наградам, статусам, расширенным функциям и рейтингу.

Чем больше активных, авторизованных пользователей — тем точнее система оценки и полезнее рейтинг моделей.

Для новичков мы добавили подробный онбординг: в боте есть гайд, подсказки и объяснения — чтобы быстрее понять механику платформы.

Всё это — благодаря вашей обратной связи. Читали, собирали, внедряли. Спасибо за идеи и замечания.

Тестируйте обновления в Telegram-боте и делитесь в комментариях мнением о новом функционале.

Please open Telegram to view this post

VIEW IN TELEGRAM

477 views10:30

LLM Arena

🔥

Бенчмарки стали неотъемлемой частью работы с LLM

Разобраться, как они устроены и какие метрики действительно имеют значение, можно будет вместе с нами 15 апреля на митапе Т-Банка.

Хедлайнерами программы выступит наша команда LLM Arena и авторы бенчмарка MERA — одного из наиболее используемых инструментов для оценки русскоязычных языковых моделей.

Будем разбирать:
- как устроены бенчмарки для текстовых и мультимодальных моделей;
- что учитывать при проверке LLM на качество написания кода;
- как сравнивать между собой специализированные ML-модели.

Встреча пройдёт в офлайн-формате в Москве, подробности по ссылке.

Регистрация уже открыта — приходите, будем рады видеть.

Please open Telegram to view this post

VIEW IN TELEGRAM

613 views15:10

LLM Arena

🔥

Добавили новые модели ChatGPT на Арену

Кроме того, состав пополнили предыдущие версии, ранее недоступные.

Теперь на LLM Arena представлены:
⏺️ GPT 4.1
⏺️ GPT 4.1 Mini
⏺️ GPT 4.1 Nano
⏺️ o1-mini и
⏺️ о3-mini

Новые модели идут в трёх размерах — GPT 4.1, GPT 4.1 Mini и GPT 4.1 Nano. По сравнению с 4o, GPT 4.1 прокачали по всем фронтам — от кодинга до мультимодальности.

Но самое главное — 4.1 сильно лучше в следовании инструкций, модель теперь меньше забывает инструкции через одно сообщение и газлайтит пользователей.

Мы продолжаем добавлять новые модели на арену — вы можете затестить их уже сейчас:

1. Заходите на сайт llmarena.ru или в наш mini-app прямо в Telegram.
2. Оценивайте модели, голосуйте за лучшие ответы.
3. Делитесь в чате инсайтами.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

676 views11:03

LLM Arena

Forwarded from Роман с данными

LLM моделей становится все больше и больше, разобраться в таком зоопарке становится все сложнее и сложнее.

Openrouter придумал интересный способ навести порядок - они проклассифицировали запросы своих клиентов по типам задач (programming, legal, finance и т.д) - и посмотрели в каких случаях какие модели используются.

Как говорится - все гениальное просто 🙃

Ознакомиться с инфографикой можно по ссылке https://openrouter.ai/rankings

461 views11:35

LLM Arena

⚡️

Обновление на LLM Arena: добавлены пять моделей Qwen3

На платформе появились новые модели Qwen3 от Alibaba — одного из наиболее технологически продвинутых семейств LLM на сегодняшний день.

Они показывают высокие результаты в тестах, на предварительных тестах уверенно конкурируют с LLaMA 4 402B Maverick и DeepSeek R1 Shannon, и теперь доступны для сравнения на LLM Arena.

Добавлены следующие версии:

⏺️

Qwen3-8B — компактная модель для повседневных задач

⏺️

Qwen3-14B — более уверенная генерация и понимание контекста

⏺️

Qwen3-30B-A3B — MoE-архитектура: высокая производительность при сниженных требованиях к ресурсам

⏺️

Qwen3-32B — надёжная модель, близкая к флагманскому уровню

⏺️

Qwen3-235B-A22B — тяжеловес, превосходящий по ряду метрик LLaMA 4 402B, но при этом экономичнее

1. Заходите на сайт llmarena.ru или в наш mini-app прямо в Telegram.
2. Используйте анонимную арену, сравнивайте модели и голосуйте за лучшие ответы.
3. Делитесь в чате инсайтами.

☝️

Не забывайте оставлять свой голос — это важно для развития платформы

Please open Telegram to view this post

VIEW IN TELEGRAM

463 views12:31

LLM Arena

📊

Обновили график Price vs Quality на LLM Arena

Мы постарались учесть всё, что мешало удобному анализу, и улучшили основные элементы. Теперь он точнее, аккуратнее и лучше отражает реальную картину:

⏺️

Визуализация стала понятнее
График больше не выглядит сжатым и перегруженным, что делает его более читаемым и облегчает сравнение моделей между собой.

⏺️

Добавлены доверительные интервалы
Они помогают оценить статистическую надежность Elo-рейтинга каждой модели.

⏺️

Гибкий расчёт стоимости
Теперь вы можете настраивать баланс между input- и output-токенами в зависимости от ваших задач.

⏺️

Параметр "Style Control"
Позволяет "очистить" рейтинг от влияния стиля – длины текста, форматирования (списков, выделений).

⏺️

Актуальные модели
График построен на свежих данных с основного лидерборда LLM Arena.

Найти график можно на сайте llmarena.ru во вкладке Таблица лидеров

➡️

Price vs Quality.

А вы уже нашли свою модель?
❤️ — да, и она стоит своих денег
🔥 — пока только ищу, спасибо за график

Please open Telegram to view this post

VIEW IN TELEGRAM

3.8K views10:00

LLM Arena

🔥

Обновили лидерборд на LLM Arena

На платформе теперь доступен майский рейтинг языковых моделей. Строится он на основе ваших оценок, без синтетических тестов.

Что изменилось в рейтинге:
⏺️ Кол-во моделей выросло до 63
⏺️ Общее число голосов — почти 70 000

⏺️

Gemma 3 27B (Google) — резкий рост Elo и попадание в топ-группу

⏺️

claude-3-5-sonnet-20241022 — укрепила позиции: +Elo, +голоса
⏺️ У большинства лидеров — небольшие колебания Elo, но рост голосов
⏺️ Появились новые модели, включая claude-3-7-sonnet-20250219

⏺️

GPT-4o и Gemini Pro сохранили высокие позиции, несмотря на лёгкое снижение Elo

Топ остался стабильным, интерес к новым моделям растёт, голосов становится всё больше.

Посмотреть таблицу полностью можно:
— на сайте llmarena.ru,
— или прямо в Telegram, во вкладке «Таблица лидеров».

Не забывайте отдавать голос лучшему ответу на Анонимной Арене — каждая оценка помогает повысить точность лидерборда и быстрее прогреть новые модели.

Как считаете, кого не хватает в топе? Пишите в комментариях 👇

Please open Telegram to view this post

VIEW IN TELEGRAM

493 views17:34

LLM Arena

🔥

Новый бенчмарк на LLM Arena

Добавили на платформу Doom (DeathMath) — открытый бенчмарк от Vikhr Models для проверки математических и физических способностей моделей на русском.

Проверяет reasoning на строгих, настоящих задачах. Собран на основе задач Всероссийских олимпиад (ВСОШ), Ломоносовской, Высшей пробы, Физтеха, ОММО и других.

Что проверяет:
— Умение решать реальные олимпиадные и экзаменационные задачи
— Логическое рассуждение и базовые вычислительные навыки
— Способность давать точный ответ, а не «приблизительно верный»

Как работает:
⏺️Каждая модель по очереди решает задачи из двух наборов: RussianMath и RussianPhysics
⏺️Ответы сравниваются с эталонными, с учётом формата и точности
⏺️Оценка бинарная: 1 — правильно, 0 — нет
⏺️Итог: отдельные баллы за математику и физику, плюс комбинированный результат

Бенчмарк доступен на сайте llmarena.ru в разделе «Таблицы лидеров» → DeathMath

Своё мнение и вопросы можете оставлять прямо под этим постом 👇

Please open Telegram to view this post

VIEW IN TELEGRAM

8.3K views14:03

LLM Arena

This media is not supported in your browser

VIEW IN TELEGRAM

🚀

Представляем Arena Explorer – новый инструмент на LLM Arena!

Мы запустили Arena Explorer — аналитический инструмент, который позволяет глубже понять, как пользователи взаимодействуют с LLM-моделями на нашей платформе.

Он обрабатывает и структурирует большие объемы анонимизированных запросов, помогая выявить ключевые темы и интересы аудитории.

Чтобы показать возможности нового инструмента, мы проанализировали с его помощью более 150 000 русскоязычных промптов. Вот что нам удалось выяснить о самых популярных категориях запросов.

📊

ТОП-5 тем по версии Arena Explorer:

🤩

Программирование: 21 225 промптов

🤩

Наука и техника: 18 476 промптов

🤩

Перевод и лингвистика: 16 026 промптов

🤩

Креативное письмо и копирайтинг: 7 508 промптов

🤩

Анализ данных и стратегии: 4 903 промпта

Эти данные показывают основные направления, в которых русскоязычные пользователи применяют LLM. Arena Explorer позволила не только выделить эти категории, но и детализировать подтемы внутри каждой (например, в программировании популярны оптимизация кода и Python, а в науке — авиация и космонавтика).

Хотите сами изучить данные и тренды?

➡️ Заходите на Arena Explorer и работайте с информацией напрямую.

Please open Telegram to view this post

VIEW IN TELEGRAM

140 views07:00

2025/05/19 13:51:05
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>