Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
- Telegram Web
Telegram Web
🔥 Зарубежные ИИ на MERA — при поддержке LLM Arena

Пока все следили за обновлением Mistral Small, мы добавили зарубежные модели на лидерборд MERA — один из ведущих бенчмарков для оценки языковых моделей в России.

На платформе стали доступны:
⏺️ Claude 3.7 Sonnet
⏺️ Claude 3.5 Haiku
⏺️ Gemini Flash 2.0
⏺️ DeepSeek-V3
⏺️ Meta Llama 3.3
⏺️ Gemma 3 27B

Теперь вы можете наглядно увидеть, как Claude, Gemini, Llama и другие модели справляются с русскоязычными задачами в сравнении с отечественными LLM на одной площадке.

☝️ Кстати об этом: нам по-прежнему важны ваши оценки, ведь они напрямую влияют на рейтинг Арены. Не забывайте отдавать голоса — и в Telegram, и на сайте.
Please open Telegram to view this post
VIEW IN TELEGRAM
Добавили Llama 4 Maverick и Llama 4 Scout на llmarena.ru

Вышли две новые модели с открытыми весами:
Llama 4 Scout и Llama 4 Maverick — обе мультимодальные, обе на MoE, обе 🔥

Что нового и крутого:
10М контекста у Scout — да, 10 миллионов токенов, и модель тянет это с качеством
Мультимодальность из коробки: текст, картинки, видео, всё в одной архитектуре
Llama 4 Scout — 17B активных параметров / 109B общих (16 экспертов), работает на одном H100
Llama 4 Maverick — 17B активных / 400B общих (128 экспертов), уделывает GPT-4o и Gemini 2.0 Flash на бенчмарках
— В основе — Behemoth (ещё в обучении): 288B активных / 2T общих

Обе модели мощно посттренились:
— Сложные данные, онлайн RL, мягкий DPO
— Вычищены «лёгкие» примеры — упор на reasoning, код, математику
— Scout отлично держит длинный контекст (10М) + iRoPE архитектура
— Maverick — топ в мультимодальности и диалогах

Где трогать:
Hugging Face
Блогпост
llmarena.ru

Модели доступны совершенно бесплатно как в публичной, так и в анонимной арене, го тестировать!
🔥 Теперь рейтинг есть не только у моделей, но и у вас

Мы добавили авторизацию в боте через Telegram. Всё как раньше: задаёте вопросы, оцениваете ответы — только теперь ваш прогресс сохраняется.

За каждый отданный голос на Арене вам начисляются очки опыта. Чем активнее вы — тем выше ваш уровень.

Вместе с уровнем открываются новые возможности: доступ к наградам, статусам, расширенным функциям и рейтингу.

Чем больше активных, авторизованных пользователей — тем точнее система оценки и полезнее рейтинг моделей.

Для новичков мы добавили подробный онбординг: в боте есть гайд, подсказки и объяснения — чтобы быстрее понять механику платформы.

Всё это — благодаря вашей обратной связи. Читали, собирали, внедряли. Спасибо за идеи и замечания.

Тестируйте обновления в Telegram-боте и делитесь в комментариях мнением о новом функционале.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Бенчмарки стали неотъемлемой частью работы с LLM

Разобраться, как они устроены и какие метрики действительно имеют значение, можно будет вместе с нами 15 апреля на митапе Т-Банка.

Хедлайнерами программы выступит наша команда LLM Arena и авторы бенчмарка MERA — одного из наиболее используемых инструментов для оценки русскоязычных языковых моделей.

Будем разбирать:
- как устроены бенчмарки для текстовых и мультимодальных моделей;
- что учитывать при проверке LLM на качество написания кода;
- как сравнивать между собой специализированные ML-модели.

Встреча пройдёт в офлайн-формате в Москве, подробности по ссылке.

Регистрация уже открыта — приходите, будем рады видеть.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Добавили новые модели ChatGPT на Арену

Кроме того, состав пополнили предыдущие версии, ранее недоступные.

Теперь на LLM Arena представлены:
⏺️ GPT 4.1
⏺️ GPT 4.1 Mini
⏺️ GPT 4.1 Nano
⏺️ o1-mini и
⏺️ о3-mini

Новые модели идут в трёх размерах — GPT 4.1, GPT 4.1 Mini и GPT 4.1 Nano. По сравнению с 4o, GPT 4.1 прокачали по всем фронтам — от кодинга до мультимодальности.

Но самое главное — 4.1 сильно лучше в следовании инструкций, модель теперь меньше забывает инструкции через одно сообщение и газлайтит пользователей.

Мы продолжаем добавлять новые модели на арену — вы можете затестить их уже сейчас:

1. Заходите на сайт llmarena.ru или в наш mini-app прямо в Telegram.
2. Оценивайте модели, голосуйте за лучшие ответы.
3. Делитесь в чате инсайтами.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
LLM моделей становится все больше и больше, разобраться в таком зоопарке становится все сложнее и сложнее.

Openrouter придумал интересный способ навести порядок - они проклассифицировали запросы своих клиентов по типам задач (programming, legal, finance и т.д) - и посмотрели в каких случаях какие модели используются.

Как говорится - все гениальное просто 🙃

Ознакомиться с инфографикой можно по ссылке https://openrouter.ai/rankings
⚡️ Обновление на LLM Arena: добавлены пять моделей Qwen3

На платформе появились новые модели Qwen3 от Alibaba — одного из наиболее технологически продвинутых семейств LLM на сегодняшний день.

Они показывают высокие результаты в тестах, на предварительных тестах уверенно конкурируют с LLaMA 4 402B Maverick и DeepSeek R1 Shannon, и теперь доступны для сравнения на LLM Arena.

Добавлены следующие версии:
⏺️ Qwen3-8B — компактная модель для повседневных задач
⏺️ Qwen3-14B — более уверенная генерация и понимание контекста
⏺️ Qwen3-30B-A3B — MoE-архитектура: высокая производительность при сниженных требованиях к ресурсам
⏺️ Qwen3-32B — надёжная модель, близкая к флагманскому уровню
⏺️ Qwen3-235B-A22B — тяжеловес, превосходящий по ряду метрик LLaMA 4 402B, но при этом экономичнее

1. Заходите на сайт llmarena.ru или в наш mini-app прямо в Telegram.
2. Используйте анонимную арену, сравнивайте модели и голосуйте за лучшие ответы.
3. Делитесь в чате инсайтами.

☝️ Не забывайте оставлять свой голос — это важно для развития платформы
Please open Telegram to view this post
VIEW IN TELEGRAM
📊Обновили график Price vs Quality на LLM Arena

Мы постарались учесть всё, что мешало удобному анализу, и улучшили основные элементы. Теперь он точнее, аккуратнее и лучше отражает реальную картину:

⏺️Визуализация стала понятнее
График больше не выглядит сжатым и перегруженным, что делает его более читаемым и облегчает сравнение моделей между собой.

⏺️Добавлены доверительные интервалы
Они помогают оценить статистическую надежность Elo-рейтинга каждой модели.

⏺️Гибкий расчёт стоимости
Теперь вы можете настраивать баланс между input- и output-токенами в зависимости от ваших задач.

⏺️Параметр "Style Control"
Позволяет "очистить" рейтинг от влияния стиля – длины текста, форматирования (списков, выделений).

⏺️Актуальные модели
График построен на свежих данных с основного лидерборда LLM Arena.

Найти график можно на сайте llmarena.ru во вкладке Таблица лидеров ➡️ Price vs Quality.

А вы уже нашли свою модель?
❤️ — да, и она стоит своих денег
🔥 — пока только ищу, спасибо за график
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Обновили лидерборд на LLM Arena

На платформе теперь доступен майский рейтинг языковых моделей. Строится он на основе ваших оценок, без синтетических тестов.

Что изменилось в рейтинге:
⏺️ Кол-во моделей выросло до 63
⏺️ Общее число голосов — почти 70 000
⏺️ Gemma 3 27B (Google) — резкий рост Elo и попадание в топ-группу
⏺️ claude-3-5-sonnet-20241022 — укрепила позиции: +Elo, +голоса
⏺️ У большинства лидеров — небольшие колебания Elo, но рост голосов
⏺️ Появились новые модели, включая claude-3-7-sonnet-20250219
⏺️ GPT-4o и Gemini Pro сохранили высокие позиции, несмотря на лёгкое снижение Elo

Топ остался стабильным, интерес к новым моделям растёт, голосов становится всё больше.

Посмотреть таблицу полностью можно:
— на сайте llmarena.ru,
— или прямо в Telegram, во вкладке «Таблица лидеров».

Не забывайте отдавать голос лучшему ответу на Анонимной Арене — каждая оценка помогает повысить точность лидерборда и быстрее прогреть новые модели.

Как считаете, кого не хватает в топе? Пишите в комментариях 👇
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Новый бенчмарк на LLM Arena

Добавили на платформу Doom (DeathMath) — открытый бенчмарк от Vikhr Models для проверки математических и физических способностей моделей на русском.

Проверяет reasoning на строгих, настоящих задачах. Собран на основе задач Всероссийских олимпиад (ВСОШ), Ломоносовской, Высшей пробы, Физтеха, ОММО и других.

Что проверяет:
— Умение решать реальные олимпиадные и экзаменационные задачи
— Логическое рассуждение и базовые вычислительные навыки
— Способность давать точный ответ, а не «приблизительно верный»

Как работает:
⏺️Каждая модель по очереди решает задачи из двух наборов: RussianMath и RussianPhysics
⏺️Ответы сравниваются с эталонными, с учётом формата и точности
⏺️Оценка бинарная: 1 — правильно, 0 — нет
⏺️Итог: отдельные баллы за математику и физику, плюс комбинированный результат

Бенчмарк доступен на сайте llmarena.ru в разделе «Таблицы лидеров» → DeathMath

Своё мнение и вопросы можете оставлять прямо под этим постом 👇
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Представляем Arena Explorer – новый инструмент на LLM Arena!

Мы запустили Arena Explorer — аналитический инструмент, который позволяет глубже понять, как пользователи взаимодействуют с LLM-моделями на нашей платформе.

Он обрабатывает и структурирует большие объемы анонимизированных запросов, помогая выявить ключевые темы и интересы аудитории.

Чтобы показать возможности нового инструмента, мы проанализировали с его помощью более 150 000 русскоязычных промптов. Вот что нам удалось выяснить о самых популярных категориях запросов.

📊 ТОП-5 тем по версии Arena Explorer:

🤩Программирование: 21 225 промптов
🤩Наука и техника: 18 476 промптов
🤩Перевод и лингвистика: 16 026 промптов
🤩Креативное письмо и копирайтинг: 7 508 промптов
🤩Анализ данных и стратегии: 4 903 промпта

Эти данные показывают основные направления, в которых русскоязычные пользователи применяют LLM. Arena Explorer позволила не только выделить эти категории, но и детализировать подтемы внутри каждой (например, в программировании популярны оптимизация кода и Python, а в науке — авиация и космонавтика).

Хотите сами изучить данные и тренды?

➡️ Заходите на Arena Explorer и работайте с информацией напрямую.
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/05/19 13:51:05
Back to Top
HTML Embed Code: