Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
- Telegram Web
Telegram Web
Channel created
Channel photo updated
Всем привет! Неделя выдалась жаркой на анонсы LLM.

Главное событие на зарубежном направлении: анонс GPT-4o mini. Мы уже добавили ее на llmarena.ru, так что велком тестировать! Чем больше людей пользуются ареной, тем быстрее "прокрашиваются" и сходятся доверительные интервалы оценок. Надеемся, что за неделю наберем достаточное кол-во данных, для объективной оценки.

На российском рынке на этой неделе удивил всех анонс модели T-lite. Удивил тем, что еще недавно Тарнавский (head of ML, AI Тбанк) говорил о том, что не пойдут в open source. Не уверены на 100%, что это моделька от Т-Банка, но на всякий случай добавим ее на llmarena.ru тоже.

И на этой неделе появятся еще пару моделек на арене, поэтому ваши голоса и оценки нам очень нужны!
Забавно наблюдать, как практически одновременно все ML паблики запостили новость про выход Llama 3.1. Выделился только Игорь Котенков, рассказав о ней еще за день до официального выхода.

Да, событие легендарное, это огромный прорыв, интересно как мощнейшая опенсорс модель поменяет ход игры на поле боя LLM.

Мы уже добавляем Llama 3.1 в версиях 8B и 70B, 405B на llmarena.ru, и планируем за неделю собрать достаточное кол-во голосов, чтобы обновить лидерборд. Поэтому ваши голоса и оценки нам очень нужны!
Всем привет! Врываемся к вам с апдейтами и новостями за последний месяц.

Новость 1: Сегодня мы обновили лидерборд, сузили интервалы для новых моделек Llama 3.1, добавили на него модели T-lite, Gemma 2 27B.

Новость 2: По аналогии с зарубежным LMSYS, мы открываем прием заявок на получение доступа к данным, по которым строится лидерборд. Чтобы вы сами могли изучить на каких данных основывается бенчмарк и детальнее изучить логи каждой из 28 моделей.

Новость 3: Добавили фильтры "crowdsourcing / simple prompts" и "site visitors / medium prompts".
"crowdsourcing / simple prompts" - ответы юзеров с краудсорсинговых платформ. Эта когорта юзеров далека от опытного пользователя LLM, в основном задает информационные вопросы.
"site visitors / medium prompts" - обычные пользователи llmarena.ru с более сложными промптами.

Новость 4: За последний месяц посещаемость сайта увеличилась в 6 раз, цитируемость бенчмарка возросла в разы, о нас написали Коммерсантъ, ITZine, Machinelearning, Tproger, ХАЙТЕК, RSpectr, hi-tech, газета.ru, Хабр, Lenta.ru. Крайне рады что наша работа важна и интересна людям, и очень круто, что появляется комьюнити вокруг бенчмарка.

Если у вас есть вопросы, либо хотите участвовать в развитии бечмарка - вступайте в наш чат.
Вчера у зарубежного LMSYS вышли значительные обновления.
Самое главное - внедрение фильтра style control.
В июле возникло много критики и непонимания почему малая модель GPT-4o mini обогнала в рейтинге все большие модели, такие как GPT-4, Claude 3.5 Sonnet и т.д.

Автор канала "эйай ньюз" выдвинул следующую гипотезу: "4o mini просто даёт более детальные ответы относительно быстро. Людям влом всё это всё читать и они голосуют за 4o mini, не особо проверяя корректность".

Вчера LMSYS подтвердил эту гипотезу, выложив статью "Does style matter? Disentangling style and substance in Chatbot Arena”. Краткое содержание на русском доступно тут.

Мы уже в процессе добавления фильтра style control на llmarena.ru, планируем выкатить на следующей неделе! Следите за апдейтами и голосуйте за лучшие модели на нашей платформе!
Начинаем сентябрь с супер новостей!

Новость 1: Разделили потоки загрузки арены и лидерборда. Скорость загрузки страницы llmarena.ru выросла в 5 раз (с 7 сек до 1.4 сек). Теперь загружаемся также быстро, как chatgpt.com.

Новость 2: Добавили фильтр “style control", методику расчета взяли из зарубежной LMSYS арены.

Новость 3: Обновили лидерборд, добавили в расчет собранные логи за август.
Новость 4: Недавно зарубежная lmarena.ai добавила в лидерборд вкладу с бенчмарком Arena-Hard-Auto. Отличие Arena-Hard-Auto от обычной арены в том, что в Arena-Hard ответы моделей оценивает не человек, а одна более сильная модель.

В этом подходе есть и плюсы и минусы:
+ Бенчмарк считается и прогоняется для новых моделей меньше чем за час, это на порядки дешевле и быстрее, чем оценивать людьми.
+ Можно самим собирать корзинку из 500 промптов по которым происходит оценка, балансировать сложные/простые промпты для объективности бенчмарка.
+ Результаты Arena-Hard-Auto коррелируют на 89.1% с оценкой людьми, это довольно хороший показатель.
- Возникает небольшое смещение, так как модели оценщики (LLM-as-a-judge) с большей вероятностью голосуют за свою линейку моделей.
- Корзинка из 500 промптов может быть смещена от выборки вопросов людей, иметь перекосы в определенные тематики, трудно составить объективную корзинку.

Так что, подводя итог: обычная арена и Arena-Hard-Auto - это бенчмарки с разной технологией оценки (люди vs LLM), но с большой корреляцией друг с другом.

Мы идем по пути LMSYS арены, поэтому сделали коллаборацию и добавили на страницу лидерборда российскую Arena-Hard-Auto от наших коллег из Vikhr models.
Делимся апдейтами текущей недели:

- Теперь мы есть и на huggingface. Тот же самый лидерборд, что и на llmarena.ru, но на английском языке. Выходим в зарубежное комьюнити.

- Добавили фичу шеринга чатов. При нажатии на "📷Поделиться" у вас будет ссылка с логами вашего диалога, и вы ей можете с кем угодно поделиться!

Чуть больше расскажу, почему решили сделать возможность делиться чатами.
Мы опросили пользователей и заметили, что большое кол-во людей загружают свои рабочие кейсы по использованию LLM и смотрят какая LLM отработала лучше. И уже на основе ответов определяют, какую LLMку стоит использовать. И чтобы вам теперь было проще доказать всем, что нужно юзать именно LLM X, а не Y, загружайте кейсы в "⚔️ Арена (сравнение)" и скидывайте результаты ссылкой своим друзьям/коллегам.
Всем привет!

Помимо выкатки новых интересных фич, в наших целях стоит увеличение кол-во юзеров и собираемых оценок.
При более быстром сборе оценок от людей мы сможем быстрее добавлять новые модели, бенчмарк станет еще более устойчивым к шумам и некачественным оценкам.

Поэтому по аналогии с vsegpt.ru, мы вводим программу "Создай туториал!"
Вы создаете видео/текстовый туториал, статью, в которой рассказывается как можно решать какую-либо задачу с помощью llmarena.ru - а с нас денежное вознаграждение. Полные условия программы тут.

А если вам интересно присоединиться к нам в супер команду в качестве маркетолога, пишите в ЛС!
Всем привет! Делимся новостями и улучшениями платформы за прошедший месяц!

• Улучшили UX/UI мобильной версии, теперь пользоваться llmarena.ru на много удобнее!
• Прилинковали домен lmarena.ru, теперь на нашу платформу можно заходить и с него
• Добавили по дефолту отображение фильтра “site_visitors/medium_prompts:style control”
• Снова добавили в публичную арену GPT-4о, но уже с лимитами
• Работаем над увеличением кол-ва собираемых оценок:
- Добавили поп-апы с призывом голосовать
- Изменили кнопки, добавив акцент на голосовании
- Снова пробуем часть данных собирать через крауд (прошла попытка провалилась, показав крайне низкое качество оценок)
• Добавили на арену следующие модели:
- Llama 3.2 11B Instruct
- Qwen2.5 72B Instruct
- Cohere: Command R+ (08-2024)
- Google: Gemini Flash 1.5
- Google: Gemini Pro 1.5
- YandexGPT Experimental New
- Vikhrmodels/Vikhr-Nemo-12B-Instruct-R-21-09-24
- RefalMachine/ruadapt_llama3_instruct_lep_saiga_kto_ablitirated


Все еще испытываем дефицит оценок со сложными вопросами/задачами пользователей. Поэтому крайне рады будем вашим голосам на платформе llmarena.ru!
Вышла YandexGPT 4 Pro. Сразу добавили ее на llmarena.ru.

И только у нас совершенно бесплатно вы можете протестировать и сравнить ее с другими моделями😉

P.S да, приходится писать желтые заголовки, чтобы вы больше голосовали)
За 2 недели собрали необходимое кол-во голосов и добавили на лидерборд модели:
- Llama 3.2 11B Instruct
- Qwen2.5 72B Instruct
- Cohere: Command R+ (08-2024)
- Google: Gemini Flash 1.5
- Google: Gemini Pro 1.5
- YandexGPT 4 Pro
- Vikhrmodels/Vikhr-Nemo-12B-Instruct-R-21-09-24
- RefalMachine/ruadapt_llama3_instruct_lep_saiga_kto_ablitirated

Смотрите результаты на llmarena.ru

Выражаем благодарность Love. Death. Transformers. и Vikhr models за помощь в популизации сбора голосов.
P.S: Нам все еще нужны ваши оценки. Чем активнее будете ставить, тем быстрее добавим на лидерборд GigaChat Max.
На нас уже Центральный Банк Российской Федерации в своих тендерах ссылается.
Приятное достижение для проекта, которому 4 месяца.

P.S: Голосуйте активнее, чтобы мы уже добавили на лидерборд GigaChat Max.
Всем привет! За 4 месяца мы достигли суперских результатов:
• О нас написали Коммерсантъ, ITZine, Machinelearning, Tproger, ХАЙТЕК, RSpectr, hi-tech, газета.ru, Хабр, Lenta.ru
• Ежедневно платформой пользуются сотни людей, а месячные посещения измеряются в десятках тысяч
• Даже ЦБ ссылается на нас при публикации тендеров

Сейчас мы расширяемся и ищем продакт-менеджера к нам в команду!

Если кратко, то нужно улучшать платформу, проводить касдевы, давать разрабам задачи на разработку новых фич, растить аудиторию пользователей.
Подробнее о вакансии тут. Не упустите шанс стать частью нашей команды😉
Заинтересовало? Пишите в лс.
👋 Всем привет! У нас важные новости!

Мы официально запустили мини-app LLM Arena в Telegram.

Теперь вы можете оценивать модели и решать свои задачи с помощью LLM Arena, не выходя из мессенджера.

Как это работает?
1. Открываете мини-аппку по ссылке.
2. Вводите запрос.
3. Получаете два ответа от разных моделей и голосуете за понравившийся.

⚡️ Приложение синхронизировано с основной платформой, так что оценки идут в общий зачёт для бенчмарка. Мы рассчитываем, что это ускорит сбор данных и сделает арену ещё удобнее для пользователей.

Это только начало. В планах добавить статистику, бейджи, рейтинг лучших юзеров по оценкам на платформе.

Друзья, ваши оценки и отзывы важны для развития арены, поэтому ждём ваших голосов — и в Telegram, и на сайте llmarena.ru.

Как вам новый формат?
И конечно же хочу поделиться итогами по LLM Arena!
Прежде чем начну, расскажу о том, как же пришла в голову идея создать арену.

Последние 8 лет я плотно занимаюсь данными, и их просто обожаю (думаю, по названию канала это и так понятно😀). Еще в 2018 году, когда выигрывал хакатоны, я усвоил, что без хорошей валидации нереально строить ИИ продукт. Если тест сета нет - то ты как слепой котенок: что-то улучшаешь, файтюнишь. А стало ли лучше - непонятно.

И даже когда мой основной бизнес стал сбором, разметкой и модерацией данных для обучения ИИ, оценка качества ML алгоритмов всегда оставалась любимой задачей.

Поэтому, когда новые LLMки начали появляться как грибы после дождя, я понял, что с одной стороны, у пользователей есть большая потребность понимать, как LLM соотносятся по качеству между собой. А с другой, что у меня есть экспертиза, команда, и понимание, как сделать качественный и хороший бенчмарк.

Почему мы пошли по пути LMSYS Chatbot Arena
На это было несколько причин:
1. Уже была MERA. Летом я познакомился с Аленой Феногеновой, понял, что у нее сильная команда, хорошие бюджеты, пиар, и посчитал, что делать еще один тестовый бенчмарк сейчас нет необходимости.
2. С 2018 года я плотно занимаюсь краудсорсингом, был сертифицированным партнером Толоки, преподавателем крауда в ВШЭ и ШАДе. Так что нагонять кучу людей для сбора оценок, выявлять фродеров, управлять толпой - это то, что я люблю и умею.
3. Было видно, что помимо бенчмарков в виде теста, разработчикам нужны бенчи на основе человеческого фидбека
4. Весной за рубежом LMSYS хайповала, казалось, что это самый популярный бенчмарк

А так как российским LLM моделям трудно попасть на зарубежную арену, мы запустили свою llmarena.ru 🎉

Чего добились за эти полгода:
• Добавили на лидерборд 44 модели
• Выстроили репутацию, что даже ЦБ о нас пишет
• Получили огромную огласку в СМИ
• Запустили мини-app LLM Arena в Telegram
Опубликовали на Habr более 25 статей об оценке RAG и LLM моделей
• В рамках llmarena.team пошли в заказную разработку, оценку LLM и RAG систем, Red Teaming LLM, нащупали маркет фит, получили первую выручку
• Познакомились с кучей интересных людей, занимающихся развитием ЛЛМ в РФ
• Сплотились в дружную команду из 8 человек
• Собрали более 50 000 оценок от юзеров
• Наш доклад "Почему бенчмарки лгут?" выиграл номинацию “лучший доклад техно-трека” на конференции conversations

Как и в AI Роман, в следующем году нашу команду ждут новые вызовы и свершения. Поэтому подписывайтесь и следите за нашими достижениями!
2025/01/04 05:51:01
Back to Top
HTML Embed Code: