Мониторинг аналитики об IT@ict_moscow

Подборка решений: открытые бенчмарки для моделей

Исследователи из НИУ ВШЭ предложили новый научный подход для оценки компетентности искусственного интеллекта в области образования. На прошлой неделе широкий анонс получил бенчмарк BABILong, впервые опубликованный AIRI и МФТИ в феврале этого года.

ICT.Moscow собрал в одной подборке бенчмарки, которые были представлены и выложены в общий доступ российскими командами за последние несколько лет.

***

💡 Бенчмарк общего профиля

🏷MERA на открытых и закрытых тестах оценивает работу фундаментальных моделей.
Разработчик — Альянс в сфере искусственного интеллекта

💡 Бенчмарки для сравнения производительности

На 🏷LLM Arena каждый может сравнить ответы двух моделей и выбрать лучший. На основе таких сравнений пользователей и формируется рейтинг.
Разработчик — команда во главе с Романом Куцевым

В 🏷RuArenaGeneral GPT-4o оценивает параллельные ответы двух моделей — испытуемой и базовой. На базе этих сравнений с помощью системы Эло строится рейтинг моделей.
Разработчик — Vikhr Models

В 🏷rulm-sbs2 LLM-судья оценивает по десятибалльной шкале ответы двух моделей на различные задания.
Разработчик — Лаборатория анализа данных Александра Кукушкина

🏷ruMT-Bench позволяет с помощью LLM-судьи оценить выравнивание (Alignment) поведения ИИ-ассистентов.
Разработчик — SberDevices

💡 Бенчмарки для длинного контекста

Бенчмарк 🏷BABILong разработан исследователями для оценки способности больших языковых моделей извлекать и эффективно обрабатывать распределенные факты в больших текстах.
Разработчики — Институт AIRI, МФТИ

🏷LIBRA помогает проанализировать умение языковой модели оперировать длинным контекстом: резюмировать, вычленять основные идеи текста.
Разработчики — AIRI, ecom. tech, SberTech и МФТИ

💡 Бенчмарки для обработки и понимания естественного языка

🏷RuCoLa оценивает лингвистическую компетентность больших языковых моделей.
Разработчики — ABBYY, Huawei, SberDevices, Yandex Research и НИУ ВШЭ

🏷ruIFEval проверяет способность модели следовать заданным на естественном языке инструкциям.
Разработчик — SberDevices

🏷RussianSuperGLUE призван стать рейтингом русскоязычных NLP-моделей.
Разработчики — Huawei, SberDevices, НИУ ВШЭ

🏷TAPE испытывает модели в их способностях обрабатывать русский естественный язык.
Разработчики — SberDevices, НИУ ВШЭ и Huawei

💡 Бенчмарк для работы с медицинскими данными

С помощью 🏷MedBench можно сравнить модели машинного обучения, работающие с медицинскими данными.
Разработчик — Лаборатория искусственного интеллекта «Сбера»

💡 Бенчмарки для работы с эмбеддингами и эмбеддерами

🏷ruMTEB проверяет текстовые эмбеддинги и эмбеддеры.
Разработчик — SberDevices

Для научных текстов их испытывает 🏷ruSciBench.
Разработчик — Институт искусственного интеллекта МГУ им. М.В. Ломоносова

🏷RuSentEval также тестирует эмбеддинги и эмбеддеры.
Разработчики — НИУ ВШЭ, SberDevices

👉🏻 Полная версия подборки

Please open Telegram to view this post

VIEW IN TELEGRAM

www.tgoop.com/ict_moscow_analytics/5275

224 viewsNov 26, 2024 at 10:14

tgoop.com/ict_moscow_analytics/5275

Create: 2024-11-26
Last Update: 2025-03-02 06:43:47

Telegram News

Подборка решений: открытые бенчмарки для моделей