tgoop.com/ict_moscow_analytics/5275
Last Update:
Подборка решений: открытые бенчмарки для моделей
Исследователи из НИУ ВШЭ предложили новый научный подход для оценки компетентности искусственного интеллекта в области образования. На прошлой неделе широкий анонс получил бенчмарк BABILong, впервые опубликованный AIRI и МФТИ в феврале этого года.
ICT.Moscow собрал в одной подборке бенчмарки, которые были представлены и выложены в общий доступ российскими командами за последние несколько лет.
***
🏷MERA на открытых и закрытых тестах оценивает работу фундаментальных моделей.Разработчик
— Альянс в сфере искусственного интеллекта
На 🏷LLM Arena каждый может сравнить ответы двух моделей и выбрать лучший. На основе таких сравнений пользователей и формируется рейтинг.Разработчик
— команда во главе с Романом Куцевым
В 🏷RuArenaGeneral GPT-4o оценивает параллельные ответы двух моделей — испытуемой и базовой. На базе этих сравнений с помощью системы Эло строится рейтинг моделей.Разработчик
— Vikhr Models
В 🏷rulm-sbs2 LLM-судья оценивает по десятибалльной шкале ответы двух моделей на различные задания.Разработчик
— Лаборатория анализа данных Александра Кукушкина
🏷ruMT-Bench позволяет с помощью LLM-судьи оценить выравнивание (Alignment) поведения ИИ-ассистентов.Разработчик
— SberDevices
Бенчмарк 🏷BABILong разработан исследователями для оценки способности больших языковых моделей извлекать и эффективно обрабатывать распределенные факты в больших текстах.Разработчики
— Институт AIRI, МФТИ
🏷LIBRA помогает проанализировать умение языковой модели оперировать длинным контекстом: резюмировать, вычленять основные идеи текста.Разработчики
— AIRI, ecom. tech, SberTech и МФТИ
🏷RuCoLa оценивает лингвистическую компетентность больших языковых моделей.Разработчики
— ABBYY, Huawei, SberDevices, Yandex Research и НИУ ВШЭ
🏷ruIFEval проверяет способность модели следовать заданным на естественном языке инструкциям.Разработчик
— SberDevices
🏷RussianSuperGLUE призван стать рейтингом русскоязычных NLP-моделей.Разработчики
— Huawei, SberDevices, НИУ ВШЭ
🏷TAPE испытывает модели в их способностях обрабатывать русский естественный язык.Разработчики
— SberDevices, НИУ ВШЭ и Huawei
С помощью 🏷MedBench можно сравнить модели машинного обучения, работающие с медицинскими данными.Разработчик
— Лаборатория искусственного интеллекта «Сбера»
🏷ruMTEB проверяет текстовые эмбеддинги и эмбеддеры. Разработчик
— SberDevices
Для научных текстов их испытывает 🏷ruSciBench.Разработчик
— Институт искусственного интеллекта МГУ им. М.В. Ломоносова
🏷RuSentEval также тестирует эмбеддинги и эмбеддеры.Разработчики
— НИУ ВШЭ, SberDevices
👉🏻 Полная версия подборки