tgoop.com/spbucenterAI/170
Last Update:
Как оказалось, среди инструментов российского производства тоже есть немало достойных примеров.
Делимся с вами некоторыми из них
1. MERA (Multimodal Evaluation for Russian-language Architectures) – проект от SberDevices, Sber AI, НИУ ВШЭ, «Сколтеха» и других разработчиков. Его предназначение – оценивать на закрытых и открытых тестах современные большие языковые модели для русского языка. Кодовая база для оценки на бенчмарке MERA основана на международном фреймворке LM Evaluation Harness. Сейчас это единая площадка для рейтинга моделей и отражения их способностей по доменам, задачам и модальностям.
2. LLM Arena – общедоступная платформа, цель которой – сделать объективный, открытый и актуальный бенчмарк больших языковых моделей на русском языке. Она собирает и ранжирует парные сравнения пользователей с помощью вероятностной модели Брэдли-Терри. Так можно узнать, какой из ответов, сгенерированный разными нейросетями, более качественный. При этом существуют режимы сравнения как случайных моделей, так и выбранных пользователем.
3. RuCoLa – проект по оценке лингвистической компетентности больших языковых моделей от ABBYY, Huawei, Yandex Research, SberDevices и НИУ ВШЭ. Он может использоваться для сравнения способностей нейросети к пониманию языка, а также для улучшения качества генерации текстов. В основе RuCoLa – набор из 13,4 тысяч предложений на русском языке, которые размечены по бинарной шкале лингвистической приемлемости. Приемлемое высказывание – то, которое мог бы привести носитель языка, а другой носитель – понять. Датасет оценивает чувствительность моделей как к обычным лингвистическим явлениям (морфологии, синтаксису, семантике), так и к галлюцинациям, например, к бессмысленному повторению фрагментов предложения.
4. RussianSuperGlue – еще одна платформа для оценки понимания моделями русского языка, созданная SberDevices, Huawei и НИУ ВШЭ. Бенчмарк включает в себя четыре части: тесты для нейросетей, тесты для людей для сравнения, оценку существующих моделей и инструменты для помощи в оценке собственной модели. Разработчики хотят, чтобы RussianSuperGlue стал общедоступным рейтингом русскоязычных NLP-моделей (обрабатывающих естественный язык). Он также призван помочь специалистам в Data Science понять, какая из нейросетей больше подходит для выполнения тех или иных задач.
5. ruSciBench, разработанный в МГУ им. М. В. Ломоносова, предназначен для оценки эмбеддингов научных текстов. Представьте, что каждый текст – это точка в многомерном пространстве, так вот эмбеддинги помогают преобразовать текст в такие точки, где похожие по смыслу тексты будут находится близко друг к другу. Датасет бенчмарка состоит из 194 тысячи сочетаний названий и аннотаций статей на русском языке и 182,4 тысячи на английском. Всего есть два типа задач: классификация и поиск перевода. Задача поиска перевода проверяет, насколько хорошо модель понимает смысл текста, независимо от языка. Для этого сравнивают, насколько близки векторы (эмбеддинги) аннотации на русском и английском языках. Чем ближе они друг к другу, тем лучше работает модель. В результате получают две метрики: насколько успешно можно найти русскую аннотацию по английской и наоборот.
А с какими отечественными бенчмарками знакомы вы? Делитесь в комментариях