ICT_MOSCOW_ANALYTICS Telegram 5275
Forwarded from База знаний AI
Подборка решений: открытые бенчмарки для моделей

Исследователи из НИУ ВШЭ предложили новый научный подход для оценки компетентности искусственного интеллекта в области образования. На прошлой неделе широкий анонс получил бенчмарк BABILong, впервые опубликованный AIRI и МФТИ в феврале этого года.

ICT.Moscow собрал в одной подборке бенчмарки, которые были представлены и выложены в общий доступ российскими командами за последние несколько лет.


***

💡 Бенчмарк общего профиля

🏷MERA на открытых и закрытых тестах оценивает работу фундаментальных моделей.
Разработчик — Альянс в сфере искусственного интеллекта

💡 Бенчмарки для сравнения производительности

На 🏷LLM Arena каждый может сравнить ответы двух моделей и выбрать лучший. На основе таких сравнений пользователей и формируется рейтинг.
Разработчик — команда во главе с Романом Куцевым

В 🏷RuArenaGeneral GPT-4o оценивает параллельные ответы двух моделей — испытуемой и базовой. На базе этих сравнений с помощью системы Эло строится рейтинг моделей.
Разработчик — Vikhr Models

В 🏷rulm-sbs2 LLM-судья оценивает по десятибалльной шкале ответы двух моделей на различные задания.
Разработчик — Лаборатория анализа данных Александра Кукушкина

🏷ruMT-Bench позволяет с помощью LLM-судьи оценить выравнивание (Alignment) поведения ИИ-ассистентов.
Разработчик — SberDevices

💡 Бенчмарки для длинного контекста

Бенчмарк 🏷BABILong разработан исследователями для оценки способности больших языковых моделей извлекать и эффективно обрабатывать распределенные факты в больших текстах.
Разработчики — Институт AIRI, МФТИ

🏷LIBRA помогает проанализировать умение языковой модели оперировать длинным контекстом: резюмировать, вычленять основные идеи текста.
Разработчики — AIRI, ecom. tech, SberTech и МФТИ

💡 Бенчмарки для обработки и понимания естественного языка

🏷RuCoLa оценивает лингвистическую компетентность больших языковых моделей.
Разработчики — ABBYY, Huawei, SberDevices, Yandex Research и НИУ ВШЭ

🏷ruIFEval проверяет способность модели следовать заданным на естественном языке инструкциям.
Разработчик — SberDevices

🏷RussianSuperGLUE призван стать рейтингом русскоязычных NLP-моделей.
Разработчики — Huawei, SberDevices, НИУ ВШЭ

🏷TAPE испытывает модели в их способностях обрабатывать русский естественный язык.
Разработчики — SberDevices, НИУ ВШЭ и Huawei

💡 Бенчмарк для работы с медицинскими данными

С помощью 🏷MedBench можно сравнить модели машинного обучения, работающие с медицинскими данными.
Разработчик — Лаборатория искусственного интеллекта «Сбера»

💡 Бенчмарки для работы с эмбеддингами и эмбеддерами

🏷ruMTEB проверяет текстовые эмбеддинги и эмбеддеры.
Разработчик — SberDevices

Для научных текстов их испытывает 🏷ruSciBench.
Разработчик — Институт искусственного интеллекта МГУ им. М.В. Ломоносова

🏷RuSentEval также тестирует эмбеддинги и эмбеддеры.
Разработчики — НИУ ВШЭ, SberDevices


👉🏻 Полная версия подборки
Please open Telegram to view this post
VIEW IN TELEGRAM



tgoop.com/ict_moscow_analytics/5275
Create:
Last Update:

Подборка решений: открытые бенчмарки для моделей

Исследователи из НИУ ВШЭ предложили новый научный подход для оценки компетентности искусственного интеллекта в области образования. На прошлой неделе широкий анонс получил бенчмарк BABILong, впервые опубликованный AIRI и МФТИ в феврале этого года.

ICT.Moscow собрал в одной подборке бенчмарки, которые были представлены и выложены в общий доступ российскими командами за последние несколько лет.


***

💡 Бенчмарк общего профиля

🏷MERA на открытых и закрытых тестах оценивает работу фундаментальных моделей.
Разработчик — Альянс в сфере искусственного интеллекта

💡 Бенчмарки для сравнения производительности

На 🏷LLM Arena каждый может сравнить ответы двух моделей и выбрать лучший. На основе таких сравнений пользователей и формируется рейтинг.
Разработчик — команда во главе с Романом Куцевым

В 🏷RuArenaGeneral GPT-4o оценивает параллельные ответы двух моделей — испытуемой и базовой. На базе этих сравнений с помощью системы Эло строится рейтинг моделей.
Разработчик — Vikhr Models

В 🏷rulm-sbs2 LLM-судья оценивает по десятибалльной шкале ответы двух моделей на различные задания.
Разработчик — Лаборатория анализа данных Александра Кукушкина

🏷ruMT-Bench позволяет с помощью LLM-судьи оценить выравнивание (Alignment) поведения ИИ-ассистентов.
Разработчик — SberDevices

💡 Бенчмарки для длинного контекста

Бенчмарк 🏷BABILong разработан исследователями для оценки способности больших языковых моделей извлекать и эффективно обрабатывать распределенные факты в больших текстах.
Разработчики — Институт AIRI, МФТИ

🏷LIBRA помогает проанализировать умение языковой модели оперировать длинным контекстом: резюмировать, вычленять основные идеи текста.
Разработчики — AIRI, ecom. tech, SberTech и МФТИ

💡 Бенчмарки для обработки и понимания естественного языка

🏷RuCoLa оценивает лингвистическую компетентность больших языковых моделей.
Разработчики — ABBYY, Huawei, SberDevices, Yandex Research и НИУ ВШЭ

🏷ruIFEval проверяет способность модели следовать заданным на естественном языке инструкциям.
Разработчик — SberDevices

🏷RussianSuperGLUE призван стать рейтингом русскоязычных NLP-моделей.
Разработчики — Huawei, SberDevices, НИУ ВШЭ

🏷TAPE испытывает модели в их способностях обрабатывать русский естественный язык.
Разработчики — SberDevices, НИУ ВШЭ и Huawei

💡 Бенчмарк для работы с медицинскими данными

С помощью 🏷MedBench можно сравнить модели машинного обучения, работающие с медицинскими данными.
Разработчик — Лаборатория искусственного интеллекта «Сбера»

💡 Бенчмарки для работы с эмбеддингами и эмбеддерами

🏷ruMTEB проверяет текстовые эмбеддинги и эмбеддеры.
Разработчик — SberDevices

Для научных текстов их испытывает 🏷ruSciBench.
Разработчик — Институт искусственного интеллекта МГУ им. М.В. Ломоносова

🏷RuSentEval также тестирует эмбеддинги и эмбеддеры.
Разработчики — НИУ ВШЭ, SberDevices


👉🏻 Полная версия подборки

BY Мониторинг аналитики об IT


Share with your friend now:
tgoop.com/ict_moscow_analytics/5275

View MORE
Open in Telegram


Telegram News

Date: |

How to Create a Private or Public Channel on Telegram? A few years ago, you had to use a special bot to run a poll on Telegram. Now you can easily do that yourself in two clicks. Hit the Menu icon and select “Create Poll.” Write your question and add up to 10 options. Running polls is a powerful strategy for getting feedback from your audience. If you’re considering the possibility of modifying your channel in any way, be sure to ask your subscribers’ opinions first. Your posting frequency depends on the topic of your channel. If you have a news channel, it’s OK to publish new content every day (or even every hour). For other industries, stick with 2-3 large posts a week. Telegram Android app: Open the chats list, click the menu icon and select “New Channel.” Users are more open to new information on workdays rather than weekends.
from us


Telegram Мониторинг аналитики об IT
FROM American