Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/spbucenterAI/--): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
В центре ИИ@spbucenterAI P.170
SPBUCENTERAI Telegram 170
🖥 Недавно мы делали подборку всемирно популярных бенчмарков, используемых для оценки производительности и эффективности моделей машинного обучения.

Как оказалось, среди инструментов российского производства тоже есть немало достойных примеров.

Делимся с вами некоторыми из них ⤵️

1. MERA (Multimodal Evaluation for Russian-language Architectures) – проект от SberDevices, Sber AI, НИУ ВШЭ, «Сколтеха» и других разработчиков. Его предназначение – оценивать на закрытых и открытых тестах современные большие языковые модели для русского языка. Кодовая база для оценки на бенчмарке MERA основана на международном фреймворке LM Evaluation Harness. Сейчас это единая площадка для рейтинга моделей и отражения их способностей по доменам, задачам и модальностям.

2. LLM Arena – общедоступная платформа, цель которой – сделать объективный, открытый и актуальный бенчмарк больших языковых моделей на русском языке. Она собирает и ранжирует парные сравнения пользователей с помощью вероятностной модели Брэдли-Терри. Так можно узнать, какой из ответов, сгенерированный разными нейросетями, более качественный. При этом существуют режимы сравнения как случайных моделей, так и выбранных пользователем.

3. RuCoLa – проект по оценке лингвистической компетентности больших языковых моделей от ABBYY, Huawei, Yandex Research, SberDevices и НИУ ВШЭ. Он может использоваться для сравнения способностей нейросети к пониманию языка, а также для улучшения качества генерации текстов. В основе RuCoLa – набор из 13,4 тысяч предложений на русском языке, которые размечены по бинарной шкале лингвистической приемлемости. Приемлемое высказывание – то, которое мог бы привести носитель языка, а другой носитель – понять. Датасет оценивает чувствительность моделей как к обычным лингвистическим явлениям (морфологии, синтаксису, семантике), так и к галлюцинациям, например, к бессмысленному повторению фрагментов предложения.

4. RussianSuperGlue – еще одна платформа для оценки понимания моделями русского языка, созданная SberDevices, Huawei и НИУ ВШЭ. Бенчмарк включает в себя четыре части: тесты для нейросетей, тесты для людей для сравнения, оценку существующих моделей и инструменты для помощи в оценке собственной модели. Разработчики хотят, чтобы RussianSuperGlue стал общедоступным рейтингом русскоязычных NLP-моделей (обрабатывающих естественный язык). Он также призван помочь специалистам в Data Science понять, какая из нейросетей больше подходит для выполнения тех или иных задач.

5. ruSciBench, разработанный в МГУ им. М. В. Ломоносова, предназначен для оценки эмбеддингов научных текстов. Представьте, что каждый текст – это точка в многомерном пространстве, так вот эмбеддинги помогают преобразовать текст в такие точки, где похожие по смыслу тексты будут находится близко друг к другу. Датасет бенчмарка состоит из 194 тысячи сочетаний названий и аннотаций статей на русском языке и 182,4 тысячи на английском. Всего есть два типа задач: классификация и поиск перевода. Задача поиска перевода проверяет, насколько хорошо модель понимает смысл текста, независимо от языка. Для этого сравнивают, насколько близки векторы (эмбеддинги) аннотации на русском и английском языках. Чем ближе они друг к другу, тем лучше работает модель. В результате получают две метрики: насколько успешно можно найти русскую аннотацию по английской и наоборот.

А с какими отечественными бенчмарками знакомы вы? Делитесь в комментариях ✏️
Please open Telegram to view this post
VIEW IN TELEGRAM



tgoop.com/spbucenterAI/170
Create:
Last Update:

🖥 Недавно мы делали подборку всемирно популярных бенчмарков, используемых для оценки производительности и эффективности моделей машинного обучения.

Как оказалось, среди инструментов российского производства тоже есть немало достойных примеров.

Делимся с вами некоторыми из них ⤵️

1. MERA (Multimodal Evaluation for Russian-language Architectures) – проект от SberDevices, Sber AI, НИУ ВШЭ, «Сколтеха» и других разработчиков. Его предназначение – оценивать на закрытых и открытых тестах современные большие языковые модели для русского языка. Кодовая база для оценки на бенчмарке MERA основана на международном фреймворке LM Evaluation Harness. Сейчас это единая площадка для рейтинга моделей и отражения их способностей по доменам, задачам и модальностям.

2. LLM Arena – общедоступная платформа, цель которой – сделать объективный, открытый и актуальный бенчмарк больших языковых моделей на русском языке. Она собирает и ранжирует парные сравнения пользователей с помощью вероятностной модели Брэдли-Терри. Так можно узнать, какой из ответов, сгенерированный разными нейросетями, более качественный. При этом существуют режимы сравнения как случайных моделей, так и выбранных пользователем.

3. RuCoLa – проект по оценке лингвистической компетентности больших языковых моделей от ABBYY, Huawei, Yandex Research, SberDevices и НИУ ВШЭ. Он может использоваться для сравнения способностей нейросети к пониманию языка, а также для улучшения качества генерации текстов. В основе RuCoLa – набор из 13,4 тысяч предложений на русском языке, которые размечены по бинарной шкале лингвистической приемлемости. Приемлемое высказывание – то, которое мог бы привести носитель языка, а другой носитель – понять. Датасет оценивает чувствительность моделей как к обычным лингвистическим явлениям (морфологии, синтаксису, семантике), так и к галлюцинациям, например, к бессмысленному повторению фрагментов предложения.

4. RussianSuperGlue – еще одна платформа для оценки понимания моделями русского языка, созданная SberDevices, Huawei и НИУ ВШЭ. Бенчмарк включает в себя четыре части: тесты для нейросетей, тесты для людей для сравнения, оценку существующих моделей и инструменты для помощи в оценке собственной модели. Разработчики хотят, чтобы RussianSuperGlue стал общедоступным рейтингом русскоязычных NLP-моделей (обрабатывающих естественный язык). Он также призван помочь специалистам в Data Science понять, какая из нейросетей больше подходит для выполнения тех или иных задач.

5. ruSciBench, разработанный в МГУ им. М. В. Ломоносова, предназначен для оценки эмбеддингов научных текстов. Представьте, что каждый текст – это точка в многомерном пространстве, так вот эмбеддинги помогают преобразовать текст в такие точки, где похожие по смыслу тексты будут находится близко друг к другу. Датасет бенчмарка состоит из 194 тысячи сочетаний названий и аннотаций статей на русском языке и 182,4 тысячи на английском. Всего есть два типа задач: классификация и поиск перевода. Задача поиска перевода проверяет, насколько хорошо модель понимает смысл текста, независимо от языка. Для этого сравнивают, насколько близки векторы (эмбеддинги) аннотации на русском и английском языках. Чем ближе они друг к другу, тем лучше работает модель. В результате получают две метрики: насколько успешно можно найти русскую аннотацию по английской и наоборот.

А с какими отечественными бенчмарками знакомы вы? Делитесь в комментариях ✏️

BY В центре ИИ


Share with your friend now:
tgoop.com/spbucenterAI/170

View MORE
Open in Telegram


Telegram News

Date: |

Telegram Channels requirements & features Hashtags When choosing the right name for your Telegram channel, use the language of your target audience. The name must sum up the essence of your channel in 1-3 words. If you’re planning to expand your Telegram audience, it makes sense to incorporate keywords into your name. Activate up to 20 bots As of Thursday, the SUCK Channel had 34,146 subscribers, with only one message dated August 28, 2020. It was an announcement stating that police had removed all posts on the channel because its content “contravenes the laws of Hong Kong.”
from us


Telegram В центре ИИ
FROM American