Notice: file_put_contents(): Write of 10379 bytes failed with errno=28 No space left on device in /var/www/tgoop/post.php on line 50
AIRI Institute@airi_research_institute P.681
AIRI_RESEARCH_INSTITUTE Telegram 681
Сегодня рассказываем про то, как исследователи AIRI создали инструмент, позволяющий оценивать эффективность нейросетей в работе с длинными текстами ⤵️

BABILong — это новый бенчмарк для оценки реальной производительности языковых моделей при работе с большими объемами данных, созданный исследователями из команды «Модели с памятью» лаборатории «Когнитивные системы ИИ» AIRI совместно с коллегами из МФТИ и Лондонского института математических наук (LIMS).

Бенчмарк включает 20 задач, которые требуют поиска и обработки разрозненных фактов в крупных текстах. Среди них — связывание и комбинирование информации из нескольких фактов, индукция, дедукция, простейший подсчет и работа со списками и множествами. Оказалось, что современные LLM эффективно используют не более 20% от заявленных длин контекста.

Исследователи также представили адаптацию бенчмарка BABILong для русского языка — Libra, разработанную в сотрудничестве с командой R&D SberDevices. Как и оригинал, Libra тестирует языковые модели на длинных контекстах, предлагая аналогичные задачи для оценки их работы с русскоязычными текстами.

Научная статья | Репозиторий |Материал Inc.
Please open Telegram to view this post
VIEW IN TELEGRAM



tgoop.com/airi_research_institute/681
Create:
Last Update:

Сегодня рассказываем про то, как исследователи AIRI создали инструмент, позволяющий оценивать эффективность нейросетей в работе с длинными текстами ⤵️

BABILong — это новый бенчмарк для оценки реальной производительности языковых моделей при работе с большими объемами данных, созданный исследователями из команды «Модели с памятью» лаборатории «Когнитивные системы ИИ» AIRI совместно с коллегами из МФТИ и Лондонского института математических наук (LIMS).

Бенчмарк включает 20 задач, которые требуют поиска и обработки разрозненных фактов в крупных текстах. Среди них — связывание и комбинирование информации из нескольких фактов, индукция, дедукция, простейший подсчет и работа со списками и множествами. Оказалось, что современные LLM эффективно используют не более 20% от заявленных длин контекста.

Исследователи также представили адаптацию бенчмарка BABILong для русского языка — Libra, разработанную в сотрудничестве с командой R&D SberDevices. Как и оригинал, Libra тестирует языковые модели на длинных контекстах, предлагая аналогичные задачи для оценки их работы с русскоязычными текстами.

Научная статья | Репозиторий |Материал Inc.

BY AIRI Institute




Share with your friend now:
tgoop.com/airi_research_institute/681

View MORE
Open in Telegram


Telegram News

Date: |

The Standard Channel Telegram is a leading cloud-based instant messages platform. It became popular in recent years for its privacy, speed, voice and video quality, and other unmatched features over its main competitor Whatsapp. Telegram has announced a number of measures aiming to tackle the spread of disinformation through its platform in Brazil. These features are part of an agreement between the platform and the country's authorities ahead of the elections in October. Concise Select: Settings – Manage Channel – Administrators – Add administrator. From your list of subscribers, select the correct user. A new window will appear on the screen. Check the rights you’re willing to give to your administrator.
from us


Telegram AIRI Institute
FROM American