AIRI Institute@airi_research

AIRI Institute

Сегодня рассказываем про то, как исследователи AIRI создали инструмент, позволяющий оценивать эффективность нейросетей в работе с длинными текстами

⤵️

BABILong — это новый бенчмарк для оценки реальной производительности языковых моделей при работе с большими объемами данных, созданный исследователями из команды «Модели с памятью» лаборатории «Когнитивные системы ИИ» AIRI совместно с коллегами из МФТИ и Лондонского института математических наук (LIMS).

Бенчмарк включает 20 задач, которые требуют поиска и обработки разрозненных фактов в крупных текстах. Среди них — связывание и комбинирование информации из нескольких фактов, индукция, дедукция, простейший подсчет и работа со списками и множествами. Оказалось, что современные LLM эффективно используют не более 20% от заявленных длин контекста.

Исследователи также представили адаптацию бенчмарка BABILong для русского языка — Libra, разработанную в сотрудничестве с командой R&D SberDevices. Как и оригинал, Libra тестирует языковые модели на длинных контекстах, предлагая аналогичные задачи для оценки их работы с русскоязычными текстами.

Научная статья | Репозиторий |Материал Inc.

Please open Telegram to view this post

VIEW IN TELEGRAM

www.tgoop.com/airi_research_institute/681

4.3K viewsNov 19 at 14:56

tgoop.com/airi_research_institute/681

Create: 2024-11-19
Last Update: 2025-01-12 15:22:35

Сегодня рассказываем про то, как исследователи AIRI создали инструмент, позволяющий оценивать эффективность нейросетей в работе с длинными текстами ⤵️

BABILong — это новый бенчмарк для оценки реальной производительности языковых моделей при работе с большими объемами данных, созданный исследователями из команды «Модели с памятью» лаборатории «Когнитивные системы ИИ» AIRI совместно с коллегами из МФТИ и Лондонского института математических наук (LIMS).

Бенчмарк включает 20 задач, которые требуют поиска и обработки разрозненных фактов в крупных текстах. Среди них — связывание и комбинирование информации из нескольких фактов, индукция, дедукция, простейший подсчет и работа со списками и множествами. Оказалось, что современные LLM эффективно используют не более 20% от заявленных длин контекста.

Исследователи также представили адаптацию бенчмарка BABILong для русского языка — Libra, разработанную в сотрудничестве с командой R&D SberDevices. Как и оригинал, Libra тестирует языковые модели на длинных контекстах, предлагая аналогичные задачи для оценки их работы с русскоязычными текстами.

Научная статья | Репозиторий |Материал Inc.

Telegram News

Сегодня рассказываем про то