Всем привет!
В этом году мы проводим на Диалоге соревнование по идентификации сгенерированных текстов. Все подробности можно у знать в репозитории по ссылке .
Ориентировочно, мы выложим данные и запустим соревнование в начале января.
В этом году мы проводим на Диалоге соревнование по идентификации сгенерированных текстов. Все подробности можно у знать в репозитории по ссылке .
Ориентировочно, мы выложим данные и запустим соревнование в начале января.
GitHub
GitHub - dialogue-evaluation/RuATD: Russian Artificial Text Detection
Russian Artificial Text Detection. Contribute to dialogue-evaluation/RuATD development by creating an account on GitHub.
Всем привет!
Начинаем новый год и новый сезон семинаров: 3 января будем рассказывать про соревнования на Диалоге.
Подробности по ссылке: https://cs.hse.ru/ai/computational-pragmatics/announcements/547026735.html
Начинаем новый год и новый сезон семинаров: 3 января будем рассказывать про соревнования на Диалоге.
Подробности по ссылке: https://cs.hse.ru/ai/computational-pragmatics/announcements/547026735.html
cs.hse.ru
Семинар НУЛ ММВП "Четыре соревнования Dialogue Evaluation"
Всем привет!
Февральский семинар будет посвящен обработке речи.
Подробности по ссылке: https://cs.hse.ru/ai/computational-pragmatics/announcements/567490535.html
Февральский семинар будет посвящен обработке речи.
Подробности по ссылке: https://cs.hse.ru/ai/computational-pragmatics/announcements/567490535.html
cs.hse.ru
Семинар НУЛ ММВП "Введение в нейросетевую обработку человеческой речи"
Всем привет!
Мы со студентами ФКН делаем проект по оценке степени предвзятости NLP моделей на русском языке - насколько модели наследуют человеческие предубеждения: сексизм, национализм, классизм и т.д.
Если вам не трудно, пожалуйста, ответьте на пару запросов в боте: @ru_bias_set_bot, это очень поможет нам составить полную картину!
Мы со студентами ФКН делаем проект по оценке степени предвзятости NLP моделей на русском языке - насколько модели наследуют человеческие предубеждения: сексизм, национализм, классизм и т.д.
Если вам не трудно, пожалуйста, ответьте на пару запросов в боте: @ru_bias_set_bot, это очень поможет нам составить полную картину!
Forwarded from Kali Novskaya (Tatiana Shavrina)
#новости_науки #reviewer2
Небольшая новость про того, чем я занимаюсь — бенчмарками.
Бенчмарки в NLP — системы, оценивающие ИИ-системы по их способностям решать нужные и интересные задачи.
С точки зрения бизнеса, бенчмарки помогают не сжечь бабки впустую при обучении. Это важно!
Как сделать бенчмарки более эффективными? Многие из них откровенно превратились в Kaggle для трансформеров.
Чтобы ответить на этот вопрос, мы с прекрасными коллегами в этом году организовали тематический воркшоп на ACL 2022.
Все рецензирование и верстка сборника позади, и теперь самое приятное: общение, приглашенные доклады, постеры, круглый стол!
NLP Power! The First Workshop on Efficient Benchmarking in NLP.
Если вы будете на ACL, приглашаем вас зайти к нам в гости: NLP Power workshop состоится 26 мая, в четверг с 11:00 по 20:00 по Москве
В конце воркшопа - круглый стол, посвящённый проблемам бенчмарков. У нас в гостях:
- Anna Rumshisky (UMASS, Amazon)
- He He (CILVR / ML2)
- Ulises A. Mejias (SUNY Oswego)
- Sebastian Ruder (Google)
Страничка воркшопа ACL: ссылка
Сайт: ссылка
Twitter: ссылка
Приходите!
Небольшая новость про того, чем я занимаюсь — бенчмарками.
Бенчмарки в NLP — системы, оценивающие ИИ-системы по их способностям решать нужные и интересные задачи.
С точки зрения бизнеса, бенчмарки помогают не сжечь бабки впустую при обучении. Это важно!
Как сделать бенчмарки более эффективными? Многие из них откровенно превратились в Kaggle для трансформеров.
Чтобы ответить на этот вопрос, мы с прекрасными коллегами в этом году организовали тематический воркшоп на ACL 2022.
Все рецензирование и верстка сборника позади, и теперь самое приятное: общение, приглашенные доклады, постеры, круглый стол!
NLP Power! The First Workshop on Efficient Benchmarking in NLP.
Если вы будете на ACL, приглашаем вас зайти к нам в гости: NLP Power workshop состоится 26 мая, в четверг с 11:00 по 20:00 по Москве
В конце воркшопа - круглый стол, посвящённый проблемам бенчмарков. У нас в гостях:
- Anna Rumshisky (UMASS, Amazon)
- He He (CILVR / ML2)
- Ulises A. Mejias (SUNY Oswego)
- Sebastian Ruder (Google)
Страничка воркшопа ACL: ссылка
Сайт: ссылка
Twitter: ссылка
Приходите!
Underline.io
Watch lectures from the best researchers.
On-demand video platform giving you access to lectures from conferences worldwide.
Хорошая новость для всех, кто интересуется обработкой естественного языка. Исследователи из SberDevices, ABBYY, Yandex Research, Huawei Noah’s Ark Lab и ФКН ВШЭ опубликовали бенчмарк RuCoLA — Russian Corpus of Linguistic Acceptability.
Корпус RuCoLA — это набор предложений на русском языке, которые размечены по бинарной шкале приемлемости. Он пригодится для улучшения методов обнаружения ошибок в естественном языке и оценки сгенерированных текстов.
Открытый лидерборд на данных RuCoLA позволит всем желающим участвовать в развитии методов оценки лингвистической приемлемости. Чтобы принять участие, нужно заполнить короткую форму на сайте rucola-benchmark.com. После этого можно отправить предсказания своей модели и увидеть результаты.
Подробности о RuCoLA читайте в статье на Хабре: https://habr.com/ru/post/667336/
Корпус RuCoLA — это набор предложений на русском языке, которые размечены по бинарной шкале приемлемости. Он пригодится для улучшения методов обнаружения ошибок в естественном языке и оценки сгенерированных текстов.
Открытый лидерборд на данных RuCoLA позволит всем желающим участвовать в развитии методов оценки лингвистической приемлемости. Чтобы принять участие, нужно заполнить короткую форму на сайте rucola-benchmark.com. После этого можно отправить предсказания своей модели и увидеть результаты.
Подробности о RuCoLA читайте в статье на Хабре: https://habr.com/ru/post/667336/
Хабр
Насколько естественен естественный язык? Представляем датасет RuCoLA
В последние годы в области NLP произошла настоящая революция: огромные нейросети, предобученные на сотнях гигабайт текстов, бьют все известные рекорды качества. Но обладают ли такие нейросети чутьём...
Forwarded from Институт AIRI
ИИшница «NLP требуют наши сердца» стартует 10 июня!
Делимся расписанием митапа:
▪️15:30 Открытие, модератор мероприятия – Артур Кадурин
▪️15:40 Максим Рябинин «RuCoLA: Russian Corpus of Linguistic Acceptability»
▪️16:00 Зульфат Мифтахутдинов «NLP в биомедицине»
▪️16:20 Артем Шелманов «Active Learning в NLP»
▪️16:40 Михаил Бурцев«Секретная тема 🎁», оставайтесь на связи, чтобы узнать!
▪️17:00 Валентин Малых «Searching by Code in the Instructions»
▪️17:20 Татьяна Шаврина «NLP and Multimodality in 2022»
▪️17:40 Алексей Сорокин «Автоматическое исправление грамматических ошибок»
Подписывайтесь на YouTube AIRI, чтобы не пропустить трансляцию! Скоро расскажем про каждый из докладов подробнее 🔥
Делимся расписанием митапа:
▪️15:30 Открытие, модератор мероприятия – Артур Кадурин
▪️15:40 Максим Рябинин «RuCoLA: Russian Corpus of Linguistic Acceptability»
▪️16:00 Зульфат Мифтахутдинов «NLP в биомедицине»
▪️16:20 Артем Шелманов «Active Learning в NLP»
▪️16:40 Михаил Бурцев
▪️17:00 Валентин Малых «Searching by Code in the Instructions»
▪️17:20 Татьяна Шаврина «NLP and Multimodality in 2022»
▪️17:40 Алексей Сорокин «Автоматическое исправление грамматических ошибок»
Подписывайтесь на YouTube AIRI, чтобы не пропустить трансляцию! Скоро расскажем про каждый из докладов подробнее 🔥
Forwarded from Kali Novskaya (Tatiana Shavrina)
#reviewer2 #nlp
Шутки в сторону, сегодня с коллегами ведем туториал по Artificial Text Detection на конференции INLG (15th International Natural Language Generation Conference)
Суть задачи: так как генерация текстов с помощью нейронных сетей неизбежно становится все лучше и лучше, все более актуальной становится задача детектирования "нечеловеческих" текстов.
По сути, чем лучше тексты "искусственные", тем сложнее становится задача.
Задача может быть как в формате бинарной классификации, так и мультиклассовой: отличить тексты, полученные генерацией, суммаризацией, переводом, переносом стиля и т.д. от натуральных текстов.
Когда в таких текстах есть ошибки, улавливаемые глазом, задача очевидна.
А вот когда ошибок нет?
Наши статьи по теме:
○ Findings of the The RuATD Shared Task 2022 on Artificial Text Detection in Russian arxiv
○ Artificial Text Detection via Examining the Topology of Attention Maps arxiv
Слайды будут тут: https://artificial-text-detection.github.io/
Шутки в сторону, сегодня с коллегами ведем туториал по Artificial Text Detection на конференции INLG (15th International Natural Language Generation Conference)
Суть задачи: так как генерация текстов с помощью нейронных сетей неизбежно становится все лучше и лучше, все более актуальной становится задача детектирования "нечеловеческих" текстов.
По сути, чем лучше тексты "искусственные", тем сложнее становится задача.
Задача может быть как в формате бинарной классификации, так и мультиклассовой: отличить тексты, полученные генерацией, суммаризацией, переводом, переносом стиля и т.д. от натуральных текстов.
Когда в таких текстах есть ошибки, улавливаемые глазом, задача очевидна.
А вот когда ошибок нет?
Наши статьи по теме:
○ Findings of the The RuATD Shared Task 2022 on Artificial Text Detection in Russian arxiv
○ Artificial Text Detection via Examining the Topology of Attention Maps arxiv
Слайды будут тут: https://artificial-text-detection.github.io/
Forwarded from (sci)Berloga Всех Наук и Технологий
🚀 @SBERLOGABIG online seminar on data science:
👨🔬 Татьяна Шаврина (AIRI, Sberdevices) «Многоязычное приключение или как мы учили mGPT: многоязычная модель GPT-3 для 61 языка мира»
⌚️ Четверг 25 августа, 18.00 по Москве
В докладе мы расскажем о проблемах, которые возникали во время обучения мультиязычной модели, посмотрим ее архитектуру, способы оценки — и дальнейшее развитие.
О докладчике: Татьяна Шаврина,
Главный эксперт по технологиям, RnD NLP, SberDevices
Руководитель исследовательских проектов, AI Research Institute.
Автор тг канала: @rybolos_channel - подписывайтесь !
Google calendar link
Ссылка на зум будет доступна на канале: https://www.tgoop.com/sberlogabig перед началом доклада - подписывайтесь!
👨🔬 Татьяна Шаврина (AIRI, Sberdevices) «Многоязычное приключение или как мы учили mGPT: многоязычная модель GPT-3 для 61 языка мира»
⌚️ Четверг 25 августа, 18.00 по Москве
В докладе мы расскажем о проблемах, которые возникали во время обучения мультиязычной модели, посмотрим ее архитектуру, способы оценки — и дальнейшее развитие.
О докладчике: Татьяна Шаврина,
Главный эксперт по технологиям, RnD NLP, SberDevices
Руководитель исследовательских проектов, AI Research Institute.
Автор тг канала: @rybolos_channel - подписывайтесь !
Google calendar link
Ссылка на зум будет доступна на канале: https://www.tgoop.com/sberlogabig перед началом доклада - подписывайтесь!
Всем привет!
Традиционное сентябрьское сообщение: мы снова запускаем курс по NLP на ФКН в Вышке. Все наши лекции и семинары доступны по ссылке. Первые пару месяцев мы будем обсуждать всякие базовые модели и идеи, а во второй половине курса попробуем поговорить про что-то более современное и сложное. В этом году мы ведем курс втроем: мои замечательные коллеги Илья Карпов и Ирина Никишина, и я, Катя Артемова.
Буду очень рада, если наши материалы будут кому-то полезны или интересны. Если вдруг у вас есть идеи и предложения, как улучшить содержание курса или вы хотите в каком-то формате принять участие – тоже буду признательна и рада всем.
Традиционное сентябрьское сообщение: мы снова запускаем курс по NLP на ФКН в Вышке. Все наши лекции и семинары доступны по ссылке. Первые пару месяцев мы будем обсуждать всякие базовые модели и идеи, а во второй половине курса попробуем поговорить про что-то более современное и сложное. В этом году мы ведем курс втроем: мои замечательные коллеги Илья Карпов и Ирина Никишина, и я, Катя Артемова.
Буду очень рада, если наши материалы будут кому-то полезны или интересны. Если вдруг у вас есть идеи и предложения, как улучшить содержание курса или вы хотите в каком-то формате принять участие – тоже буду признательна и рада всем.
Forwarded from RuCoLA Benchmark
Привет!
Делимся с вами хорошими новостями: статью о бенчмарке RuCoLA приняли на EMNLP 2022 — ведущую международную конференцию по обработке естественного языка.
Препринт статьи можно прочитать здесь: https://arxiv.org/abs/2210.12814
Также на лидерборд были добавлены результаты Human Benchmark для данных, сгенерированных нейросетями. Можно заметить, что на текущий момент модели оказываются гораздо ближе к результатам людей на «естественных» неприемлемых предложениях, но оценивать приемлемость других нейросетей им сложнее.
Спасибо, что следите за проектом!
Делимся с вами хорошими новостями: статью о бенчмарке RuCoLA приняли на EMNLP 2022 — ведущую международную конференцию по обработке естественного языка.
Препринт статьи можно прочитать здесь: https://arxiv.org/abs/2210.12814
Также на лидерборд были добавлены результаты Human Benchmark для данных, сгенерированных нейросетями. Можно заметить, что на текущий момент модели оказываются гораздо ближе к результатам людей на «естественных» неприемлемых предложениях, но оценивать приемлемость других нейросетей им сложнее.
Спасибо, что следите за проектом!
Forwarded from Kali Novskaya (Tatiana Shavrina)
#nlp #про_nlp
Мы выпускаем новый бенчмарк для русского языка - TAPE!
Классический Russian SuperGLUE получил 1500+ сабмитов за 2 года, однако, настало время расцветать и новым цветам🌸.
TAPE (Text Attack and Perturbation Evaluation) - это бенчмарк, который
🔹работает на few-shot и zero-shot
🔹имеет отдельную библиотеку, которая аугментирует тест, внося самые разные атаки и пертурбации
🔹работает с фиксированным сетапом выборок из теста, давая вам подробный отчет о влиянии разных факторов на перформанс модели
🔹содержит 6 новых сложных задач, включая этику и ризонинг
🔹 подходит даже для генеративных моделей.
TAPE является логичным развитием проекта Russian SuperGLUE, где на вопросно-ответных датасетах RuCoS, MuSeRC и DaNetQA решения участников уже достигли уровня человека. В то же время задачи, которые моделируют человеческую способность к построению логических суждений и цепочек для поиска ответа и многоаспектной оценке этических ситуаций являются одними из малоисследованных для русского языка. Мы стремимся восполнить эти пробелы и предлагаем новые датасеты, которые можно разделить следующим образом:
RuOpenBookQA и RuWorldTree: выбор правильного ответа на вопрос из нескольких вариантов (англ. multiple-choice question answering);
MultiQ: поиск правильного ответа на вопрос посредством агрегации фактологической информации из нескольких тематически связанных текстов (англ. multi-hop question answering);
CheGeKa: поиск открытого ответа на вопрос с опорой на логику и общие знания о мире (англ. open-domain question answering);
Ethics: многоаспектная оценка этических ситуаций, описанных в тексте (англ. ethical judgments);
Winograd: разрешение кореференции в текстах со сложными и неоднозначными синтаксическими связями (англ. coreference resolution или The Winograd Schema Challenge).
В бенчмарке тестовые данные
- аугментируются, разбиваются на сабпопуляции
- имеют фиксированный сет примеро в few-shot оценке
- формируют подробный отчет о том, какие факторы в каждой задаче повлияли на перформанс: длина текстов, количество шотов, данные из разметки датасетов (например, сложность заданий), а также все типы аугментаций. Аугментаций так много, что про них нужен отдельный пост!
🤗HuggingFace датасетов
🖥 Github бенчмарка
🖥 Библиотека RuTransform для аугментации данных
🖥 Статья (Findings of EMNLP 2022)
🌸Сайт бенчмарка
Мы выпускаем новый бенчмарк для русского языка - TAPE!
Классический Russian SuperGLUE получил 1500+ сабмитов за 2 года, однако, настало время расцветать и новым цветам🌸.
TAPE (Text Attack and Perturbation Evaluation) - это бенчмарк, который
🔹работает на few-shot и zero-shot
🔹имеет отдельную библиотеку, которая аугментирует тест, внося самые разные атаки и пертурбации
🔹работает с фиксированным сетапом выборок из теста, давая вам подробный отчет о влиянии разных факторов на перформанс модели
🔹содержит 6 новых сложных задач, включая этику и ризонинг
🔹 подходит даже для генеративных моделей.
TAPE является логичным развитием проекта Russian SuperGLUE, где на вопросно-ответных датасетах RuCoS, MuSeRC и DaNetQA решения участников уже достигли уровня человека. В то же время задачи, которые моделируют человеческую способность к построению логических суждений и цепочек для поиска ответа и многоаспектной оценке этических ситуаций являются одними из малоисследованных для русского языка. Мы стремимся восполнить эти пробелы и предлагаем новые датасеты, которые можно разделить следующим образом:
RuOpenBookQA и RuWorldTree: выбор правильного ответа на вопрос из нескольких вариантов (англ. multiple-choice question answering);
MultiQ: поиск правильного ответа на вопрос посредством агрегации фактологической информации из нескольких тематически связанных текстов (англ. multi-hop question answering);
CheGeKa: поиск открытого ответа на вопрос с опорой на логику и общие знания о мире (англ. open-domain question answering);
Ethics: многоаспектная оценка этических ситуаций, описанных в тексте (англ. ethical judgments);
Winograd: разрешение кореференции в текстах со сложными и неоднозначными синтаксическими связями (англ. coreference resolution или The Winograd Schema Challenge).
В бенчмарке тестовые данные
- аугментируются, разбиваются на сабпопуляции
- имеют фиксированный сет примеро в few-shot оценке
- формируют подробный отчет о том, какие факторы в каждой задаче повлияли на перформанс: длина текстов, количество шотов, данные из разметки датасетов (например, сложность заданий), а также все типы аугментаций. Аугментаций так много, что про них нужен отдельный пост!
🤗HuggingFace датасетов
🌸Сайт бенчмарка
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - RussianNLP/TAPE: TAPE benchmark
TAPE benchmark. Contribute to RussianNLP/TAPE development by creating an account on GitHub.
Forwarded from Kali Novskaya (Tatiana Shavrina)
Оценка перформанса модели, пример ruGPT-3 small на задании RuWorldTree (ризонинг + знания)
Forwarded from Kali Novskaya (Tatiana Shavrina)
Как мы все это делаем вместе, написали на Хабре:
https://habr.com/ru/company/sberdevices/blog/706846/
https://habr.com/ru/company/sberdevices/blog/706846/
Хабр
TAPE: первый бенчмарк для few-shot оценки языковых моделей на русском языке
Мы в SberDevices обучаем и оцениваем языковые модели для русского языка уже давно — так, например, за два года существования бенчмарка Russian SuperGLUE через его систему оценки прошли более 1500...
Forwarded from Dialogue Conference
Приглашаем вас поучаствовать в соревновании по разрешению кореференции RuCoCo-2023.
▫️ В чем смысл соревнования RuCoCo
Датасет RuCoCo - новостные тексты на русском, в которых размечены кореферентные цепочки: это слова и выражения, которые относятся к одному объекту действительности.
▫️ Пример
Соседи [Абрамовича] по поместью недовольны дизайном [его] владения.
Абрамовича и его - одна и та же сущность, один человек. Ваша задача - найти все такие цепочки в датасете.
▫️ Почему задача разрешения кореференции важна
Разрешение кореференции используется во многих других задачах NLP более высокого уровня, таких как саммаризация, question answering и извлечение информации.
▫️ Почему нужно участвовать в соревновании RuCoCo
У соревнования RuCoCo большой датасет (1 млн слов) с хорошим качеством разметки и нетривиальной задачей. Кроме того, любой участник соревнования сможет опубликовать статью с описанием решения в сборнике конференции Диалог (SCOPUS)*.
* Решение о принятии каждой статьи в сборник принимают рецензенты Диалога. Правила публикации см. https://www.dialog-21.ru/evaluation/2022/publish/
▫️ Таймлайн
- Соревнование уже выложено, можно участвовать прямо сейчас
- 16 марта 23:59 (GMT +3) — дедлайн public фазы
- 19 марта 23:59 (GMT +3) — дедлайн private фазы, открытие финального лидерборда
Github RuCoCo: https://github.com/dialogue-evaluation/RuCoCo-2023
Соревнование на CodaLab: https://codalab.lisn.upsaclay.fr/competitions/9669
Чат соревнования в телеграме: https://www.tgoop.com/rucoco2023
▫️ В чем смысл соревнования RuCoCo
Датасет RuCoCo - новостные тексты на русском, в которых размечены кореферентные цепочки: это слова и выражения, которые относятся к одному объекту действительности.
▫️ Пример
Соседи [Абрамовича] по поместью недовольны дизайном [его] владения.
Абрамовича и его - одна и та же сущность, один человек. Ваша задача - найти все такие цепочки в датасете.
▫️ Почему задача разрешения кореференции важна
Разрешение кореференции используется во многих других задачах NLP более высокого уровня, таких как саммаризация, question answering и извлечение информации.
▫️ Почему нужно участвовать в соревновании RuCoCo
У соревнования RuCoCo большой датасет (1 млн слов) с хорошим качеством разметки и нетривиальной задачей. Кроме того, любой участник соревнования сможет опубликовать статью с описанием решения в сборнике конференции Диалог (SCOPUS)*.
* Решение о принятии каждой статьи в сборник принимают рецензенты Диалога. Правила публикации см. https://www.dialog-21.ru/evaluation/2022/publish/
▫️ Таймлайн
- Соревнование уже выложено, можно участвовать прямо сейчас
- 16 марта 23:59 (GMT +3) — дедлайн public фазы
- 19 марта 23:59 (GMT +3) — дедлайн private фазы, открытие финального лидерборда
Github RuCoCo: https://github.com/dialogue-evaluation/RuCoCo-2023
Соревнование на CodaLab: https://codalab.lisn.upsaclay.fr/competitions/9669
Чат соревнования в телеграме: https://www.tgoop.com/rucoco2023
GitHub
GitHub - dialogue-evaluation/RuCoCo-2023: Russian coreference resolution competition
Russian coreference resolution competition. Contribute to dialogue-evaluation/RuCoCo-2023 development by creating an account on GitHub.
Всем привет! Вопрос к аудитории. Этот канал бы посвящен семинарам по NLP в вышке, но в силу разных причин семинары стали проходить все реже и реже. Если я (Катя Артемова) буду здесь иногда писать заметки про свои статьи и проекты, да и вообще про всякую науку, будете читать?
Forwarded from Kali Novskaya (Tatiana Shavrina)
#nlp #про_nlp #nlp_papers
Я решила немного чаще рассказывать вам про работы, которые мы делаем с коллегами вместе, да и вообще больше привлекать внимания к менее хайповым не-чатгпт научным проблемам, поэтому введу новую рубрику — #nlp_papers
Сегодня поговорим о том, как можно применять теорию общественного выбора к оценке LLM.
Vote'n'Rank: Revision of Benchmarking with Social Choice Theory
Теория общественного выбора (Social choice theory) — это теоретические и практические методы агрегирования или объединения индивидуальных предпочтений в функцию коллективного общественного благосостояния. Обычно в этой области предполагается, что у людей есть предпочтения, и из этого следует, что их можно смоделировать с помощью функций полезности.
🌸Проблема: современные языковые модели оцениваются на целом ворохе различных задач. В результате такой оценки на каждую модель приходится по 20-30 метрик, зачастую разной природы (точность, полнота, Bert score, MCC..) и диапазона (от 0 до 1, от -1 до 1, и т.д.). Как на основании таких результатов выстраивать лидерборд лучших моделей? Усреднять такое явно нельзя. Да и потом, является ли лучшее среднее всех результатов по всем задачам оптимальным направлением наших стремлений?
🌸Идея: Позаимствуем методы рассчетов из теории общественного выбора и перевзвесим результаты моделей на GLUE, SuperGLUE и VALUE (Video-and-Language Understanding Evaluation).
Будем использовать такие правила агрегации, как скоринговые правила (Plurality, Borda, Dowdall), итеративные скоринговые правила (пороговое правило, Baldwin), и мажоритарные правила (Condorcet rule, Copeland rule).
Агрегации Vote'n'Rank более надежны, чем среднее арифметическое всех метрик, и в то же время способны обрабатывать отсутствующие значения на разных задачах и указывать условия, при которых система становится победителем.
• Правило множественности (Plurality)— хороший выбор, если пользователю нужны только лучшие системы по каждой задаче.
• Если все позиции в рейтинге имеют значение, используйте правила Borda или Dowdall. Обратите внимание, что Даудалл присваивает более высокие веса верхним позициям.
• Пороговое правило полезно в тех случаях, когда пользователь хочет свести к минимуму количество задач с низким результатом: правило присваивает наивысший ранг системе, которая считается худшей по наименьшему числу задач.
• Если цель состоит в том, чтобы выбрать систему, которая превосходит все остальные в попарном сравнении, используйте правила Болдуина, Кондорсе, Коупленда или правила Минимакса.
Feel free использовать в своих пайплайнах оценки моделей!
🖥 Paper: https://arxiv.org/abs/2210.05769v3
🖥 Github: https://github.com/PragmaticsLab/vote_and_rank
🌸Accepted EACL 2023
Я решила немного чаще рассказывать вам про работы, которые мы делаем с коллегами вместе, да и вообще больше привлекать внимания к менее хайповым не-чатгпт научным проблемам, поэтому введу новую рубрику — #nlp_papers
Сегодня поговорим о том, как можно применять теорию общественного выбора к оценке LLM.
Vote'n'Rank: Revision of Benchmarking with Social Choice Theory
Теория общественного выбора (Social choice theory) — это теоретические и практические методы агрегирования или объединения индивидуальных предпочтений в функцию коллективного общественного благосостояния. Обычно в этой области предполагается, что у людей есть предпочтения, и из этого следует, что их можно смоделировать с помощью функций полезности.
🌸Проблема: современные языковые модели оцениваются на целом ворохе различных задач. В результате такой оценки на каждую модель приходится по 20-30 метрик, зачастую разной природы (точность, полнота, Bert score, MCC..) и диапазона (от 0 до 1, от -1 до 1, и т.д.). Как на основании таких результатов выстраивать лидерборд лучших моделей? Усреднять такое явно нельзя. Да и потом, является ли лучшее среднее всех результатов по всем задачам оптимальным направлением наших стремлений?
🌸Идея: Позаимствуем методы рассчетов из теории общественного выбора и перевзвесим результаты моделей на GLUE, SuperGLUE и VALUE (Video-and-Language Understanding Evaluation).
Будем использовать такие правила агрегации, как скоринговые правила (Plurality, Borda, Dowdall), итеративные скоринговые правила (пороговое правило, Baldwin), и мажоритарные правила (Condorcet rule, Copeland rule).
Агрегации Vote'n'Rank более надежны, чем среднее арифметическое всех метрик, и в то же время способны обрабатывать отсутствующие значения на разных задачах и указывать условия, при которых система становится победителем.
• Правило множественности (Plurality)— хороший выбор, если пользователю нужны только лучшие системы по каждой задаче.
• Если все позиции в рейтинге имеют значение, используйте правила Borda или Dowdall. Обратите внимание, что Даудалл присваивает более высокие веса верхним позициям.
• Пороговое правило полезно в тех случаях, когда пользователь хочет свести к минимуму количество задач с низким результатом: правило присваивает наивысший ранг системе, которая считается худшей по наименьшему числу задач.
• Если цель состоит в том, чтобы выбрать систему, которая превосходит все остальные в попарном сравнении, используйте правила Болдуина, Кондорсе, Коупленда или правила Минимакса.
Feel free использовать в своих пайплайнах оценки моделей!
🌸Accepted EACL 2023
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - PragmaticsLab/vote_and_rank: Novel aggregation methods for multi-task NLP benchmarking
Novel aggregation methods for multi-task NLP benchmarking - PragmaticsLab/vote_and_rank
Сегодня в Вышке будет очередной NLP семинар.
Докладчик: Рамиль Яруллин, аспирант 4-го курса и преподаватель департамента больших данных и информационного поиска ФКН. Исследования, о которых будет рассказано в докладе, сделаны в рамках аспирантской школы, работы в Яндексе и научно-учебной лаборатории Яндекса на ФКН.
Аннотация: В докладе будет рассмотрено несколько задач построения и предсказания структурных объектов на основе данных – начиная с формальных контекстов, заканчивая текстовыми данными на естественном языке. В первой части доклада будет рассказано о теоретической работе, посвященной построению приближенного вероятностного базиса импликаций для формальных контекстов. Во второй части речь пойдет о текстовых контекстах на естественном языке и подходе к задаче текстовой классификации с пересекающимися классами при помощи генерации последовательности классовых меток. В частности, мы рассмотрим постановку задачи с имеющейся иерархической структурой классов и обсудим метод, комбинирующий стандартную для модели BERT архитектуру и подход с последовательным предсказанием меток. В третьей части доклада мы перейдем к задаче ответа на числовые вопросы по текстовому и табличному контексту, где для ответа на вопрос требуется последовательное применение различных дискретных операций, таких как подсчет, сравнение чисел, сортировка и выполнение арифметических выражений. Будет рассказано про новую нейросетевую модель, которая на текущий момент показывает лучшие результаты в этой задаче.
Как подключиться: https://cs.hse.ru/ai/computational-pragmatics/announcements/819591861.html
Докладчик: Рамиль Яруллин, аспирант 4-го курса и преподаватель департамента больших данных и информационного поиска ФКН. Исследования, о которых будет рассказано в докладе, сделаны в рамках аспирантской школы, работы в Яндексе и научно-учебной лаборатории Яндекса на ФКН.
Аннотация: В докладе будет рассмотрено несколько задач построения и предсказания структурных объектов на основе данных – начиная с формальных контекстов, заканчивая текстовыми данными на естественном языке. В первой части доклада будет рассказано о теоретической работе, посвященной построению приближенного вероятностного базиса импликаций для формальных контекстов. Во второй части речь пойдет о текстовых контекстах на естественном языке и подходе к задаче текстовой классификации с пересекающимися классами при помощи генерации последовательности классовых меток. В частности, мы рассмотрим постановку задачи с имеющейся иерархической структурой классов и обсудим метод, комбинирующий стандартную для модели BERT архитектуру и подход с последовательным предсказанием меток. В третьей части доклада мы перейдем к задаче ответа на числовые вопросы по текстовому и табличному контексту, где для ответа на вопрос требуется последовательное применение различных дискретных операций, таких как подсчет, сравнение чисел, сортировка и выполнение арифметических выражений. Будет рассказано про новую нейросетевую модель, которая на текущий момент показывает лучшие результаты в этой задаче.
Как подключиться: https://cs.hse.ru/ai/computational-pragmatics/announcements/819591861.html
cs.hse.ru
Семинар НУЛ ММВП "Предсказание структурных объектов на основе формальных контекстов и данных на естественном языке"
Ребята, нужна помощь: нужно нарисовать BERT’а в определенном костюме. Нужно мне для иллюстрации доклада. Кто может помочь? С меня любая форма благодарности :)