Telegram Web
Всем привет!

В этом году мы проводим на Диалоге соревнование по идентификации сгенерированных текстов. Все подробности можно у знать в репозитории по ссылке .

Ориентировочно, мы выложим данные и запустим соревнование в начале января.
Всем привет!

Начинаем новый год и новый сезон семинаров: 3 января будем рассказывать про соревнования на Диалоге.

Подробности по ссылке: https://cs.hse.ru/ai/computational-pragmatics/announcements/547026735.html
Всем привет!

Февральский семинар будет посвящен обработке речи.

Подробности по ссылке: https://cs.hse.ru/ai/computational-pragmatics/announcements/567490535.html
Всем привет!

Мы со студентами ФКН делаем проект по оценке степени предвзятости NLP моделей на русском языке - насколько модели наследуют человеческие предубеждения: сексизм, национализм, классизм и т.д.

Если вам не трудно, пожалуйста, ответьте на пару запросов в боте: @ru_bias_set_bot, это очень поможет нам составить полную картину!
Forwarded from Kali Novskaya (Tatiana Shavrina)
#новости_науки #reviewer2

Небольшая новость про того, чем я занимаюсь — бенчмарками.

Бенчмарки в NLP — системы, оценивающие ИИ-системы по их способностям решать нужные и интересные задачи.
С точки зрения бизнеса, бенчмарки помогают не сжечь бабки впустую при обучении. Это важно!

Как сделать бенчмарки более эффективными? Многие из них откровенно превратились в Kaggle для трансформеров.

Чтобы ответить на этот вопрос, мы с прекрасными коллегами в этом году организовали тематический воркшоп на ACL 2022.
Все рецензирование и верстка сборника позади, и теперь самое приятное: общение, приглашенные доклады, постеры, круглый стол!
NLP Power! The First Workshop on Efficient Benchmarking in NLP.

Если вы будете на ACL, приглашаем вас зайти к нам в гости: NLP Power workshop состоится 26 мая, в четверг с 11:00 по 20:00 по Москве

В конце воркшопа - круглый стол, посвящённый проблемам бенчмарков. У нас в гостях:
- Anna Rumshisky (UMASS, Amazon)
- He He (CILVR / ML2)
- Ulises A. Mejias (SUNY Oswego)
- Sebastian Ruder (Google)

Страничка воркшопа ACL: ссылка
Сайт: ссылка
Twitter: ссылка

Приходите!
Хорошая новость для всех, кто интересуется обработкой естественного языка. Исследователи из SberDevices, ABBYY, Yandex Research, Huawei Noah’s Ark Lab и ФКН ВШЭ опубликовали бенчмарк RuCoLA — Russian Corpus of Linguistic Acceptability.

Корпус RuCoLA — это набор предложений на русском языке, которые размечены по бинарной шкале приемлемости. Он пригодится для улучшения методов обнаружения ошибок в естественном языке и оценки сгенерированных текстов.

Открытый лидерборд на данных RuCoLA позволит всем желающим участвовать в развитии методов оценки лингвистической приемлемости. Чтобы принять участие, нужно заполнить короткую форму на сайте rucola-benchmark.com. После этого можно отправить предсказания своей модели и увидеть результаты.

Подробности о RuCoLA читайте в статье на Хабре: https://habr.com/ru/post/667336/
Forwarded from Институт AIRI
ИИшница «NLP требуют наши сердца» стартует 10 июня!
Делимся расписанием митапа:

▪️15:30 Открытие, модератор мероприятия – Артур Кадурин

▪️15:40 Максим Рябинин «RuCoLA: Russian Corpus of Linguistic Acceptability»

▪️16:00 Зульфат Мифтахутдинов «NLP в биомедицине»

▪️16:20 Артем Шелманов «Active Learning в NLP»

▪️16:40 Михаил Бурцев «Секретная тема 🎁», оставайтесь на связи, чтобы узнать!

▪️17:00 Валентин Малых «Searching by Code in the Instructions»

▪️17:20 Татьяна Шаврина «NLP and Multimodality in 2022»

▪️17:40 Алексей Сорокин «Автоматическое исправление грамматических ошибок»

Подписывайтесь на YouTube AIRI, чтобы не пропустить трансляцию! Скоро расскажем про каждый из докладов подробнее 🔥
Forwarded from Kali Novskaya (Tatiana Shavrina)
#reviewer2 #nlp

Шутки в сторону, сегодня с коллегами ведем туториал по Artificial Text Detection на конференции INLG (15th International Natural Language Generation Conference)

Суть задачи: так как генерация текстов с помощью нейронных сетей неизбежно становится все лучше и лучше, все более актуальной становится задача детектирования "нечеловеческих" текстов.
По сути, чем лучше тексты "искусственные", тем сложнее становится задача.
Задача может быть как в формате бинарной классификации, так и мультиклассовой: отличить тексты, полученные генерацией, суммаризацией, переводом, переносом стиля и т.д. от натуральных текстов.
Когда в таких текстах есть ошибки, улавливаемые глазом, задача очевидна.
А вот когда ошибок нет?

Наши статьи по теме:
○ Findings of the The RuATD Shared Task 2022 on Artificial Text Detection in Russian arxiv
○ Artificial Text Detection via Examining the Topology of Attention Maps arxiv

Слайды будут тут: https://artificial-text-detection.github.io/
🚀 @SBERLOGABIG online seminar on data science:
👨‍🔬 Татьяна Шаврина (AIRI, Sberdevices) «Многоязычное приключение или как мы учили mGPT: многоязычная модель GPT-3 для 61 языка мира»
⌚️ Четверг 25 августа, 18.00 по Москве

В докладе мы расскажем о проблемах, которые возникали во время обучения мультиязычной модели, посмотрим ее архитектуру, способы оценки — и дальнейшее развитие.

О докладчике: Татьяна Шаврина,
Главный эксперт по технологиям, RnD NLP, SberDevices
Руководитель исследовательских проектов, AI Research Institute.
Автор тг канала: @rybolos_channel - подписывайтесь !

Google calendar link

Ссылка на зум будет доступна на канале: https://www.tgoop.com/sberlogabig перед началом доклада - подписывайтесь!
Всем привет!

Традиционное сентябрьское сообщение: мы снова запускаем курс по NLP на ФКН в Вышке. Все наши лекции и семинары доступны по ссылке. Первые пару месяцев мы будем обсуждать всякие базовые модели и идеи, а во второй половине курса попробуем поговорить про что-то более современное и сложное. В этом году мы ведем курс втроем: мои замечательные коллеги Илья Карпов и Ирина Никишина, и я, Катя Артемова.

Буду очень рада, если наши материалы будут кому-то полезны или интересны. Если вдруг у вас есть идеи и предложения, как улучшить содержание курса или вы хотите в каком-то формате принять участие – тоже буду признательна и рада всем.
Forwarded from RuCoLA Benchmark
Привет!

Делимся с вами хорошими новостями: статью о бенчмарке RuCoLA приняли на EMNLP 2022 — ведущую международную конференцию по обработке естественного языка.

Препринт статьи можно прочитать здесь: https://arxiv.org/abs/2210.12814

Также на лидерборд были добавлены результаты Human Benchmark для данных, сгенерированных нейросетями. Можно заметить, что на текущий момент модели оказываются гораздо ближе к результатам людей на «естественных» неприемлемых предложениях, но оценивать приемлемость других нейросетей им сложнее.

Спасибо, что следите за проектом!
Forwarded from Kali Novskaya (Tatiana Shavrina)
#nlp #про_nlp
Мы выпускаем новый бенчмарк для русского языка - TAPE!

Классический Russian SuperGLUE получил 1500+ сабмитов за 2 года, однако, настало время расцветать и новым цветам🌸.

TAPE (Text Attack and Perturbation Evaluation) - это бенчмарк, который
🔹работает на few-shot и zero-shot
🔹имеет отдельную библиотеку, которая аугментирует тест, внося самые разные атаки и пертурбации
🔹работает с фиксированным сетапом выборок из теста, давая вам подробный отчет о влиянии разных факторов на перформанс модели
🔹содержит 6 новых сложных задач, включая этику и ризонинг
🔹 подходит даже для генеративных моделей.

TAPE является логичным развитием проекта Russian SuperGLUE, где на вопросно-ответных датасетах RuCoS, MuSeRC и DaNetQA решения участников уже достигли уровня человека. В то же время задачи, которые моделируют человеческую способность к построению логических суждений и цепочек для поиска ответа и многоаспектной оценке этических ситуаций являются одними из малоисследованных для русского языка. Мы стремимся восполнить эти пробелы и предлагаем новые датасеты, которые можно разделить следующим образом:

RuOpenBookQA и RuWorldTree: выбор правильного ответа на вопрос из нескольких вариантов (англ. multiple-choice question answering);
MultiQ: поиск правильного ответа на вопрос посредством агрегации фактологической информации из нескольких тематически связанных текстов (англ. multi-hop question answering);
CheGeKa: поиск открытого ответа на вопрос с опорой на логику и общие знания о мире (англ. open-domain question answering);
Ethics: многоаспектная оценка этических ситуаций, описанных в тексте (англ. ethical judgments);
Winograd: разрешение кореференции в текстах со сложными и неоднозначными синтаксическими связями (англ. coreference resolution или The Winograd Schema Challenge).

В бенчмарке тестовые данные
- аугментируются, разбиваются на сабпопуляции
- имеют фиксированный сет примеро в few-shot оценке
- формируют подробный отчет о том, какие факторы в каждой задаче повлияли на перформанс: длина текстов, количество шотов, данные из разметки датасетов (например, сложность заданий), а также все типы аугментаций. Аугментаций так много, что про них нужен отдельный пост!

🤗HuggingFace датасетов
🖥Github бенчмарка
🖥Библиотека RuTransform для аугментации данных
🖥Статья (Findings of EMNLP 2022)
🌸Сайт бенчмарка
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Kali Novskaya (Tatiana Shavrina)
Оценка перформанса модели, пример ruGPT-3 small на задании RuWorldTree (ризонинг + знания)
Forwarded from Dialogue Conference
Приглашаем вас поучаствовать в соревновании по разрешению кореференции RuCoCo-2023.

▫️ В чем смысл соревнования RuCoCo
Датасет RuCoCo - новостные тексты на русском, в которых размечены кореферентные цепочки: это слова и выражения, которые относятся к одному объекту действительности.

▫️ Пример
Соседи [Абрамовича] по поместью недовольны дизайном [его] владения.

Абрамовича и его - одна и та же сущность, один человек. Ваша задача - найти все такие цепочки в датасете.

▫️ Почему задача разрешения кореференции важна
Разрешение кореференции используется во многих других задачах NLP более высокого уровня, таких как саммаризация, question answering и извлечение информации.

▫️ Почему нужно участвовать в соревновании RuCoCo
У соревнования RuCoCo большой датасет (1 млн слов) с хорошим качеством разметки и нетривиальной задачей. Кроме того, любой участник соревнования сможет опубликовать статью с описанием решения в сборнике конференции Диалог (SCOPUS)*.

* Решение о принятии каждой статьи в сборник принимают рецензенты Диалога. Правила публикации см. https://www.dialog-21.ru/evaluation/2022/publish/

▫️ Таймлайн
- Соревнование уже выложено, можно участвовать прямо сейчас
- 16 марта 23:59 (GMT +3) — дедлайн public фазы
- 19 марта 23:59 (GMT +3) — дедлайн private фазы, открытие финального лидерборда

Github RuCoCo: https://github.com/dialogue-evaluation/RuCoCo-2023
Соревнование на CodaLab: https://codalab.lisn.upsaclay.fr/competitions/9669
Чат соревнования в телеграме: https://www.tgoop.com/rucoco2023
Интересны ли вам заметки Кати?
Anonymous Poll
99%
Да
1%
Нет
Всем привет! Вопрос к аудитории. Этот канал бы посвящен семинарам по NLP в вышке, но в силу разных причин семинары стали проходить все реже и реже. Если я (Катя Артемова) буду здесь иногда писать заметки про свои статьи и проекты, да и вообще про всякую науку, будете читать?
Forwarded from Kali Novskaya (Tatiana Shavrina)
#nlp #про_nlp #nlp_papers

Я решила немного чаще рассказывать вам про работы, которые мы делаем с коллегами вместе, да и вообще больше привлекать внимания к менее хайповым не-чатгпт научным проблемам, поэтому введу новую рубрику — #nlp_papers

Сегодня поговорим о том, как можно применять теорию общественного выбора к оценке LLM.

Vote'n'Rank: Revision of Benchmarking with Social Choice Theory

Теория общественного выбора (Social choice theory) — это теоретические и практические методы агрегирования или объединения индивидуальных предпочтений в функцию коллективного общественного благосостояния. Обычно в этой области предполагается, что у людей есть предпочтения, и из этого следует, что их можно смоделировать с помощью функций полезности.

🌸Проблема: современные языковые модели оцениваются на целом ворохе различных задач. В результате такой оценки на каждую модель приходится по 20-30 метрик, зачастую разной природы (точность, полнота, Bert score, MCC..) и диапазона (от 0 до 1, от -1 до 1, и т.д.). Как на основании таких результатов выстраивать лидерборд лучших моделей? Усреднять такое явно нельзя. Да и потом, является ли лучшее среднее всех результатов по всем задачам оптимальным направлением наших стремлений?

🌸Идея: Позаимствуем методы рассчетов из теории общественного выбора и перевзвесим результаты моделей на GLUE, SuperGLUE и VALUE (Video-and-Language Understanding Evaluation).
Будем использовать такие правила агрегации, как скоринговые правила (Plurality, Borda, Dowdall), итеративные скоринговые правила (пороговое правило, Baldwin), и мажоритарные правила (Condorcet rule, Copeland rule).

Агрегации Vote'n'Rank более надежны, чем среднее арифметическое всех метрик, и в то же время способны обрабатывать отсутствующие значения на разных задачах и указывать условия, при которых система становится победителем.
• Правило множественности (Plurality)— хороший выбор, если пользователю нужны только лучшие системы по каждой задаче.
• Если все позиции в рейтинге имеют значение, используйте правила Borda или Dowdall. Обратите внимание, что Даудалл присваивает более высокие веса верхним позициям.
Пороговое правило полезно в тех случаях, когда пользователь хочет свести к минимуму количество задач с низким результатом: правило присваивает наивысший ранг системе, которая считается худшей по наименьшему числу задач.
• Если цель состоит в том, чтобы выбрать систему, которая превосходит все остальные в попарном сравнении, используйте правила Болдуина, Кондорсе, Коупленда или правила Минимакса.

Feel free использовать в своих пайплайнах оценки моделей!

🖥Paper: https://arxiv.org/abs/2210.05769v3
🖥Github: https://github.com/PragmaticsLab/vote_and_rank
🌸Accepted EACL 2023
Please open Telegram to view this post
VIEW IN TELEGRAM
Сегодня в Вышке будет очередной NLP семинар.

Докладчик: Рамиль Яруллин, аспирант 4-го курса и преподаватель департамента больших данных и информационного поиска ФКН. Исследования, о которых будет рассказано в докладе, сделаны в рамках аспирантской школы, работы в Яндексе и научно-учебной лаборатории Яндекса на ФКН.

Аннотация: В докладе будет рассмотрено несколько задач построения и предсказания структурных объектов на основе данных – начиная с формальных контекстов, заканчивая текстовыми данными на естественном языке. В первой части доклада будет рассказано о теоретической работе, посвященной построению приближенного вероятностного базиса импликаций для формальных контекстов. Во второй части речь пойдет о текстовых контекстах на естественном языке и подходе к задаче текстовой классификации с пересекающимися классами при помощи генерации последовательности классовых меток. В частности, мы рассмотрим постановку задачи с имеющейся иерархической структурой классов и обсудим метод, комбинирующий стандартную для модели BERT архитектуру и подход с последовательным предсказанием меток. В третьей части доклада мы перейдем к задаче ответа на числовые вопросы по текстовому и табличному контексту, где для ответа на вопрос требуется последовательное применение различных дискретных операций, таких как подсчет, сравнение чисел, сортировка и выполнение арифметических выражений. Будет рассказано про новую нейросетевую модель, которая на текущий момент показывает лучшие результаты в этой задаче.
Как подключиться: https://cs.hse.ru/ai/computational-pragmatics/announcements/819591861.html
Ребята, нужна помощь: нужно нарисовать BERT’а в определенном костюме. Нужно мне для иллюстрации доклада. Кто может помочь? С меня любая форма благодарности :)
2025/05/31 13:59:02
Back to Top
HTML Embed Code: