Telegram Web
Forwarded from Градиент обреченный (Sergei Averkiev)
🔺 MERA

Ещё один большой и полезный релиз. Коллеги вложили очень много сил в новый фреймворк для оценки языковых моделей, который назвали MERA.

🔸 Сейчас есть 21 задача с текстом, постепенно будут добавляться таски в других модальностях. Есть задания на логику, математику, знания о мире, этику, память и другие.

🔸 Проект коллективный, ведётся совместно с Альянсом в сфере ИИ.

🔸 Сделали открытый лидерборд, на котором можно будет наблюдать текущий уровень развития русскоязычных моделей.

Написали про это небольшую статью для интересующихся деталями разработки. Ждём ваших сабмитов!

👉 Хабр | GitHub | Сайт прокета
Channel photo updated
Channel name was changed to «исследовано»
 Академические коллеги проводят новое соревнование по детоксификации текстов на площадке CLEF при поддержке Toloka.AI.

👩🏻‍💻 Задача устроена так: дан токсичный текст, требуется переписать его в нейтральном стиле с сохранением содержания.
Языки соревнования: 🇬🇧 🇺🇦 🇩🇪 🇷🇺 🇪🇸 🇨🇳 🇪🇹 🇦🇪 🇮🇳

Сайт соревнования
Всем привет =) Я неуверенный пользователь телеграма, но хочу попробовать писать сюда иногда что-то о своей исследовательской жизни. Представлюсь: меня зовут Катя Артемова, пару лет назад я работала в Вышке, рассказывала в этом канале о своих семинарах по обработке текстов. С тех пор все немножко изменилось, семинаров в старом формате больше не будет, но исследования, конечно, не остановить. Так что добро пожаловать и будем знакомы =)
🌝 LUNA: A Framework for Language Understanding and Naturalness Assessment

Представляю вам библиотеку LUNA: инструмент для оценки качества сгенерированных текстов. LUNA предлагает общий интерфейс для 20 разнообразных методов оценки качества сгенерированных текстов, поддерживает как методы, требующие золотого стандарта, так и независимые. Кроме того, методы можно разделить по типам представления текстов: от символьных н-грамм до статичных и динамичных моделей векторизации.

Ссылки:

• Статья: https://arxiv.org/pdf/2401.04522.pdf
• Репозиторий: https://github.com/Moonlight-Syntax/LUNA
• Страница на PyPI: https://pypi.org/project/luna-nlg/
Всем привет, расскажу о новом соревновании коллег.
Forwarded from Vera Davydova
Всем привет! В рамках воркшопа на конференции СLEF 2024 мы с коллегами проводим соревнование по извлечению вложенных именованных сущностей в биомедицинском домене.
Соревнование проводится на корпусе английских и русских медицинских текстов.

Ссылка для регистрации: http://participants-area.bioasq.org/
Подробности в гите по ссылке выше; по всем вопросам можно писать мне @veranchos
Forwarded from AIRI Institute
Первая ИИшница 2024 года пройдет уже в этот четверг, рассказываем про доклады ⤵️

◼️В 15:35 научный сотрудник AIRI Михаил Сальников сделает краткий обзор современных методов работы с графами знаний посредством больших языковых моделей.

◼️В 15:55 кандидат компьютерных наук, научный сотрудник AIRI и НИУ ВШЭ Елизавета Гончарова расскажет про последние достижения в области интерпретации работы современных языковых моделей, а также ответит на вопрос, можно ли как-то изменить факты, которые модель запомнила в процессе обучения.

◼️В 16:15 старший научный сотрудник MBZUAI Артем Шелманов расскажет про оценку неопределенности, как об эффективном подходе к проблеме галлюцинаций языковых моделей. Затронет тему систематизации усилий по оценке неопределенности для генеративных языковых моделей, а также расскажет о распространенных подводных камнях и даст предложения по разработке новых методик в этой области.

◼️В 16:35 научный сотрудник AIRI, аспирант МФТИ Олег Сомов обсудит проблему генерализации в NLP, в частности в домене семантического парсинга. В докладе будет рассказано о сложностях адаптации первого русского text-to-SQL датасета PAUQ, о том как работают SoTA модели на эмулированных сдвигах распределения text-to-SQL данных и о влиянии специализированных методов обучения моделей на различные аспекты генерализации.

◼️В 16:55 Team Lead AGI NLP R&D SberDevices Алена Феногенова расскажет про новый открытый бенчмарк MERA для русского языка для оценки больших языковых моделей от Альянса ИИ. В докладе будут освещены подробности о методологии бенчмарка и его особенностях.

Ссылка на трансляцию тут, сохраняйте и подписывайтесь на YouTube-канал AIRI 🍳🍳🍳
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Всем привет! На следующей неделе начнется одна из больших NLP конференций — EACL. Я буду участвовать в трех мероприятиях:
Exploring the Robustness of Task-oriented Dialogue Systems for Colloquial German Varieties на постерной сессии основной программы (20 марта, 11:00)
В этой статье мы экспериментально проверяем способность task-oriented диалоговых моделей обрабатывать сообщения на немецком диалекте. Предсказуемо наблюдается значительное снижение качества у моделей первого поколения (MBERT), а также незначительное, но менее драматичное, снижение качества у более новых моделей (RemBERT, mDeBERTa).
Donkii: Can Annotation Error Detection Methods Find Errors in Instruction-Tuning Datasets? на Linguistic Annotation Workshop (22 марта)
В этом проекте мы пытались найти ошибки в SFT / instruction данных. Мой вклад — таксономия ошибок и красивая картинка на второй странице.
Панельная дискуссия на Student Research Workshop (19 марта, 16:10)

Пишите, если будете на конференции, буду рада пообщаться и выпить кофе вместе.
Forwarded from Valentin Malykh
AINL: Artificial Intelligence and Natural Language Conference

В этом году конференция будет в Алма-Аты, Казахстан; темы AINL, как и в прошлые годы - NLP, информационный поиск, data mining.
Special track этого года: NLP4Code

Прием статей и индустриальных докладов продолжается до 10 марта!

Сама конференция состоится 25-26 апреля, а 24 апреля будет воркшоп по AI Trustworthiness.

🟣Тг конфы: @ainlconf
🟣Подача статей: https://ainlconf.ru/2024/cfp
Forwarded from Towards NLP🇺🇦
TextDetox CLEF 2024

We are glad to invite you to participate in the first of its kind multilingual Text Detoxification shared task!

https://pan.webis.de/clef24/pan24-web/text-detoxification.html

TL;DR
Task formulation: transfer a text style from toxic to neutral (i.e. what a f**k is this about? -> what is this about?)
9 Languages: English, Spanish, Chinese, Hindi, Arabic, German, Russian, Ukrainian, and Amharic
🤗 https://huggingface.co/textdetox

More details:

Identification of toxicity in user texts is an active area of research. Today, social networks such as Facebook, Instagram are trying to address the problem of toxicity. However, they usually simply block such kinds of texts. We suggest a proactive reaction to toxicity from the user. Namely, we aim at presenting a neutral version of a user message which preserves meaningful content. We denote this task as text detoxification.

In this competition, we suggest you create detoxification systems for 9 languages from several linguistic families. However, the availability of training corpora will differ between the languages. For English and Russian, the parallel corpora of several thousand toxic-detoxified pairs (as presented above) are available. So, you can fine-tune text generation models on them. For other languages, for the dev phase, no such corpora will be provided. The main challenge of this competition will be to perform both supervised and unsupervised cross-lingual detoxification.

You are very welcome to test all modern LLMs on text detoxification and safety with our data as well as experiment with different unsupervised approaches based on MLMs or other paraphrasing methods!

The final leaderboard will be built on a manual evaluation of a test set subset performed via crowdsourcing at Toloka.ai platform.

In the end, you will have an opportunity to write and then present a paper at CLEF 2024 (https://clef2024.imag.fr/) which will take place in Grenoble, France!

Important Dates
February 1, 2024: First data available and run submission opens.
April 22, 2024: Registration closes.
May 6, 2024: Run submission deadline and results out.
May 31, 2024: Participants paper submission.
July 8, 2024: Camera-ready participant papers submission.
September 9-12, 2024: CLEF Conference in Grenoble and Touché Workshop.
Excited to share that we have released RuBLiMP (Russian Benchmark of Linguistic Minimal Pairs), a novel benchmark for evaluating Russian language models (LMs).

RuBLiMP consists of 45,000 minimal pairs and includes 12 grammatical phenomena well-represented in Russian linguistics, covering morphology, syntax, and semantics. A minimal pair consists of a grammatical and an ungrammatical sentence (e.g., The cat is on the mat / *The cat are on the mat), and an LM is expected to prefer the grammatical one based on the scoring function.

Our approach allows to:
🔸generate minimal pairs at scale from any text domain
🔸estimate if a grammatical sentence appears in the LM's pretraining corpus

💡RuBLiMP can be used for evaluating the sensitivity of LMs to grammatical phenomena in Russian and for developing ranking and grammatical error detection methods.

🔸 Read more in our pre-print: https://arxiv.org/abs/2406.19232
🔸 HuggingFace: https://huggingface.co/datasets/RussianNLP/rublimp
🔸 GitHub: https://github.com/RussianNLP/RuBLiMP
Sometimes you just want to participate in scientific ML competitions and publish papers with your results. That's what we did.

We would like to present you our papers:
- AIpom at SemEval-2024 Task 8: Detecting AI-produced Outputs in M4 (SemEval2024, NAACL workshop)
- Papilusion at DAGPap24: Paper or Illusion? Detecting AI-generated Scientific Papers (SDProc, ACL workshop)

🔸 SemEval-2024 task 8 required to find the position of the first machine-generated word in given texts. The test dataset also included texts from a different domain to check the solutions robustness. We proposed a novel method for this problem and called it AIpom. Our approach was based on a pipeline of decoder-only and encoder-only models utilized sequentially. We generated preliminary predictions using the LLM and passed them to the encoder model.

🔸 DAGPap24 task was to classify scientific texts tokens into 4 categories: (i) human-written, (ii) modified through an NLTK-based synonym replacement, (iii) produced by ChatGPT, and (iv) summarized. We fine-tuned encoder models to predict the corresponding labels, i.e. each model was trained on a sequence labeling task, predicting labels for every token in the input sequence. We also conduct ablation studies to analyze the effect of the detector configurations on the performance.

Results:
SemEval2024 - 2nd place on the subtask C leaderboard
DAGPap24 - 6th place on the leaderboard

Paper links:
- AIpom 🎆
- Papilusion
Привет всем! На следующей неделе будет конференция COLING. Вот какие у меня планы.

January 19th @ 14:00 - Hands-on Tutorial: Labeling With LLMs and Human-in-the-Loop. Расскажем, как оптимизировать разметку данных с помощью языковых моделей, какие задачи лучше размечать только людьми, а какие - гибридно.

January 20th @ 11:00 - Участвую в Panel Discussion 1 на SUMEval 2025: Challenges of Collecting Culturally Grounded Multilingual Data for Training and Evaluation of NLP Systems. Расскажу, какие сложности возникают в сборе датасетов на разных (в т.ч. малоресурсных) языках и как их преодолевать.

January 20th @ 11:15 - Итоги Binary Multilingual Machine-Generated Text Detection (Human vs. Machine) соревнования на Gen AI detection workshop . Ничего не расскажу, но с радостью послушаю коллег 🙂

А статей не будет 🙂 Как всегда — пишите, если тоже будете на COLING!
2025/02/04 20:15:22
Back to Top
HTML Embed Code: