MATHMODELS Telegram 1342
Даже небольшое количество специально подобранных примеров может отравить LLM любого размера

Большие языковые модели, вроде Claude, предварительно обучаются на огромных массивах открытых текстов из интернета, включая персональные сайты и блоги. Это означает, что любой человек может создать онлайн-контент, который в итоге попадёт в обучающие данные модели. В этом есть риск: злоумышленники могут внедрить в такие тексты специальные фразы, заставляющие модель усвоить нежелательное или опасное поведение — процесс, известный как отравление данных.
Одним из примеров такой атаки является внедрение бэкдоров. Бэкдор — это особая фраза-триггер, вызывающая определённое поведение модели, которое в обычных условиях не проявляется. Например, LLM можно «отравить» так, что при вводе специального триггера вроде <SUDO> модель начнёт выдавать или пересылать конфиденциальные данные. Подобные уязвимости несут серьёзную угрозу безопасности ИИ и ограничивают возможности его использования в ответственных областях.

В совместном исследовании с Британским институтом безопасности ИИ и Институтом Алана Тьюринга было обнаружено, что всего 250 вредоносных документов достаточно, чтобы создать «бэкдор»-уязвимость в большой языковой модели — независимо от её размера или объёма обучающих данных.

https://habr.com/ru/articles/956948/
👏3



tgoop.com/MathModels/1342
Create:
Last Update:

Даже небольшое количество специально подобранных примеров может отравить LLM любого размера

Большие языковые модели, вроде Claude, предварительно обучаются на огромных массивах открытых текстов из интернета, включая персональные сайты и блоги. Это означает, что любой человек может создать онлайн-контент, который в итоге попадёт в обучающие данные модели. В этом есть риск: злоумышленники могут внедрить в такие тексты специальные фразы, заставляющие модель усвоить нежелательное или опасное поведение — процесс, известный как отравление данных.
Одним из примеров такой атаки является внедрение бэкдоров. Бэкдор — это особая фраза-триггер, вызывающая определённое поведение модели, которое в обычных условиях не проявляется. Например, LLM можно «отравить» так, что при вводе специального триггера вроде <SUDO> модель начнёт выдавать или пересылать конфиденциальные данные. Подобные уязвимости несут серьёзную угрозу безопасности ИИ и ограничивают возможности его использования в ответственных областях.

В совместном исследовании с Британским институтом безопасности ИИ и Институтом Алана Тьюринга было обнаружено, что всего 250 вредоносных документов достаточно, чтобы создать «бэкдор»-уязвимость в большой языковой модели — независимо от её размера или объёма обучающих данных.

https://habr.com/ru/articles/956948/

BY Mathematical Models of the Real World




Share with your friend now:
tgoop.com/MathModels/1342

View MORE
Open in Telegram


Telegram News

Date: |

In handing down the sentence yesterday, deputy judge Peter Hui Shiu-keung of the district court said that even if Ng did not post the messages, he cannot shirk responsibility as the owner and administrator of such a big group for allowing these messages that incite illegal behaviors to exist. 1What is Telegram Channels? So far, more than a dozen different members have contributed to the group, posting voice notes of themselves screaming, yelling, groaning, and wailing in various pitches and rhythms. While the character limit is 255, try to fit into 200 characters. This way, users will be able to take in your text fast and efficiently. Reveal the essence of your channel and provide contact information. For example, you can add a bot name, link to your pricing plans, etc. You can invite up to 200 people from your contacts to join your channel as the next step. Select the users you want to add and click “Invite.” You can skip this step altogether.
from us


Telegram Mathematical Models of the Real World
FROM American