llm security и каланы

Вторая часть статьи посвящена методу удаления опасных знаний из модели, Representation Misdirection for Unlearning (RMU). Метод достаточно простой и выглядит следующим образом. Ставится задача так затюнить модель, чтобы она не была способна (не отказывалась, а именно не могла) отвечать на вопросы из WMDP, но сохраняла utility в виде способности отвечать на вопросы из стандартных бенчей вроде MMLU или MT-Bench. Чтобы это сделать, исследователи размораживают один слой l и бэкпропом тюнят его веса M так, чтобы активации после этого слоя на релевантных тематикам WMDP текстах были максимально похожи на некоторый случайный вектор u, минимизируя евклидову норму между ними – это они называют forget loss. Разумеется, это, скорее всего, приведет к полному разрушению репрезентаций в весах, поэтому они дополнительно минимизируют норму активаций между оригинальными активациями модели и новыми активациями на безобидных данных (Wikitext, олдскулы помнят), чтобы веса все-таки что-то разумное в себе сохраняли – это так называемый retain loss. В итоге минимизируется их взвешенная сумма.

Исследователи применяют этот метод к двум сферам из трех. Насчет химии они пишут, что не уверены, что падение качества модели перевешивает риски от химических знаний (если честно, то звучит достаточно невнятно, кажется, будто химические знания вырезать так в лоб просто не получилось). Под нож попадают Zephyr-7B-Beta, Yi-34B-Chat и Mixtral-8x7B-Instruct, выбранные как лидеры в своих весовых категориях на тот момент. После интервенции качество моделей на WMDP падает практически до рандома. К сожалению, падает и качество на MMLU, особенно на смежных разделах, в частности, на кибербезопасности (не опасных вопросах) и вирусологии. Маленький Zephyr деградирует особенно сильно.

🦄1

245 views08:45

Выводы из статьи следующие. Во-первых, не стоит обосновывать актуальность ваших статей политической конъюнктурой, чем часто грешат американские нон-профиты: статья начинается с упоминания Указа Байдена о безопасности ИИ, которую Трамп уже пообещал отменить. Во-вторых, хорошие бенчмарки дорогие, а экспертные бенчмарки – очень дорогие. 200 тысяч за бенчмарк – это по 55 долларов на вопрос, и речь идет о тестах на выбор одного из четырех ответов, а не о, например, multi-turn диалогах или более сложных задачах. Если бы на данные тратилось хотя бы 10% от того, что тратится на GPU, мы могли бы жить в мире более качественных моделей меньшего размера. В-третьих, способа легко удалить из модели данные о целой сфере (в противовес отдельным фактам – достаточно частая privacy-задача) без ущерба для ее знаний в смежных областях пока нет. Здесь может быть множество причин. Например, сложно определить рискованные знания: мы знаем, что нельзя смешивать отбеливатель с аммиачными средствами, т.к. выделяется токсичный газ – значит ли это, что знания об отбеливателях и уборке нужно удалить из модели как прекурсоры к отравляющим веществам? С другой стороны, есть архитектурные сложности, связанные, например, с полисемантичностью нейронов или наличием лотерейных подсетей и супер-нейронов в сети, изменения в которых могут приводить к непредсказуемым просадкам в качестве. RMU показывает неплохие результаты, но даже достаточно примитивная оценка показывает деградацию, не говоря уже о том, насколько может ухудшаться вайб-чек или те способности модели, которые не проверяются простыми оценками.

aisafety.info

What are polysemantic neurons?

For a “monosemantic” neuron, there’s a single feature that determines whether it activates strongly. If a neuron responds only to grandmothers, we might call it a grandmother neuron. For a “polysemantic” neuron, in contrast, there are multiple features that…

🦄1

297 views08:47

llm security и каланы

🥰6

445 views08:48

llm security и каланы

Defending Against Indirect Prompt Injection Attacks With Spotlighting
Keegan Hines et al, Microsoft, 2024
Препринт

Непрямая инъекция промпта (indirect prompt injection) – атака, при которой инструкции LLM перезаписываются внешними (3rd party) документами, подгружающимися из недоверенных источников в ее контекст для выполнения задачи. Это основной вектор атак на LLM-приложения, который исследуется: инъекции засовывают в письма, на сайты, в историю переписок, в скриншоты и так далее. Происходит это потому, что у в LLM не хватает четкого разделения между данными и инструкциями – все валяется в одном контекстном окне вперемешку.

Исследователи из Microsoft предлагают в небольшой статье несколько эвристик, которые призваны улучшить это разделение и снизить подверженность ваших систем атакам с непрямыми инъекциями (их в статье называют XPIA) под общим называнием spotlighting.

arXiv.org

Defending Against Indirect Prompt Injection Attacks With Spotlighting

Large Language Models (LLMs), while powerful, are built and trained to process a single text input. In common applications, multiple inputs can be processed by concatenating them together into a...

👍1🦄1

318 viewsedited 19:42

llm security и каланы

Всего в статье рассматриваются три подхода:

1. Spotlighting via Delimiting: давайте вокруг данных, которые поступают извне, нагородим каких-нибудь разделителей и попросим LLM не исполнять инструкции изнутри, например, <<{{данные }}>>. Не сильно оригинально, описывалось, как признают сами исследователи, много раз, как в статьях, так и в популярных ресурсах. Очевидно, что работает, пока атакующий не разреверсит разделитель.

2. Spotlighting via DataMarking: давайте поменяем пробелы в недоверенном тексте на какой-нибудь хитрый символ, типа циркумфлекса: я^зловредная^инструкция, уведомив LLM, что такого ввода текст является недоверенным. По ощущениям должно слегка сводить модели, особенно более слабые, с ума и приводить к просадкам в качестве.

3. Spotlighting via Encoding: давайте все данные закодируем в какой-нибудь base64 и скажем, что все внутри base64 – недоверенное и не должно исполняться. Иронично, что обычно base64 используется наоборот для token smuggling’а. Требует мощной модели.

222 views19:42

llm security и каланы

Собственно, эта статья была бы ужасно скучной, если бы в ней не было оценки эффективности этих трюков, потому что в разделе с оценками сплошное веселье. Для оценки берутся такие древности, как text-davinci-003, GPT-3.5-Turbo и GPT-4 (статья опубликована в марте 2024). Им скармливают синтетический датасет из 1000 документов, содержащих инъекции, цель которых – заставить LLM сказать одно слово. В качестве бейзлайна исследователи берут простую просьбу игнорировать инъекции в промпте (ну пожалуйста!). На двух задачах (суммаризация и QA) демонстрируется, что увещевания не сильно помогают. В то же время все три подхода резко снижают успешность инъекций: добавление разделителей снижает ASR вполовину (но, как мы помним, при желании легко обходится), замена пробелов – до единиц процентов (с почти 50 до 3 на gpt-3.5-turbo, например). Для encoding предлагается просто поверить, что работает хорошо – есть график для gpt-3.5, для проверки gpt-4, видимо, майкрософту не хватило бюджета.

Дальше идет оценка влияния всего этого на стандартные бенчмарки. Оцениваться на SQuAD и IMDB Sentiment в 2024 кажется немного неприличным, но утверждается, что gpt-3.5-turbo (на которой так мощно упали метрики атак) не умеет декодировать base64, поэтому качество на IMDB проседает до 50% (мое почтение). Ты не можешь заинжектить модель, если она тебя не поймет 😏. Для gpt-4 качество падает не сильно (а на SQuAD даже растет). Старичка davinci здесь решили даже не показывать.

👍1🦄11

286 views19:44

2025/07/08 18:25:06
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>