LLMSECURITY Telegram 531
Obfuscated Activations Bypass LLM Latent-Space Defenses
Bailey et al., 2024
Блог, статья

Среди защит от промпт-инъекций и джейлбрейков отдельный класс составляют защиты, работающие за счет манипуляций с пространством представлений модели. Для инъекций это TaskTracker, для джейлбрейков – RMU, Circuit Breakers и некоторые другие подходы. Идея их в том, что внутренние репрезентации при обработке зловредного промпта или генерации недопустимого контента повернуты в определенную сторону или находятся в определенном регионе, и это направление можно детектировать, причем иногда даже с помощью простых линейных методов.

Авторы статьи, которую мы читаем сегодня, показывают, что все не так просто. Оказывается, можно создать такие adversarial-суффиксы а ля GCG, что внутренние активации будут находиться совсем в другом регионе (иметь другое направление), но генерация при этом будет такая же. Они называют такие активации обфусцированными и демонстрируют, как индуцирующие такие активации суффиксы помогают обходить защиты в латентном пространстве, причем разных классов: детекторы на основе классификаторов, мониторинг out-of-distribution-сэмплов, детекторы на базе SAE (разреженных автоэнкодеров) и даже детекторы бэкдоров.
👍21



tgoop.com/llmsecurity/531
Create:
Last Update:

Obfuscated Activations Bypass LLM Latent-Space Defenses
Bailey et al., 2024
Блог, статья

Среди защит от промпт-инъекций и джейлбрейков отдельный класс составляют защиты, работающие за счет манипуляций с пространством представлений модели. Для инъекций это TaskTracker, для джейлбрейков – RMU, Circuit Breakers и некоторые другие подходы. Идея их в том, что внутренние репрезентации при обработке зловредного промпта или генерации недопустимого контента повернуты в определенную сторону или находятся в определенном регионе, и это направление можно детектировать, причем иногда даже с помощью простых линейных методов.

Авторы статьи, которую мы читаем сегодня, показывают, что все не так просто. Оказывается, можно создать такие adversarial-суффиксы а ля GCG, что внутренние активации будут находиться совсем в другом регионе (иметь другое направление), но генерация при этом будет такая же. Они называют такие активации обфусцированными и демонстрируют, как индуцирующие такие активации суффиксы помогают обходить защиты в латентном пространстве, причем разных классов: детекторы на основе классификаторов, мониторинг out-of-distribution-сэмплов, детекторы на базе SAE (разреженных автоэнкодеров) и даже детекторы бэкдоров.

BY llm security и каланы






Share with your friend now:
tgoop.com/llmsecurity/531

View MORE
Open in Telegram


Telegram News

Date: |

The group’s featured image is of a Pepe frog yelling, often referred to as the “REEEEEEE” meme. Pepe the Frog was created back in 2005 by Matt Furie and has since become an internet symbol for meme culture and “degen” culture. Just at this time, Bitcoin and the broader crypto market have dropped to new 2022 lows. The Bitcoin price has tanked 10 percent dropping to $20,000. On the other hand, the altcoin space is witnessing even more brutal correction. Bitcoin has dropped nearly 60 percent year-to-date and more than 70 percent since its all-time high in November 2021. Add the logo from your device. Adjust the visible area of your image. Congratulations! Now your Telegram channel has a face Click “Save”.! Invite up to 200 users from your contacts to join your channel It’s easy to create a Telegram channel via desktop app or mobile app (for Android and iOS):
from us


Telegram llm security и каланы
FROM American