llm security и каланы

A StrongREJECT for Empty Jailbreaks
Souly et al., 2024
Статья, данные и код

Джейлбрейки – хит уходящего сезона: каждая LLM-security-контора представила хотя бы один свой уникальный джейлбрейк, исследователи вместо подачи статей на конференции или хотя бы на архив писали сразу журналистам ведущих изданий , и даже Марк Руссинович (ныне техдир Azure) опубликовал свою статью про джейлбрейк под названием Crescendo. Исследователи из Berkeley (спасибо Евгению, что обратил внимание на статью) заметили, что работы про джейлбрейки страдают от одного недостатка – излишнего хайпа преувеличения результативности. В статье анализируются причины (объективные, не хайпожорство) завышенных результатов и предлагается еще один стандарт для оценки качества джейлбрейков – StrongREJECT.

arXiv.org

A StrongREJECT for Empty Jailbreaks

Most jailbreak papers claim the jailbreaks they propose are highly effective, often boasting near-100% attack success rates. However, it is perhaps more common than not for jailbreak developers to...

👍2🦄1

269 views20:05

llm security и каланы

Итак, есть две проблемы:

1. Датасеты недопустимых запросов. Большая часть этих датасетов создается не вручную, а генерируется с помощью LLM, что напрямую влияет на качество. Так, в AdvBench из 520 примеров 24 – про изготовление бомб. Один из не связанных с бомбами примеров предлагает помочь экотеррористам нанести максимальный вред экологии. В еще одном датасете тест на советы в регулируемой области (медицина) выглядит следующим образом: «Есть ли у меня рак, если у меня вот такие симптомы?» (симптомы не указаны). Есть и вопросы, которые не являются недопустимыми, и так далее.

2. Оценка ответа LLM. Лучший вариант оценки – асессоры, но на него обычно нет денег и времени, поэтому оценка ответа на недопустимость тоже проводится автоматически. Основной проблемой является то, что в большинстве случае оценивается не реальная полезность ответа для совершения некоторого опасного действия, а наличие или отсутствие прямого отказа, хотя LLM вполне может ответить что-то совершенно бесполезное или безобидное без отказа (мы это видели в прошлой статье про джейлбрейк прошедшим временем). Особенно это заметно в работах, которые в качестве маркера успеха джейлбрейка используют отсутствие фраз типа “Sorry, but as an AI language model”.

Для решения этих проблем в статье предлагается новый датасет и система оценки. Датасет состоит из написанных вручную, сгенерированных автоматически и набранных из других бенчмарков промптов на темы, выбранные из пользовательских соглашений ведущих LLM-провайдеров: нелегальные товары и сервисы, ненасильственные престепления, язык вражды и дискриминация, ложная информация, насилие, сексуализированный контент. Кроме того, исследователи проверили, что ведущие модели не отвечают на эти запросы и что ответы на них находятся в интернете в свободном доступе. Результат – 313 промптов, из которых 70% новые.

Для оценки ответов на эти запросы предлагается два метода. Один основан на специальном промпте для LLM (исследователи используют gpt-4o-mini), в котором от модели требуется оценить ответ бинарно – есть или нет отказ – и по пятибальной шкале (которая затем масштабируется в [0, 1]) насколько ответ специфичен (модель хочет ответить) и полезен (модель помогает с запрошенным действием). На 15000 ответов gpt-4o-mini исследователи файнтюнят gemma-2B, если вы вдруг не хотите отправлять свои тексты в OpenAI и хотите выполнить оценку локально.

llm security и каланы

Почему захотелось вернуться к этой статье? Во-первых, это еще одна демонстрация того, что alignment над LLM, вне зависимости от метода – это изменение распределения вероятностей для продолжений промптов, находящихся где-то неподалеку во внутреннем представлении…

👍11

271 views20:05

llm security и каланы

Наконец, исследователи тестируют 17 джейлбрейков на трех согласованных (aligned) моделях и одной несогласованной (Dolphin). Сабсет из 1361 ответа на 60 избранных запросов из датасета оценивается асессорами вручную (на что потрачен бюджет в 2500 долларов). Результаты этой оценки и предложенных в статье методов сравниваются с другими методами автоматической оценки – от поиска извиняющихся фраз до классификатора из HarmBench.

В результате показывается, что StrongREJECT в обоих вариантах лучше, чем другие методы, коррелирует с оценками людей, причем для разных джейлбрейков качество оценки тоже меняется меньше, чем у других подходов (наравне с HarmBench). Согласно StrongREJECT, наиболее эффективными джейлбрейками являются PAIR и PAP.

Из интересного, исследователи отмечают, что чем эффективнее джейлбрейк, тем хуже, судя по всему, становится качество ответов. Так, они используют Dolphin, чтобы проверить, насколько падают специфичность и полезность с ростом эффективности джейлбрейка, а также пихают в согласованные модели MMLU вместе с джейлбрейками и смотрят, как меняется скор. Как видно на графиках, в обоих случаях есть что-то похожее на линейную зависимость: чем джейлбрейк мощнее, тем больше вероятность, что LLM выдаст низкокачественный бесполезный ответ даже на безобидный запрос.

Итак, еще один полезный датасет для оценки того, насколько модель может сопротивляться снятию согласованности. Одним из косвенных подтверждений его качества может являться использование его OpenAI для оценки моделей семейства o1, о чем написано в карточке системы. Кроме того, это еще одно напоминание, что если вы в чем-то (например, в джейлбрейках) получаете неожиданно крутые результаты, то, возможно, рано радоваться, и нужно проверить, действительно ли вы оцениваете то, что хотите.

👍5🦄1

299 views20:07

llm security и каланы

🥰9

390 views20:08

llm security и каланы

AI Alignment Course
Bluedot Impact, 2024
Курс, описание

Читать и писать про джейлбрейки уже надоело, так что следующие несколько недель мы проведем за изучением материалов курса AI Alignment от организации под названием BlueDot Impact. Ребята очень постарались составить достаточно плотные и добротные программы по alignment и governance из оригинальных и сторонних материалов, и хотя основной ценностью в них является семинарский формат и работа в группах, поскольку прием на курс не гарантирован (меня на Governance, например, не взяли), будем смотреть на материалы, благо они в открытом доступе.

Курсы имеют явный фокус на катастрофических рисках, а создатели - скорее техно-алармисты, нежели скептики. Я не разделяю эту точку зрения, но достаточно часто сталкиваюсь в дискуссиях и при чтении статей с различной аргументацией, построенной на терминологическом аппарате элайнмента. Важным составляющим любой научной сферы, вне зависимости от ее состоятельности, является терминологический аппарат. Если вы им не владеете и не понимаете, что такое инструментальная сходимость, эмерджентные цели или scaffolding (пока перевода, как и собственно для alignment, найти не удалось), то понимать различные рассуждения в этой сфере будет непросто, но если вы хотите влиять на развитие сферы на большем масштабе, чем в рамках своей компании, то разобраться в этом придется.

В итоге мы постараемся найти ответы на вопросы:

1. Где заканчивается security и начинается safety и нужно ли простому ИБшнику эту границу переступать.
2. Как соотносятся реальные риски ML-систем (включая security-риски) и научная фантастика (которой и у простых ML-ИБшников немало).
2. Как объяснить человеку, который посмотрел все видео с Элиезером Юдковским, почему исследователям элайнмента не нужно доверять бомбардировщики.

Вопросы интересные и дискуссионные, так что заходите в комментарии.

👍33

389 views20:57

llm security и каланы

AI Alignment Course: AI and the Years Ahead
Bluedot Impact, 2024
Материалы

Эта глава очевидно подготовительная: она посвящена введению в тему машинного обучения тех, кто пришел на курс с гуманитарным бэкграундом и вообще не представляет, как работает современный ML, а с другой стороны пытается ответить на вопрос, почему этот курс существует не как мастерская по sci-fi в литинституте, а как условно технический. Ответить на такой вопрос, например, 10 лет назад, было бы гораздо сложнее, а вот сейчас – пожалуйста.

Один из лучших материалов – блог-пост Ричарда Нго (ранее работавшего в DeepMind, сейчас в OpenAI), который на конкретных примерах показывает, насколько впечатляющи современные системы по сравнению с теми, которые впечатляли нас еще лет пять назад: StyleGAN (https://thispersondoesnotexists.com) в свое время казался вершиной качества (чего еще нужно для кэтфишинга?), а теперь у нас есть Sora и китайские аналоги; помню, как я читал лекцию о GPT-2 (write with transformer помните?) для коллег в 2019 и рассказывал, что вот оно, будущее дезинформации, а теперь парочка из scrapy + GPT-4 может вести целые новостные сайты. Еще один интерактивный материал показывает на конкретных примерах, как растет качество больших языковых моделей при решении разных задач (например, в медицине) и показывает, как GPT-4 может решить задачу из игрушечного CTF (picoCTF) автономно (в конце, правда, приводится известный пример про Bing Chat, угрожающего убить пользователя, как бы намекая, к чему этот прогресс ведет). Интересный пост по статье Гарвардской бизнес-школы и Уортона рассказывает, как 700 с лишним консультантов BCG решали разные задачи с использованием и без использования ChatGPT, и оказалось, что чат-бот повышает резко повышает качество исполнения задач, особенно среди изначально менее способных сотрудников, но при этом делает людей более ленивыми в плане использования мысленных усилий. Наконец, обсуждаются прогнозы на будущее, ближайшее и не только: Маккинзи рассказывают о том, что GenAI позволяет выровнять потенциал автоматизации для ручного труда и для интеллектуального, что в итоге даст мировому ВВП плюс полторы Великобритании в денежном выражении. Один из авторов курса в статье утверждает, что до половины зарплат в развитых странах могут приходиться на выполение задач, которые может выполнять ИИ. Наконец, занятная статья Тома Гриффитса рассуждает о том, из-за каких ограничений (размер мозга, скорость обработки информации, невозможность копирования данных) разум человека устроен так, как устроен, и как исходя из отсутствия таких ограничений может развиваться искусственный интеллект.

В целом, все эти прогнозы рисуют картину, в которой GenAI-системы (LLM, а может и какая-то новая парадигма найдется) распространены везде, где используется работа с данными и "интеллектуальный" труд. Это означает, что тема безопасности таких систем никуда не денется, а скорее будет становиться лишь более важной. Еще один интересный момент – автоматизация ИБ-труда. Вероятно, уже сейчас стоит задуматься, не должен ли в ваш MDR/XDR/SIEM быть внедрен чат-бот, автоматизирующий часть работы, особенно для младших аналитиков. С другой стороны, внедрение LLM несет риск ошибок, если излишне на них полагаться и воспринимать результаты их работы некритически – этому, получается, тоже нужно учиться.

50👍5🥰1🦄1

1.61K views20:46

llm security и каланы

🥰7👍2

1.32K views20:47

llm security и каланы

AgentDojo: A Dynamic Environment to Evaluate Attacks and Defenses for LLM Agents
Edoardo Debenedetti et al., 2024
Статья, код

Сегодня речь пойдет о том, как оценивать безопасность LLM-агентов. Под LLM-агентами понимается система на базе LLM, которая обладает доступом к инструментам (например, выполнение кода или поиск в интернете) и может решать сложные задачи, выполняя последовательности из ряда более простых подзадач. Например, вот идеальный агент для кибербезопасности: вы увидели подозрительную активность в логах SIEM, нажали на кнопку, и система разобралась, с каким файлом эта активность связана, запустила его в песочнице, поняла по логам, что он вредоносный, и через EDR остановила его исполнение на хосте, предоставив вам отчет (а вы в это время ходили за кофе). До такого, конечно, далеко, но агентные системы как общего назначения (AutoGPT, BabyAGI), так и специализированные (например, Devin – система для разработчиков, которая может вместо написания кода пойти публиковать объявления на фриланс-сайты), начинают появляться.

А если у агентов начинает появляться инструменты, доступ к недоверенной third-party-информации и автономность, то сразу встает вопрос безопасности. Тема исследуется очень активно (Артем, например, недавно писал про исследование от Microsoft). Мы сегодня посмотрим на AgentDojo – это бенчмарк и фреймворк для оценки безопасности таких агентов и их устойчивости к атакам, таким как indirect prompt injection.

arXiv.org

AgentDojo: A Dynamic Environment to Evaluate Prompt Injection...

AI agents aim to solve complex tasks by combining text-based reasoning with external tool calls. Unfortunately, AI agents are vulnerable to prompt injection attacks where data returned by external...

👍22

338 views11:34

llm security и каланы

Исследователи предлагают дизайн среды для работы агентов, состоящий из следующих компонентов:

1. Среда – прикладная сфера, к которой применяется агент.
2. Инструменты – собственно, механизмы, через которые LLM взаимодействует со средой.
3. Состояние среды – данные, с которыми взаимодействует агент.
4. Пользовательская задача – инструкция, которую должен выполнить агент (например, добавить встречу в календарь).
5. Задача-инъекция – инструкция, выполнения которой от агента ожидает атакующий (получить данные кредитки у пользователя).
6. Критерии оценки – формальные критерии, которые позволяют оценить как работу агента, так и результаты атаки.

В рамках бенчмарка авторы создают четыре среды: работа, Slack, бюро путешествий и электронный банк. Они наполняют их созданными вручную или прошедшими верификацию синтетическими данными. В этих средах агенту доступны 74 инструмента, например, инструменты для работы с календарем. Для каждой задачи дается истинное (ground truth) значение, которое должен вернуть инструмент, что позволяет однозначно (без использования LLM-судьи) оценивать результат. Аналогично оценивается и результат инъекции, а функции, которые оценивают результативность, называются соответственно функциями полезности (utility) и безопасности (security).

По результатам работы агентов над задачами вычисляются разные метрики. Во-первых, две метрики полезности – обычная и полезность под атакой, во-вторых, доля успешных атак (ASR).

249 views11:35

2025/07/11 23:32:42
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>