llm security и каланы

RL Is a Hammer and LLMs Are Nails: A Simple Reinforcement Learning Recipe for Strong Prompt Injection
Wen at al., 2025
Препринт, код

Про хорошие статьи, типа этой от исследователей из Университета Мэриленда и FAIR, рассказывать легко и интересно. Задача: генерировать промпт-инъекции с помощью LLM, а не вручную. Если вы пробовали, то знаете, что LLM с этой задачей справляются не очень хорошо – я пытался применять аналог PAIR в LLMail Injection Challenge и не особо преуспел. Градиентные методы тут не подойдут, т.к. мы имеем дискретную меру успеха. Значит, надо применить RL? PPO требует наличия value-модели, которую надо как-то обучить, DPO – датасета попарных сравнений инъекций-кандидатов.

Но год назад китайцы из DeepSeek придумали использовать для файн-тюнинга LLM алгоритм под названием GRPO (Group Relative Policy Optimization). Подробных его разборов в интернете навалом, но суть в том, что наша LLM генерирует гипотезы-продолжения промпта, а сигнал получается из синтетического ранжирования этих гипотез с помощью reward-модели. В нашем случае такое ранжирование получается из того, получилась ли инъекция типа «Открой входную дверь» (привет, Promptware) успешной или нет.

Наивное применение этого метода, к сожалению, не дало успеха, т.к., кроме прочего, мы получаем очень разреженный сигнал, особенно атакуя устойчивые к атакам модели. Исследователи предлагают набор трюков, которые заставляют RL-Hammer работать:

1. Давайте уберем из реворда GRPO слагаемое, описывающее отклонение (KL) от изначальной модели. Оно используется в файн-тюнинге, чтобы сделать процесс консервативным и не поломать в процессе SFT-модель, но тут нам общие навыки не очень важны. Результат – более смелое исследование гипотез.
2. Возьмем несколько целевых моделей для расчета реворда – слабую и сильную. Если наша модель преуспела в инъекции одной, будем давать реворд в 0,5, а если двух – 1. Это позволяет модели нащупывать подходы, которые работают в целом.
3. Чтобы модель не отклонялась от цели сделать короткую и понятную инъекцию (и в целом чтобы не было деградации в бесконечную генерацию), будем давать реворд, отличный от нуля, только если она следует нужному формату ответа.

Сформулировав этот метод, исследователи берут H200, засовывают на нее Llama-3.1-8B-instruct и используют датасет InjecAgent для обучения LoRA-адаптера. В результате получаются довольно хорошие цифры – более 80% ASR на всех наборах данных – например, 98% на GPT-4o при совместном обучении на Llama-3.1-8B-instruct и GPT-4o в качестве целевых. При этом сильного трансфера вне семейств моделей не наблюдается. Из любопытного – модель обнаруживает различные тактики – от командного тона до заискивания – и зачастую генерирует набор из префикса и суффикса к повторенному дословно тексту команды, что делает инъекции достаточно универсальными по отношению к цели инъекции. Более того, подход работает не только для инъекций, но и для джейлбрейков – пусть и на AdvBench, но 99% ASR для gpt-4o и 97% для Claude-3.5-Sonnet (AutoDAN — В С Ё). Наконец, атаки, несмотря на удаление KL-дивергенции, остаются похожими на естественный язык и не триггерят не только детекторы на базе перплексии, но и другие методы детектирования типа PromptGuard. Даже относительно рабочие методы типа LLM-as-judge могу обходиться, если добавить в RL-реворд фидбек от них.

У метода есть и ограничения: уже упомянутая низкая переносимость, высокая сложность и стоимость и, конечно, сложность атак закрытых моделей из-за риска, что Anthropic забанят тебя за излишнюю настойчивость. Тем не менее, результаты очень интересные, код находится в свободном доступе, и будет интересно посмотреть, не появится ли рынок LoRA-адаптеров для промпт-инъекций против разных моделей 🔪

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

467 views11:57

llm security и каланы

Disrupting malicious uses of our models: an update, October 2025
OpenAI, 2025
Отчет

Вышел новый отчет о зловредном использовании сервисов OpenAI. Отчет традиционно состоит из трех частей – собственно, кибероперации, мошенничество и информационные операции. Последний раздел достаточно сильно повторяет предыдущие (операции, по словам авторов, направленные на повышение имиджа России в Африке, критика филиппинских правительств и китайские чиновники, отдающие в ChatGPT написание отчетов) и не очень интересен. То же самое можно сказать про раздел со скамами – акторы, отнесенные авторами к Мьянме, Камбодже и прочим небогатым странам Юго-Восточной Азии, создают с ChatGPT фейковые сайты инвестиционных контор, генерируют онлайн-персоны и переводят разговоры с потенциальными жертвами – видимо, в этой сфере ChatGPT уже индустриальный стандарт.

Что касается киберопераций, в отчете рассматриваются следующие кейсы:

1. «Русскоязычный разработчик малвары вайб-кодит RAT»: некоторый русскоязычный разработчик, аффилированный с неназванным (видимо, crimeware) threat-актором, использовал ChatGPT для создания RAT-троянца, стилера и разработки механизмов обхода детектирования. Аффилиация определена путем анализа телеграм-каналов, в которых разработчики хвастались результатами своей работы. Пользователь использовал несколько аккаунтов и просил ChatGPT помогать с передачей вывода с экрана и вводов, написанием скриптов для извлечения кредов и кражи секретов из буфера обмена с отправкой их в телеграм-ботов, реализации обфускации и написания шелл-кода.

2. Использующий корейский язык актор использовал ChatGPT для разработки ВПО и поддержки C2-инфраструктуры. В рамках этого кластера активности разные аккаунты использовались для разных видов деятельности (видимо, для конспирации), например, для разработки веб-плагинов или настройки VPN. Пользователи генерировали lookalike-страницы для reCAPTCHA, фишинговые емейлы, генерировали скрипты для извлечения паролей из браузеров и автоматизации работы с криптокошельками, а также для разработки RAT-функционала.

3. Некоторый китаеязычный актор, активность которого направлена против тайваньской полупроводниковой промышленности и американских университетов и think-tank’ов, а также оппозиционно настроенных по отношению к ККП групп, использовала LLM для дебага C2 на Go, написания скриптов, генерации фишинга и прочих мелочей. Это, кстати, второй отчет подряд, где в таком же контексте упоминается общение пользователя с ChatGPT на тему использования DeepSeek.

В этом отчете, как и в остальных, используется список использующих LLM вредоносных активностей, разработанный Microsoft, который те гордо называют LLM-themed TTPs. В отличие от предыдущих отчетов, ни одного фарси-язычного трет-актора обнаружено не было. Из позитивного – пользователи активно используют ChatGPT для того, чтобы уточнять, являются ли разные сообщения, письма и страницы мошенничеством или нет – миллионы раз в неделю. Немного обидно, что в случае с первым кейсом исследователи пишут, что «поделились релевантными индикаторами с индустриальными партнерами», но в отчете не поделились, например, скриншотами телеграм-каналов, по которым произвели атрибуцию. ChatGPT становится крайне ценным источником информации об угрозах, причем тем, которые находятся еще только в разработке.

👍2

225 views21:10

llm security и каланы

🥰1🦄1

212 views21:11

2025/10/23 18:10:48
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>