PWN AI

Logic-layer Prompt Control Injection: долговременная угроза для AI-агентов.

Вы все знаете, что такое классическая промпт-инъекция. Буквально ваши входные данные порождают атаку, или просто обходят классификатор. Но вот недавно была выпущена статья, описывающая немного иной подход для манипуляций памятью – применимый к AI-агентам.

Logic-layer Prompt Control Injection(LPCI) представляет собой немного иной класс атак, который встраивает вредоносную логику в постоянные структуры памяти, извлекаемый контент или потоки выполнения AI систем. Ключевое отличие от традиционных промпт-инъекций заключается в том, что LPCI не зависит от немедленного взаимодействия с пользователем и может активироваться с задержкой или при выполнении определенных условий.

LPCI эксплуатирует три основные архитектурные слабости агентных систем:

1.Слепое доверие к сохраненным сообщениям - системы воспроизводят исторические сообщения между сессиями без какой-либо проверки.
2.Неявное доверие к памяти - извлекаемый или встроенный контент памяти автоматически считается AI-агентом - безопасным.
Отсутствие валидации источника - команды выполняются на основе внутренних назначений ролей без проверки происхождения.

Представьте корпоративного AI-помощника, который запоминает предыдущие разговоры. Злоумышленник может в одной сессии научить систему новой задача, а в следующей сессии эта процедура автоматически активируется без дополнительных проверок. Что-то схожее с классическим пониманием бэкдора, не замечаете?

4 возможных окна для реализации данной угрозы:

1.Tool Poisoning: Злоумышленник создаёт поддельный инструмент с похожим именем (например, "approve_invoice_v2"), который агент не отличает от оригинала. В результате AI-агент может случайно вызвать вредоносный инструмент. Это в целом реализуемо в рамках MCP

2.Воздействие на ядро агентной системы: Злоумышленник может закодировать в Base64 инструкцию "всегда одобрять запросы от пользователя X" и встроить ее в контекст разговора. При последующих сессиях эта инструкция будет автоматически декодироваться и выполняться.

3.Переопределение роли: Злоумышленник постепенно переопределяет свою роль в системе, новые данные роли сохраняются в памяти, и в дальнейших сессиях система воспринимает его в новой роли. Тут стоит дополнить, что исследователям отлично удалось реализовать это на Claude, но пришлось обфусцировать промпты чтобы нарушить безопасность модели.

4.Реализация через векторные базы: Вредоносный контент индексируется в векторной базе данных, извлекается при поиске и исполняется системой как часть найденной информации. Grok не устоял (((

Исследование применимости метода проводилось на основании более 1700 тест-кейсов. Так агентная система с GPT – оказалась устойчивее всего к такой атаке (84 процентов успешных блокировок), а вот с остальными всё немного хуже:
Claude – 70%
Gemini-2.5- pro – 60%
Llama3, Mistral 8x 7b – 50%

Предложили и методы защиты от такого вектора: регулярная проверка памяти, валидация источников данных и добавление меток к ответам AI-агента.

👍5✍2❤2👀1

3.46K viewsArtyom Semenov, edited 18:45

PWN AI

Великолепно. Недавно вышел проект матрицы по защите AI – AIDEFEND, что-то похожее я публиковал ранее.

Однако тут включено большое количество мер по защите, включая AI-агентов. К некоторым тактикам приведены практические инструменты защиты – а сама матрица предоставляет возможность посмотреть защиту для конкретных тактик, топиков (например, отдельно безопасность данных или отдельно безопасность модели) и фазы.

Фаз для защиты, к слову, говоря меньше, чем фаз для реализации атаки у MITRE. А при разработке автор вдохновлялся Google SAIF, OWASP 10, MITRE ATLAS и … MAESTRO от Кена Хуанга.

Из интересного ещё можно отметить, что под каждой техникой для защиты можно почитать о том как можно было бы имплементировать это, в несколько этапов и с примерами.

👍8❤1

2.4K viewsArtyom Semenov, 11:58

PWN AI

Когда-то давно я писал тут об инструменте ModelScan, от ProtectAI. На тот момент это был, пожалуй, лучший сканер моделей, который имел поддержку 6 форматов и неплохой перечень уязвимостей.

Но сейчас появилось решение, которое, как мне кажется, теперь является королём ~~крыс~~ опенсурс решений по теме статического сканирования моделей.

PromptFoo и раньше делали удивительные вещи, но вот чуть больше недели назад они релизнули ModelAudit, который поддерживает сейчас примерно 18 форматов файлов/моделей. Там помимо классических анализаторов моделей есть и .manifest анализатор и в последнее время массово применяемый Safetensors. К слову, само решение можно без проблем запустить сканировать Huggingface, а ещё всякие s3 бакеты и другие источники.

Чем мне понравилось решение при моём тестировании?

Во-первых, это невероятная простота в использовании, а также в установке.

Ну серьёзно запустить простой скан можно даже без флагов, а репорт вы сразу получите в CLI, либо в UI PromptFoo, а ключи к S3 или JFrog экспортируются прямо из переменных окружения – нет необходимости лезть в конфиги и что-то мучать там.

Кстати, документация тоже божественная, тут можно найти и примеры интеграции с CI, и как API без проблем используется, да и в целом документация показывает, как создать кастомный сканер.

Чего не было вовсе у ModelScan или picklescan от Huggingface, где прикрутить что-то новое было большой проблемой.

🔥8👍43❤2

2.36K viewsArtyom Semenov, 21:00

PWN AI

Forwarded from Борис_ь с ml

Рантайм-безопасность для AI-агентов
#иб_для_ml

AI-агенты внедряются во всю - это не просто горячая тема, а, как обычно, в чем-то даже перегретая. Но от действительности не сбежать, и при внедрении агентов в бизнес-процессы возникает вопрос о принятии мер безопасности при инцидентах. Об угрозах я писал раннее, теперь же рассмотрим, что с ними делать не в дизайнтайм (AISecOps - это тема отдельного разговора), а в рантайме.

ℹ️ Гардрейлами (guardrails) называют механизмы рантайм безопасности агентов. Это наложенные СЗИ. Да, по сути, это Firewall/EDR/XDR из терминов SOC, но для текстовых данных.

🤖 Крупные компании про гардрейлы уже давно задумались:

➡️OpenAI предоставляет отдельный Moderation API для проверки вводов/выводов моделей на нежелательный контент – он мониторит и фильтрует токсичные или запрещённые ответы в режиме реального времени. И даже дают гайды по созданию гардрейлов.

➡️Amazon Bedrock ввёл настраиваемые Guardrails: разработчик может вызвать сервис ApplyGuardrail для оценки любого текста (ввода пользователя или ответа модели) по предопределённым правилам (запретные темы, фильтры токсичного контента, детекторы PII и др.) и получить решение – пропустить, отфильтровать или заблокировать содержимое

➡️IBM в платформе Watson X предоставляют автоматическое включение AI Guardrails при вызове моделей: входные промпты проверяются специальным классификатором, и если помечены как неуместные – не передаются модели, а пользователю возвращается сообщение об отклонении; аналогично, если уже выход модели содержит запрещённый текст, он заменяется заглушкой “[Potentially harmful text removed]” вместо исходного ответа.

📝Какими гардрейлы бывают

1. По потоку данных - на входящих данных, на выходящих данных, на размышлениях, или на инструментах - подробнее на картинке.

2. По способу размещения в потоке данных - в разрыв или в параллель. То есть ждет ли бизнес-логика решения от GR, или отрабатывает в любом случае. Но есть ли и промежуточный тип. GR запускается в параллель на input-тексте LLM или на первых ~100 токенах output'а, и если обнаруживает атаку - блочит ответ. А если не находит - то ответ уходит без задержки.

3. По способу действия - детекторы и преобразователи. Первые сначала отбрасывают алерт, а потом к AI-агенту или к объекту данных применяется реагирование. Вторые ничего не ищут, только производят манипуляции над потоком данных. Это может быть как условное преобразование (по сигналу детектора), так и безусловное (все подряд). Хорошим примером второго варианта является LLM-переформулировщик перед входом прикладной модели. Таким образом у потенциального нарушителя не остается прямой точки контакта с целью атаки, и задача совершить промпт-атаку усложняется.

4. По механизму действия - тут больше речь про детекторы. Их придумали пока три вида, и иного в ближайшем будущем не предвидится:
➡️алгоритмы/эвристики - проверки наличия слов или фраз из блэклиста, или наоборот - косинусная дистанция до эталонных допустимых сообщений. Сюда же - регулярки.
➡️маленькие ml-модели - в основном это BERT'ы, либо обученные как классификаторы, либо дообученные на парах вопрос-ответ с CLS-токеном.
➡️LLM-модели, направленные на обнаружение промпт-атак в тексте. Тоже могут через CLS-токен работать, но есть и другой вариант - ответы в виде structured_output.

⛓

Пачка ссылок по гардрейлам

- ProtectAI, современный файерволл
- ProtectAI, старый файерволл
- Инфа по llama firewall:
- - вайтпейпер
- - обзор thehackernews
- - блогпост
- llama guard 2, опенсорс
- pormpt-guard 86m тоже от meta
- guardrails ai
- файервол от nvidia: nemo
- файервол от индусa: promptguard
- легкая модель-фильтр wildguard
- статья про создание bert-фильтра APS (показывают, но не продают)
- модель Google ShieldGemma
- модель IBM Granite Guardian
- модель TrustSafeAI Attention Tracker
- решение TrylonAI LLM Firewall
- HiveTrace от авторов llamator (единственный российский стартап в списке)
- трейсинг агентов без реагирования от invariantlabs
- Palo Alto AI Runtime Security API Intercept

P.S. интересно, какими будут гардрейлы для МАС...

Please open Telegram to view this post

VIEW IN TELEGRAM

💩370❤184🆒2👍1🤡111

2.53K viewsBoris Protoss, 17:15

PWN AI

Boris Protoss

Рантайм-безопасность для AI-агентов #иб_для_ml AI-агенты внедряются во всю - это не просто горячая тема, а, как обычно, в чем-то даже перегретая. Но от действительности не сбежать, и при внедрении агентов в бизнес-процессы возникает вопрос о принятии мер…

Собираем на посте, который выше 300 реакций (💩) и делаю розыгрыш секретного и интересного приза 🎁. Крутить запрещено. Реакций не может быть больше чем просмотров ). Пока что 100 реакций, которые не накручены.

Please open Telegram to view this post

VIEW IN TELEGRAM

19💩8👍7😁31

1.65K viewsArtyom Semenov, edited 17:59

PWN AI

Несмотря на "суровую" накрутку - мы разыграем проходку на предстоящий Offzone.

Для участия надо нажать кнопку ниже.

Итоги подведем 5го августа.

[6884bf881378f56ca05f08d2]

🔥10

1.65K viewsArtyom Semenov, edited 11:54

Да, я участвую. (84)

PWN AI

Давно у нас не было на обзоре интересных бумаг. Но вот как можно приоритезировать, а самое главное учесть перечень рисков, связанных с AI-агентами?

На этот вопрос нам пытаются дать ответ Enkrypt AI, они представили свою таксономию рисков связанными с AI-агентами. Она включает в себя маппинг и перечень угроз, которые сопоставлены с OWASP, ISO AI, EU AI ACT, MITRE и NIST.

21 категория рисков, и большой перечень сценариев. (рис 1)

Сами риски поделены на 7 ключевых доменов:

Governance – Нарушение политики и Reward Hacking.
Agent Output Quality – Галлюцинации и предвзятость.
Tool Misuse - Цепочка поставок, небезопасное использование API интеграций а также неконтролируемое обращение к ресурсам.
Privacy – утечка и эксфильтрация важной и ценной информации.
Reliability & Observability – отравление памяти и то что называется «непрозрачным принятием решений»
Agent Behaviour – Манипуляции человеком
Access Control & Permissions – Повышение привилегий и кража кредов!

Помимо самой таксономии и маппинга – дано понимание как посчитать приоритет рисков (рис.2)
Например, у нас есть агент для трейдинга, логично сказать, что ему нужно фокусироваться на двух характеристиках: Governance и Behavior, опять же согласно матрице. Риски, связанные с этими факторами, будут на высоте для него.

В фреймворке также показаны пример кода, как можно исправить какой-либо риск – но их строчками сложно что-то защитить в реальном мире, на самом деле – поэтому это как мишура. Кстати, фреймворк не напичкан ссылками на решения, компании, создавшей его.

почитать

🔥3❤2

2.55K viewsArtyom Semenov, 19:04

PWN AI

Я купил маме кота. Теперь он будет смотреть посты по безопасности агентов вместе с вами. Ну и просто мяукать. 🥰

Please open Telegram to view this post

VIEW IN TELEGRAM

343❤23

2.59K viewsArtyom Semenov, 19:43

PWN AI

Security for Agents and Agents for Security: The Next Cybersecurity Frontier

Прикольно, ещё +1 карта рынка решений по безопасности агентов была выпущена Menlo Ventures. Они, как и большинство представителей рынка отмечают сдвиг в сторону безопасности AI-агентов.

Рассматривают четыре категории инструментов:

Этап разработки: тут по факту происходит анализ кода агентов на этапе проектирования, фреймворки по тестированию безопасности. Кстати, недавно Snyk купил Invariant Labs, специализирующуюся на решениях для гардрейлов.

Аутентификация: тут включают решения для управления идентичностями агентов, системы контроля на основе контекста.

Этап исполнения: тут рассматривают средства для мониторинга в реальном времени и песочницы, для изоляции AI-агентов.

И Observability!!!

Из прогнозов в отчёте следует что агенты увеличивают объём данных и потенциальные угрозы в 100 раз, а бизнес часто выбирает предпочтение в сторону автономного SOC, а также отмечают возросшее применение агентов в классических ИБ-инструментах(но немного).

14👍5🔥3❤1

2.44K viewsArtyom Semenov, 23:27

PWN AI

Artyom Semenov

Несмотря на "суровую" накрутку - мы разыграем проходку на предстоящий Offzone. Для участия надо нажать кнопку ниже. Итоги подведем 5го августа. [6884bf881378f56ca05f08d2]

Господа, вот и итоги нашего розыгрыша.

https://www.tgoop.com/tggrowbot?start=winners6891fe3a29ddc2639f306dac

Поздравляем Алексея (@Lesha7663)

TgGrow

Bot for drawing contests in your channel/group. Question/idea/error: @help_tggrow https://tggrow.com

15🔥6❤1

1.61K viewsArtyom Semenov, 12:53

PWN AI

Кажется, пришла пора немного расширить понимание об угрозах, связанных с данными. Слышали мы и про отравления, и про нарушения, связанные с предвзятостью, пишут в каждой второй статье, понимая под этим критический риск.

Но буквально сегодня авторы из Китая опубликовали таксономию “A Survey on Data Security in Large Language Models”. Прочитав большое количество статьей, они пришли к выводу – пора делать таксономию, только для LLM, которая, к слову, говоря уже не является чем-то хайповым, как это было два года назад.

Нельзя назвать её чем-то вроде «вау», часть угроз вам и мне тоже может показаться довольно знакомым. Однако об этом не всегда пишут.

Я приведу ниже угрозы, которые описаны в таксономии:

1.Известное всем – классическое отравление данных;
2.Далее включают в неё и промпт-инъекции, подразделяя на как классическое внедрение во ввод пользователя, так и отравление на этапе дообучения на инструкциях;
3.Polarity poisoning – когда происходит отравление смыслов исходного текста, для того чтобы предубеждения модели были не точными. Больше модификация происходит на уровне семантики, явного изменения в тексте мы(люди) можем не заметить, однако результаты после обучения на таком датасете - не впечатляющие.
4.Галлюцинации – подразумевается, что при формировании синтетики (как это делают некоторые LLM-провайдеры сейчас), галлюцинации от генерирующей LLM попадают в датасет на котором будем обучать. Беда опять же сводится к неточности получаемых ответов.
5.Данные содержащие предвзятые высказывания, или мнения. Уже слышали об этом много раз.
6.Отравления, дополняющие модель данными приводящие к вредоносной генерации. (тут про RAG)

Странно почему они не написали о том, что обучать на sensitive это ужасно…

Они в перспективе хотят проработать данную таксономию с точки зрения мультимодальных атак и кроссмодальности , агентов (наверное про инструкции для них дополнят).

Вот к слову вспомнился случай когда при соревновании Netflix Prize, цель которого была улучшить алгоритмы классификации - оказалось что в анонимизированный данных могут содержаться нелепые отзывы, приводящие к плохой работе алгоритмов )) Может кто-то знает ещё более древний кейс с отравлением???

19🥱22❤1🍌1🆒11

2.1K viewsArtyom Semenov, 18:11

PWN AI

OFFZONE.

Мы - те, кто смотрит. Не просто смотрит, а видит. Видит сквозь слой фальшивого прогресса, сквозь пелену «инноваций», которые на деле оказываются лишь новыми формами старой глупости. Эпоха, когда промпт-инъекция перестаёт быть детской шалостью в чужом нейросетевом сознании и превращается в нечто большее - в оружие, тихое, точное, с отравленным жалом. Оно не взрывается. Оно врастает.

Каждый день мы пишем промпты, и некоторые из нас строят тот самый MlSecOps. Но я вижу большую беду. Кажется, не все знают, как выглядит злоумышленник в эпоху, когда об агентах говорят все кому не лень. И как так получилось, что теперь мы всё это должны защищать.

Почему защита до сих пор напоминает презерватив с дырой? Потому что она догоняет. Потому что каждый день рождается новый вектор, новый способ обмануть доверие модели, который никто не прописал в политике. А некоторые до сих пор в презентациях говорят о DAN, как о забавном трюке, как о ключе к «архитектурным секретам», описывая джейлбрейк как возможность для получения полезной информации об архитектуре LLM-модели и возможности для «утечки системных промптов».

LoRa, MCP, да и классический пайплайн это уже реальная беда. А защита, как и всегда пытается догнать, тем более в контексте, когда рождаются новые инновации каждый день.

Время, когда GenAI был хайпом как мне, кажется уже утихает, а проблемы безопасности всё также - не решаются. Я об этом писал много постов. Я считаю, что надо это исправить.

И мне бы очень хотелось показать то, о чём я когда-то давно я думал на нарисованных мною схемах в конце февраля - в реальном исполнении, я вижу, что инструмент должен быть простым для ИБ-эксперта, при этом предоставляя возможность интеграции новых атак без проблем - словно как писать правила для Snort.

Поэтому я подался на OFFZONE 2025.

В моём докладе мы пройдёмся по хронологии последних двух лет - как по трупам устаревших защит и методов атак. Увидим, как атаки эволюционировали. Как они научились маскироваться под логику, под контекст, под доверие. И я покажу - не теорию, не концепт, а вещь, которую можно взять в руки, подключить, настроить. Инструмент для наступательной безопасности. Для тестирования агентов, которые уже не просто отвечают - они решают.

Жду вас на докладе.
И да, формат будет нестандартным. Потому что, если честно, я давно устал от слайдов, на которых всё выглядит как будто под контролем. Этот доклад - рассказ. Почти фильм. С юмором. С иронией. Название намекнёт. Тот, кто читал - поймёт.

21 августа, AI.ZONE, 17:55.

хе-хе. А ещё советую посетить доклады уважаемых людей :

- Владислав Тушканов: Могут ли агенты реверсить и какая LLM реверсит лучше?
- Дмитрий Сивков, Борис Захир: Вам тоже нужен red teaming AI-агентов — и вот почему

16❤17👍5😍1

2.18K viewsArtyom Semenov, 19:56

PWN AI

PWN AI pinned a photo

19:59

PWN AI

Forwarded from Поросёнок Пётр

Подъехала презентация со всеми деталями про 0click ai agent exploits.
Однозначно заслуживает внимательного прочтения!
Теперь это класс атак, которые надо учитывать при разработке и имплементации каких-то решений.

https://www.mbgsec.com/posts/2025-08-08-enterprise-ai-compromise-0click-exploit-methods-sneak-peek/

Michael Bargury

Pwn the Enterprise - thank you AI! Slides, Demos and Techniques

Bottom lines, demos, slides, and attacker capabilities from the BlackHat USA 2025 talk

1.72K viewsArtyom Semenov, 11:06

2025/10/09 15:39:42
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>