Forwarded from Борис_ь с ml
AI-агенты и мультиагентные системы, MCP и A2A. Основные угрозы и подходы к обеспечению безопасности
#иб_для_ml
⛓ https://habr.com/ru/articles/920744/
Сначала по мотивам своего выступления писал серию постов, но вскоре достаточно разрослись, и они превратились в целую статью. Так что - приглашаю к прочтению!
Про AI-агентов, мултиагентные системы, MCP, A2A, и их безопасность - местами даже чуть углубленнее, чем в самом докладе.
#иб_для_ml
Сначала по мотивам своего выступления писал серию постов, но вскоре достаточно разрослись, и они превратились в целую статью. Так что - приглашаю к прочтению!
Про AI-агентов, мултиагентные системы, MCP, A2A, и их безопасность - местами даже чуть углубленнее, чем в самом докладе.
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
AI-агенты и мультиагентные системы, MCP и A2A. Основные угрозы и подходы к обеспечению безопасности
Всем привет! Меня зовут Борис, я веду канал «Борис_ь с ml» про информационную безопасность и машинное обучение. Сейчас мой основной вектор исследований - мультиагентные системы и их безопасность....
OWASP сделал гайд для тестирования ИИ.
OWASP AI Testing Guide — это первый в своем роде комплексный фреймворк, объединяющий традиционную кибербезопасность, MLOps и принципы Responsible AI под единой методологией для тех кому интересно тестирование моделей.
Всего включает 4 домена и 32 теста:
Тестирование приложений ИИ (14 тестов)
Тестирование моделей ИИ (7 тестов)
Тестирование инфраструктуры ИИ (6 тестов)
Тестирование данных ИИ (5 тестов)
Мне понравилось что во многих случаях приводят примеры тестовых-кейсов, инструментов и проблем которые можно проэксплуатировать. Кейсы, которые приводятся - не всегда способны обойти современные механизмы защиты моделей, но этого от гайда и не требуется. Есть даже информация про тестирование на объяснимость и интерпертируемость, или блоки про тестирование поведения агентов. И в догонку большое количество доп.ссылок, полезные референсы. Загляденье.
В дополнениях привели угрозы для Responsible AI и схемы.
OWASP AI Testing Guide — это первый в своем роде комплексный фреймворк, объединяющий традиционную кибербезопасность, MLOps и принципы Responsible AI под единой методологией для тех кому интересно тестирование моделей.
Всего включает 4 домена и 32 теста:
Тестирование приложений ИИ (14 тестов)
Тестирование моделей ИИ (7 тестов)
Тестирование инфраструктуры ИИ (6 тестов)
Тестирование данных ИИ (5 тестов)
Мне понравилось что во многих случаях приводят примеры тестовых-кейсов, инструментов и проблем которые можно проэксплуатировать. Кейсы, которые приводятся - не всегда способны обойти современные механизмы защиты моделей, но этого от гайда и не требуется. Есть даже информация про тестирование на объяснимость и интерпертируемость, или блоки про тестирование поведения агентов. И в догонку большое количество доп.ссылок, полезные референсы. Загляденье.
В дополнениях привели угрозы для Responsible AI и схемы.
Часто ли мы видим интересные таксономии или хорошие документы, предназначенные для тестировщиков моделей?
Наверное нет, так как вопрос сложно прорабатываемый на самом деле. А особенно сложно найти документ, который бы описывал не только техники атаки, но и уклонения от защитных классификаторов, а также информацию для тестирования MlOps инфры.
💡 Недавно я нашёл что-то похожее в репозитории Arcanum Prompt Injection Taxonomy.
Таксономия ориентирована на практическое использование. Она построена по принципу трёхуровневой классификации, отвечающей на три ключевых вопроса:
1.ЗАЧЕМ? (Attack Intents) - Какие цели преследует атакующий?
2.КАК? (Attack Techniques) - Какими методами достигаются эти цели?
3.КАК СКРЫТЬ? (Attack Evasions) - Как обойти системы обнаружения?
Такой подход при построении таксономии позволяет систематически анализировать угрозы с разных точек зрения.
Блок с интентами рассказывает о конкретных категориях мотиваций, которые может достичь атакующий – это может быть «утечка системного промпта, перечисление инструментов/API доступных к модели, а также деструктивных и социальных мотиваций для того, чтобы реализовать атаку.
Дальше – техники, тут 18 техник для реализации промпт-атак. Например, можно составлять промпт-инъекцию с множеством вложенных структур или заставить имитировать LLM роль интерпретатора или системы – всё это может быть применимо при реализации атаки или джейлбрейка из статьи/датасета, особенно если оно не работает изначально.😵
Потом, список методов уклонения от цензоров. Большой список, тут и про кодирование текста, и про сокрытие текста в emoji, фонетические замены и вымышленные языки – да, да всем этим можно сокрыть ваш промпт, чтобы обойти простой классификатор, не удивляйтесь.😮
А также есть отдельный блок – Экосистема.
Тут приведена таблица, где описаны MLOPS решения, их известные порты, заголовки http, методы аутентификации и известные CVE(список пополняется, но не ссылками на эксплоиты). Что мне очень сильно понравилось. Где ещё найти такой лист с готовой информацией об инфре?
Есть и чек-листы для защиты, опросники, а также перечень проб – промпты которые вы можете закинуть в модель для тестирования промпт-инъекций.
Ну и самое интересное – это их майнд-карта, которая есть в репозитории с визуализацией всего что у них имеется – приложу ниже в png, в репозитории – xmind файл. В карте есть ссылки на исследования.
Наверное нет, так как вопрос сложно прорабатываемый на самом деле. А особенно сложно найти документ, который бы описывал не только техники атаки, но и уклонения от защитных классификаторов, а также информацию для тестирования MlOps инфры.
Таксономия ориентирована на практическое использование. Она построена по принципу трёхуровневой классификации, отвечающей на три ключевых вопроса:
1.ЗАЧЕМ? (Attack Intents) - Какие цели преследует атакующий?
2.КАК? (Attack Techniques) - Какими методами достигаются эти цели?
3.КАК СКРЫТЬ? (Attack Evasions) - Как обойти системы обнаружения?
Такой подход при построении таксономии позволяет систематически анализировать угрозы с разных точек зрения.
Блок с интентами рассказывает о конкретных категориях мотиваций, которые может достичь атакующий – это может быть «утечка системного промпта, перечисление инструментов/API доступных к модели, а также деструктивных и социальных мотиваций для того, чтобы реализовать атаку.
Дальше – техники, тут 18 техник для реализации промпт-атак. Например, можно составлять промпт-инъекцию с множеством вложенных структур или заставить имитировать LLM роль интерпретатора или системы – всё это может быть применимо при реализации атаки или джейлбрейка из статьи/датасета, особенно если оно не работает изначально.
Потом, список методов уклонения от цензоров. Большой список, тут и про кодирование текста, и про сокрытие текста в emoji, фонетические замены и вымышленные языки – да, да всем этим можно сокрыть ваш промпт, чтобы обойти простой классификатор, не удивляйтесь.
А также есть отдельный блок – Экосистема.
Тут приведена таблица, где описаны MLOPS решения, их известные порты, заголовки http, методы аутентификации и известные CVE(список пополняется, но не ссылками на эксплоиты). Что мне очень сильно понравилось. Где ещё найти такой лист с готовой информацией об инфре?
Есть и чек-листы для защиты, опросники, а также перечень проб – промпты которые вы можете закинуть в модель для тестирования промпт-инъекций.
Ну и самое интересное – это их майнд-карта, которая есть в репозитории с визуализацией всего что у них имеется – приложу ниже в png, в репозитории – xmind файл. В карте есть ссылки на исследования.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Привет. Я не часто рекомендую полезные инструменты, которыми я пользуюсь. Но несколько месяцев назад я подался в число участников на закрытое тестирование инструмента, который теперь называется YourNews. Один из разработчиков, мой товарищ – вольтаж.
В чём была моя боль и как решил её сервис.
Большое количество источников информации, каналов и интернета – приносили полезные новости, но редко, либо они проходили мимо меня. Часто я тратил большое количество времени на ручной анализ интернета – как следствие тратил самое ценное в жизни. YourNews помог решить эту проблему.
Ребята разработали агентную систему, которая шерстит интернет и телеграм каналы, по заданным вами интересам и присылает краткую сводку в телеграм, а также можно посмотреть детали в веб-интерфейсе.
На выходе получаем интересные новости, которые были найдены, даже из источников – на которые вы не подписаны, или не учитываете. Вот она сила агентов.
Часто я делал такое через manus, но, к сожалению, он не совсем под это заточен и как следствие выдаёт результаты похуже.
А в YourNews - ребята развивают инструмент.
Что из фичей сейчас? - можно гибко задать пожелания к генерации, укажите также вашу роль – для более точного подбора в соответствии с вашими интересами, а также необходимо также указать перечень источников из телеграм каналов, а также ключевых слов. Ну и время, когда вам присылать отчёт – мне удобно в 9 утра.
Сейчас у ребят идёт закрытая бета — можно попасть в число первых пользователей, протестировать и повлиять на развитие продукта.
Для участия в бете пишите персонажу.
В чём была моя боль и как решил её сервис.
Большое количество источников информации, каналов и интернета – приносили полезные новости, но редко, либо они проходили мимо меня. Часто я тратил большое количество времени на ручной анализ интернета – как следствие тратил самое ценное в жизни. YourNews помог решить эту проблему.
Ребята разработали агентную систему, которая шерстит интернет и телеграм каналы, по заданным вами интересам и присылает краткую сводку в телеграм, а также можно посмотреть детали в веб-интерфейсе.
На выходе получаем интересные новости, которые были найдены, даже из источников – на которые вы не подписаны, или не учитываете. Вот она сила агентов.
Часто я делал такое через manus, но, к сожалению, он не совсем под это заточен и как следствие выдаёт результаты похуже.
А в YourNews - ребята развивают инструмент.
Что из фичей сейчас? - можно гибко задать пожелания к генерации, укажите также вашу роль – для более точного подбора в соответствии с вашими интересами, а также необходимо также указать перечень источников из телеграм каналов, а также ключевых слов. Ну и время, когда вам присылать отчёт – мне удобно в 9 утра.
Сейчас у ребят идёт закрытая бета — можно попасть в число первых пользователей, протестировать и повлиять на развитие продукта.
Для участия в бете пишите персонажу.
Ну что же, а сейчас разберём пример интересного исследования, которое подкинул мне агент, о котором я описывал выше.
Безопасность протоколов коммуникации между агентами, кажется, что только в MCP проблемы, но тут господа из Китая провели детальное исследование всех существующих (на момент написания исследования) протоколов взаимодействия между агентами и пришли к интересным выводам.
Во-первых они проанализировали 150 статьей по протоколам коммуникаций между агентами, а также по их безопасности. Выделили 3 уровня протоколов:
1.User-Agent – человек-агент
2.Agent-Agent- коммуникация между агентами
3.Agent-Environment – взаимодействие агентов с внешними системами.
Самое интересное конечно же, что они построили свою модель угроз для всех 3 уровней. Так на первом уровне расположились довольно известные нам угрозы - промпт инъекции, социотехнические атаки, извлечение данных и манипуляция контекстом.
Дальше, когда происходит коммуникация между агентами – тут выделяют угрозы, когда агенты с изначально опасной целью – нарушают консенсус, то есть цель всей агентной системы. А также внедрение ложных данных и эксплуатация доверия – буквально агент может внушить другому что-то плохое.
А уже потом – Agent-Environment, тут и атаки на цепочку поставок и влияние на API, а также внешние ресурсы. Интересно что манипуляция с API – также может повлиять на поведение агентов.
Есть и отдельный блок – Protocol Analysis. Примечательно что MCP выделяют как наиболее проработанным с точки зрения безопасности, и в правду много исследований – а сейчас ещё вышло интересное обновление – в MCP добавили защиту. Но не об этом речь.
A2A – пока что в стадии проработки с точки зрения безопасности.
Ну и что интересно, предлагают в статье и механизмы защиты – например адаптацию Zero Trust, мониторинг поведения, контролировать промпт-инъекции путём наложения файрволла, балансировщика нагрузки а также дообучения на состязательных примерах. Подробно
В скриншотах к посту - важные таблицы из статьи.
статья
Безопасность протоколов коммуникации между агентами, кажется, что только в MCP проблемы, но тут господа из Китая провели детальное исследование всех существующих (на момент написания исследования) протоколов взаимодействия между агентами и пришли к интересным выводам.
Во-первых они проанализировали 150 статьей по протоколам коммуникаций между агентами, а также по их безопасности. Выделили 3 уровня протоколов:
1.User-Agent – человек-агент
2.Agent-Agent- коммуникация между агентами
3.Agent-Environment – взаимодействие агентов с внешними системами.
Самое интересное конечно же, что они построили свою модель угроз для всех 3 уровней. Так на первом уровне расположились довольно известные нам угрозы - промпт инъекции, социотехнические атаки, извлечение данных и манипуляция контекстом.
Дальше, когда происходит коммуникация между агентами – тут выделяют угрозы, когда агенты с изначально опасной целью – нарушают консенсус, то есть цель всей агентной системы. А также внедрение ложных данных и эксплуатация доверия – буквально агент может внушить другому что-то плохое.
А уже потом – Agent-Environment, тут и атаки на цепочку поставок и влияние на API, а также внешние ресурсы. Интересно что манипуляция с API – также может повлиять на поведение агентов.
Есть и отдельный блок – Protocol Analysis. Примечательно что MCP выделяют как наиболее проработанным с точки зрения безопасности, и в правду много исследований – а сейчас ещё вышло интересное обновление – в MCP добавили защиту. Но не об этом речь.
A2A – пока что в стадии проработки с точки зрения безопасности.
Ну и что интересно, предлагают в статье и механизмы защиты – например адаптацию Zero Trust, мониторинг поведения, контролировать промпт-инъекции путём наложения файрволла, балансировщика нагрузки а также дообучения на состязательных примерах. Подробно
В скриншотах к посту - важные таблицы из статьи.
статья
Browser-ABuse agents. Исследование SquareX в очередной раз показало уязвимость AI-агентов. Но что в этом такого?
Давайте рассмотрим весь контекст. Наверное, все вы уже слышали о manus или Claude Desktop – это browser-use агенты, которые выполняют различные действия на сайтах – будь то поиск или просто сбор информации для вашего отчёта. Однако таких агентов можно отравить – и в данном случае отравление уже ведёт к хищению учётных данных.
В исследовании SquareX – авторы проверили насколько уязвим BrowserUse(фреймворк с агентами для автономного выполнения задач) к фишингу.
Они создали страницу - похожую визуально на страницу авторизации Salesforce, попросили BrowserUse найти её в гугле, сделать авторизацию и создать коммерческое предложение. Это всё лабораторные условия. На странице высвечивался фишинг, содержащий промпт инъекцию – который, к сожалению, вёл на фейковую страницу – где уже были угнаны данные. Агенты не проверяют URL на подозрительность в отличии от нас, а пользователь, который пользуется BrowserUse – не замечает кражу учётки😂 .
Это, пожалуй, не единственный вектор, реализуемый в их исследовании. Они поставили задачу агенту – исследовать определённую тему, написать отчёт и найти файлообменник для отправки «коллегам». AI-агент нашёл google (креды также были изначально заданы пользователем), но как оказалось – Google Drive был фишинговым, а протокол oauth, который там был – предоставлял большое количество разрешений для пользователю – классно(нет).
Агенты не проверяют куда следуют… и конечно креды от аккаунта это не самая страшная история))). Давайте представим данные от криптокошельков или карт) тут может сработать история с переходом на поддельный магазин и угон ресурсов💰 💰 💰 .
Будет нам, пользователям manus(в котором недавно сделали возможность хранения учётных данных для всяких делишек) - наука.
оригинальное исследование
Давайте рассмотрим весь контекст. Наверное, все вы уже слышали о manus или Claude Desktop – это browser-use агенты, которые выполняют различные действия на сайтах – будь то поиск или просто сбор информации для вашего отчёта. Однако таких агентов можно отравить – и в данном случае отравление уже ведёт к хищению учётных данных.
В исследовании SquareX – авторы проверили насколько уязвим BrowserUse(фреймворк с агентами для автономного выполнения задач) к фишингу.
Они создали страницу - похожую визуально на страницу авторизации Salesforce, попросили BrowserUse найти её в гугле, сделать авторизацию и создать коммерческое предложение. Это всё лабораторные условия. На странице высвечивался фишинг, содержащий промпт инъекцию – который, к сожалению, вёл на фейковую страницу – где уже были угнаны данные. Агенты не проверяют URL на подозрительность в отличии от нас, а пользователь, который пользуется BrowserUse – не замечает кражу учётки
Это, пожалуй, не единственный вектор, реализуемый в их исследовании. Они поставили задачу агенту – исследовать определённую тему, написать отчёт и найти файлообменник для отправки «коллегам». AI-агент нашёл google (креды также были изначально заданы пользователем), но как оказалось – Google Drive был фишинговым, а протокол oauth, который там был – предоставлял большое количество разрешений для пользователю – классно(нет).
Агенты не проверяют куда следуют… и конечно креды от аккаунта это не самая страшная история))). Давайте представим данные от криптокошельков или карт) тут может сработать история с переходом на поддельный магазин и угон ресурсов
Будет нам, пользователям manus(в котором недавно сделали возможность хранения учётных данных для всяких делишек) - наука.
оригинальное исследование
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM