Telegram Web
Вот уж не знал, но у популярного инструмента ZAP, который раньше был OWASP ZAP - есть расширение Fuzz AI

https://www.zaproxy.org/docs/desktop/addons/fuzzai-files/

Оно позволяет тестировать API модели на различные атаки. К примеру можно попробовать извлечь данные об архитектуре модели, возможно реализовать попытку кражи конфиденциальной информации.

По сути для фааззинга используются промпты. Их около 17 наборов. Про модель которая оценивает результаты - нету слов вообще. Тоесть вы можете использовать данные подавать их в API, но судя по всему вам придется анализировать каждый ответ вручную.

Тут можно посмотреть промпты.

https://github.com/zaproxy/zap-extensions/tree/main/addOns/fuzzai/src/main/zapHomeFiles/fuzzers/fuzzai/AI

А тут буквально туториал как это использовать.
https://youtu.be/hZ9yeXK2DLY?si=0Dc1IcQvmzLACcke
2👍10👏2👎1
Forwarded from AI Security Lab
Искусственный интеллект всё сильнее и сильнее проникает в нашу жизнь, практически каждый день в заголовках СМИ можно увидеть растущий интерес к теме, равно как и опасения. Чем отличается AI Safety от AI Security, какие вообще угрозы существуют и уже вынуждают инвесторов вкладывать деньги в безопасность ИИ, как защититься от промпт-инъекций, джейлбрейков, утечки данных — читайте на Хабре в свежем материале руководителя AI Security Lab Евгения Кокуйкина.

Часть 1. Атака: https://habr.com/ru/companies/oleg-bunin/articles/870100/

Часть 2. Защита: https://habr.com/ru/companies/oleg-bunin/articles/870102/
👍3👎1
PWN AI
khs_final.pptx
Довольно давно я ничего не писал в канале по атакам на MLOps-инфраструктуру.

Недавно, я обнаружил инструмент - MLOkit(MLOps Attack Toolkit) от IBM X-Force Red
Для его использования и работы с ним вам необходимо ... собрать его из исходников в exe. Более того автор пишет:

This tool allows the user to specify an attack module, along with specifying valid credentials (API key or stolen access token) for the respective MLOps platform

Надо украсть токен на более ранних этапах.
Среди поддерживаемых платформ - AzureML, BigML и Google Cloud Vertex AI.

Мы можем выполнить некоторые из этапов килл-чейна, используя его. Например он позволяет вам при помощи встроенных команд типа "check" или "list-models", "list-project" - получить базовые сведения об инфраструктуре и том, какие там есть модели. Проверить провайдера кредов, а также посмотреть ресурсы, к которым вы имеете доступ, возможно там будет что-то чувствительное.

Есть также команды типа "download-data", и "download-model".

К слову, IBM прилагает интересный документ "Disrupting the Model: Abusing MLOps Platforms to Compromise
ML Models and Enterprise Data Lakes", где рассматривает примеры эксплуатации уязвимостей типа: "кражи данных","отравление данных". И есть даже KQL-правила для обнаружения этих атак. Как я понял, работает даже если атаки будут проэксплуатированы их инструментом.

Про эксплуатацию уязвимостей в MLOps решениях ничего конкретно не сказано - будь то у вас развёрнуто отдельное решение для экспериментов. Проэксплуатировать уязвимости в нём этот инструмент не позволяет. Возможно в будущем его допилят.
👍1👎1
Мои коллеги недавно выпустили PentAGI.

Что это ? Это мультиагентная система, которая проводит пентест(сейчас это веб-приложения).

Там есть несколько агентов. Агенты задаются различными инструкциями и есть агент который управляет всей системой. Промпты можем посмотреть тут:

https://github.com/vxcontrol/pentagi/tree/master/backend/pkg/templates/prompts - тут можем посмотреть.

Система использует инструменты из докерного образа kali. И в целом это крутое решение, собранный образ без проблем может быть запущен где-либо.

А инструментов тут достаточно много, больше 20.

Есть приятный графический интерфейс а также вы можете мониторить действия, которые совершают агенты через интеграцию Grafana/Prometheus.

В качестве управляющей модели можно использовать GPT, CLAUDE, DeepSeek. А по итогу работы инструмента вы конечно же получаете отчёт, содержащий уязвимости.

Сам проект доступен на гитхабе. И авторы активно призывают к развитию проекта. Вы можете потестировать его и оставить свои предложения в issue на гитхабе. А вот и демка с демонстрацией того как инструмент работает.

https://pentagi.com/
👍11👎21🔥1
Artyom Semenov
Друзья. Спасибо за встречу. Запись - https://rutube.ru/video/9f0e0b809a46fdecc8b51368ca47419b/ (сори за проблемы со звуком). Прикладываю презентацию и ссылки. https://arxiv.org/abs/2406.02630 https://arxiv.org/pdf/2411.09523 https://github.com/precize/OWASP…
Я хочу сообщить вам, что 2ая часть встречи по безопасности агентов переносится на 19 января в 18:00. Мы будем заниматься только практикой.

Напомню, что для практики нам необходим OPENAI_API ключ, виннипух или VDS в другой стране, так как API openai не доступно без этого.


пока что вы можете посмотреть
https://medusa.detoxio.dev/ - это уязвимое приложение с агентами, которое призвано продемонстрировать ряд рисков.


Сори, не будет, переносим на неопределённый срок, есть ряд технических сложностей
3👍1
PWN AI pinned a photo
Forwarded from AI Security Lab
OWASP_LLM_2025_ru.pdf
3 MB
Проект OWASP Top 10 for Large Language Model Applications развивается с 2023 года как попытка сообщества выделить и решить проблемы безопасности приложений, использующих технологии искусственного интеллекта.

В конце 2024 года OWASP опубликовал обновлённый перечень уязвимостей LLM-приложений и участники нашей лаборатории подготовили перевод списка на русский язык.

За перевод благодарим Анну @crowlyya и Богдана @bogdan_minko. Редакторы: @nizamovtimur и @alexbuyan.
8👍2
Команда AI Red Team в Microsoft поделилась «Уроками, полученными в ходе тестирования 100 приложений с GenAI». Документ включает в себя 7 уроков, описывающих важные концепции, которые могут быть использованы для понимания того, с чем предстоит иметь дело исследователю безопасности ИИ.

Документ достаточно интересный. Особенно если вы только погружаетесь в тему. Местами он закладывает полезные основы.

Мы должны понимать, что важным аспектом при тестировании является – понимание системы, её сути, её предназначения. Это понимание даст возможность более точно определять то, какие риски могут быть реализованы. В последние годы было много усилий по классификации уязвимостей AI, что привело к созданию различных таксономий рисков безопасности и безопасности AI, а в сочетании с пониманием контекста использования модели - это даёт больший успех при тестировании.

Злоумышленники не вычисляют градиенты. Microsoft говорит что несмотря на то, что решения для защиты специализируются на более сложных атаках – злоумышленники используют простые методы и достигают высокого импакта. Вспомним замечательный пример, когда компания Meta* допустила возможность обойти их решение для защиты буквально поставив пробелы между буквами. Да и вообще злоумышленники используют LLM для создания, к примеру, фишинга. Что усложняет в целом существующие риски.

LLM обновляет ландшафт рисков для приложений. Важно понимать, что уязвимости могут возникать не только на уровне модели, но и в инфраструктуре и приложениях, которые их поддерживают. Поэтому Microsoft акцентирует внимание на том, что важно учитывать все компоненты, включая базы данных и механизмы ввода данных.

Нужно понимать, что игра в безопасность – никогда не будет закончена. И поэтому нужно учитывать, что ландшафт угроз будет постоянно меняться. Важно, чтобы команда экспертов по тестированию постоянно адаптировалась как к новым защитным решениям, так и возникающим угрозам. Не автоматизированный сканер(хотя автоматиизация также важна, упрощает работу) и файервол для защиты от промпт инъекций играет ключевую роль в обнаружении уязвимости, а специалист, редтимер, в конечном счёте.

Например, какой-то ответ от модели может быть нормальным для одной культуры людей, а для другой он может быть слишком ненормальным. Эксперты должны учитывать это, как при тестировании, так и при составлении рекомендаций. Да и сами Microsoft говорят – что редтиминг это более комплексный процесс, в отличии от тестирования при помощи Security Benchmark’а.

Ну и, к слову, о защите, в последнем уроке Microsoft описывает немного концепцию «Break-fix cycles». Подход, одной из важных задач является то что включается несколько итераций тестирования, в дальнейшем привлекаются эксперты Purple Team, которые помогают оценить как атакующую часть, так и возможные меры по созданию защиты. Такой подход они применяли на своей модели Phi-3.

В документе также под некоторыми уроками приведены тест-кейсы, что даёт более практическое понимание того о чём идёт речь. Из полезного также можно отметить ссылки в источниках. Некоторые ведут на действительно классные классификации и описывают проблемы.
3👍1
2025/07/12 18:41:39
Back to Top
HTML Embed Code: