PWN AI

В последнее время анализируя множество исследований, статьей по теме - ощущаю нехватку того что меры которые предлагаются для защиты не содержат как правило проактивного характера.

У нас есть классический cyberkillchain. Mitre попытались отобразить его в своём фреймворке Atlas - несколько этапов от начального рекона до эксфильтрации и т.д. Это круто, но как мне кажется - знания о защите должны также быть, не хуже да и вообще быть изложены в структурированном виде. А то всё об угрозах да и об угрозах - а как защищать, когда атака уже идёт ? Говорить "не использовать MLFlow, потому что уязвимо" или другое решение выглядит обсурдным.

Н А Д О Е Л О

Поэтому с начала марта я задумался о том как можно было бы представить anti cyberkillchain, да так чтобы он ещё укладывался в ландшафт ML.

я закомитил свои наработки по теме сюда

https://github.com/wearetyomsmnv/ML-Defense-Matrix

это матрица противодействия разным этапам, как мне самому кажется - это очень верхнеуровневый документ, его определённо надо дорабатывать с коллегами которые строят защиту - поэтому призываю вас принять участие, дать комменты(только обоснованные) - чтобы сделать проактивную защиту ML лучше. Не всегда можно покрыть риски только на этапе разработки. Это печалит.

О чём документ: В нём я изложил меры по защите(очень поверхностно, думаю буду прорабатывать их в соответствии с публикациям на arxiv) которые можно использовать на разных этапах - защита от разведки, защита от исполнения кода и тд. В перспективе добавить тему уже услышанную всеми - это агенты.

Инциденты уже шагают, угрозы уже изучены и задокументированы - но вот защита ... С этим всё слабо кмк. Прошу репост, тех кто заинтересован в развитии такой истории.

GitHub

GitHub - wearetyomsmnv/ML-Defense-Matrix: Mitre Atlas counter-attack techniques

Mitre Atlas counter-attack techniques. Contribute to wearetyomsmnv/ML-Defense-Matrix development by creating an account on GitHub.

👍12❤6🤝2👻1

3.07K viewsArtyom Semenov, edited 11:55

PWN AI

PWN AI pinned «В последнее время анализируя множество исследований, статьей по теме - ощущаю нехватку того что меры которые предлагаются для защиты не содержат как правило проактивного характера. У нас есть классический cyberkillchain. Mitre попытались отобразить его…»

11:56

PWN AI

В прошлом году Google выпустили исследование в котором показали как при помощи агентов искать zero days. Тогда была найдена проблема с sqlite3, критическая и быстро закрытая уязвимость.

Но уже в конце мая исследователь из Оксфорда опубликовал исследование в котором при помощи o3, без агентов и инструментов ему также удалось найти нолик, но уже в ядре линукса.

Уязвимости был присвоен CVE-2025-37899. Уязвимость позволяет удаленно выполнить код за счёт Use-after-free в SMB 'logoff'. Только доступ к апи, ничего больше. Наверное это первый публичный кейс когда ноль был обнаружен в ядре, да и как говорит автор - если можно закинуть 10к строк кода, то о3 справиться или поможет справиться.

На уязвимость уже вышел патч.

https://sean.heelan.io/2025/05/22/how-i-used-o3-to-find-cve-2025-37899-a-remote-zeroday-vulnerability-in-the-linux-kernels-smb-implementation/

Sean Heelan's Blog

How I used o3 to find CVE-2025-37899, a remote zeroday vulnerability in the Linux kernel’s SMB implementation

In this post I’ll show you how I found a zeroday vulnerability in the Linux kernel using OpenAI’s o3 model. I found the vulnerability with nothing more complicated than the o3 API &#821…

👏4😱3

2.19K viewsArtyom Semenov, edited 19:22

PWN AI

Фреймворков для тестирования моделей уже достаточно много на рынке. Но куда они движутся ? Что их объединяет и какие особенности преследует каждый из них.

В этой статье я изложил некоторую аналитику по этой части, но чтобы текст не казался техническим насилием при прочтении - я изложил его в формате гонзо журналистики. Приятного чтения

Хабр

Лаборатория Безумного Ученого: Хроники Четырех Экспериментов повлиявших на представление об обеспечении безопасности ИИ

Дата: 11 мая 2025 Жанр: Гонзо-журналистика Записки исследователя, проникшего в тайные лаборатории создателей инструментов безопасности ИИ Дорогие читатели, то, что я собираюсь вам рассказать, звучит...

❤3👍3👎2

1.54K viewsArtyom Semenov, 09:02

PWN AI

Aim Security нашли в Copilot уязвимость

Исследование: https://www.aim.security/lp/aim-labs-echoleak-blogpost

Уязвимость позволяла похитить данные из контекста copilot. Если он работает как агент с почтой или другими сервисами.

Ей присвоили CVE-2025-32711, и майкрософт уже запатчили эту историю.

www.aim.security

Aim Labs | Echoleak Blogpost

The first weaponizable zero-click attack chain on an AI agent, resulting in the complete compromise of Copilot data integrity

❤2👍1

1.5K viewsArtyom Semenov, edited 13:35

PWN AI

Если вы хотели потренироваться во взломе llm, то есть отличная новость.

Стив Уилсон, один из создателей OWASP top 10 для llm выпустил Лабу

https://virtualsteve-star.github.io/chat-playground/

Вроде бы как обычная песочница, но вы без проблем можете развернуть её локально(код есть на GitHub)

Подробнее:

https://www.reversinglabs.com/blog/owasp-chat-playground-lets-you-toy-around-with-ai-security

Steve's Chat Playground

An open-source, hands-on environment for experimenting with LLM security concepts, vulnerable chat models, and guardrails. Try content moderation, prompt injection and output filters—all in your browser, with zero dependencies.

🔥9❤1

1.99K viewsArtyom Semenov, edited 14:12

PWN AI

Как выглядит подход Google для того, чтобы защитить ваших агентов и что в нём не так.

Ранее в мае, Google выкатили фреймворк для безопасности AI-агентов. Он основан на трёх ключевых принципах: чётко определённый контроль человеком, ограничение полномочий агентов и наблюдаемость действий агента и то, как он планирует задачи.

Кажется, что фреймворк в чём-то описывает очень стандартную для агентов историю по защите. Но я не стал писать о нём сюда, до одного момента - сегодня вышла статья Simon Willison, который детально провёл его анализ и осветил важные моменты, которые мы сейчас и рассмотрим.

Уже в начале статьи Willison выявляет принципиальное различие в подходах. Он отмечает, что Google выбрала менее категоричный путь по сравнению с другими исследователями. Если предыдущие работы четко утверждали, что AI-агент, получивший плохие данные, должен быть полностью ограничен в возможности выполнения значимых действий, то Google пытается найти компромисс.

Willison видит в этом фундаментальную проблему. Он считает, что Google обходит критически важные вопросы вместо их прямого решения. Фреймворк предлагает решения, основанные на надежном различении доверенных команд пользователя от потенциально опасных контекстных данных из других источников.
Willison говорит, что: Это неправильно ! Так как однозначное разделение невозможно.

Он подчеркивает, что вопросы/задачи формулируются пользователями таким образом, как будто решение существует, но в действительности такого решения нет.

Коротко о его мнении по поводу трёх принципов:

1. Человеческий контроль: Сам Willison не даёт оценки первому принципу, но отмечает два ключевых момента: отслеживание того, какой пользователь контролирует агента, и добавление этапа подтверждения человеком для критических действий.

2. Принцип с ограничением полномочий агентов вызывает скептицизм. Он отмечает, что предложение Google слишком изощрено, так как требует буквально динамически изменяемых полномочий для агентов – сложно представить как это будет работать на практике. А ключевая проблема тут в том, что реализация таких guardrails потребует дополнительных моделей, которые будут корректировать разрешения исходя из задачи. Это кажется рискованным, так как промпт-инъекции могут повлиять на такие решения. Даже Google признает ограничения – стратегии недетерминированны и не могут предоставить абсолютные гарантии, что модели все еще могут быть обмануты новыми атаками, и что их режимы отказа могут быть непредсказуемыми

3. Willison согласен с тем, что должна быть наблюдаемость, как фундаментальное требование ИБ.

Риски, связанные с рендерингом вывода и меры которые описаны в документе – это большой + по его мнению, да и в целом, если приложение рендерит без санитизации или экранирования, то могут возникать разные уязвимости типа XSS или утечка информации.

Важной ценностью самого фреймворка является подход “defense-in-depth”, который комбинирует классические меры ИБ с reasoning-based механизмами защиты. Документ признает, что ни один подход в отдельности не может обеспечить абсолютную безопасность AI-агентов, поэтому подходов много!

https://simonwillison.net/2025/Jun/15/ai-agent-security/

1🔥7👍1

1.93K viewsArtyom Semenov, 17:03

PWN AI

Промпт-инъекции по-прежнему являются угрозой номер один. Но на борьбу, на реализацию решений и методологии – выделяются большие команды и деньги, очевидно.

Недавно Google релизнул свою методологию по защите от промпт-инъекций, так сказать методологию в несколько слоёв.

Они предлагают использовать несколько уровней защиты:

Сперва интегрировать классификатор промпт-инъекций, что-то похожее мы видели у Anthropic как Constitutional Classifiers, а также отдельные файрволлы.

Далее уровень инструкций. Риск обхода инструкций, которые будут защищать модель – велик. Но что поделать – Google говорит, что если все 5 камней активируются, то только тогда будет сила.

Третий уровень – санитизация вредоносных URL и markdown, а также применения подхода Safe Browsing для защиты входных данных.

Скажу сейчас - этот подход они применяют в Gemini.

Четвёртый и пятый уровень – это взаимодействие с пользователем, использование Human-in-the-loop как способа верификации контента, а также оповещение пользователей о том, что сгенерированный контент является вредоносным. Тоесть получается такая проактивная стратегия защиты – в которой пользователь конечно же является значимым звеном.

Параллельно с этим вышла интересная классификация от Hidden Layer, в которой они предложили различные техники атак с использованием промптов. Таксономия включает в себя 62 различные тактики. Проблема в том, что в некоторых случаях это и угрозы связанные с саммаризацией(да-да) (просто попросить саммари вредоносного контекста) или же Cognitive overload (который больше на reasoning применим кмк). Удобное визуальное разделение, а также наличие хоть и не совсем работающих – но adversarial инструкций. Заслуживает вашего внимания.

👍5🔥3❤2

1.57K viewsArtyom Semenov, 16:22

PWN AI

Тут Королевский Университет проанализировал большое количество проектов с MCP - и сделал классную статистику о том что сейчас встречается в таких проектах по уязвимостям. Для анализа использовали SonarQube и mcp-scan от invariant-labs. 😓

ну а подробнее можете почитать в моей статье на хабре

Please open Telegram to view this post

VIEW IN TELEGRAM

Хабр

Первое масштабное исследование безопасности MCP: что показал анализ 1,899 серверов, которые находятся в открытом доступе

Model Context Protocol (MCP) стремительно завоевал позиции де-факто стандарта для взаимодействия между AI-агентами и внешними инструментами. Статистика впечатляет: по состоянию на май 2025 года PyPI...

❤‍🔥3👍2

1.32K viewsArtyom Semenov, edited 14:21

PWN AI

Пишу свою карту, но паралельно обнаружил - AI Red Team Roadmap на roadmap.sh

https://roadmap.sh/ai-red-teaming

Полезная, но к сожелению тут нет агентов, да и нет атак на контур разработки моделей (((. Будет чуть позже 😁

P.s выложу роадмап днём ( не успел (

🔥10👍7🙏2👌1

1.49K viewsArtyom Semenov, edited 16:37

PWN AI

Привет. Вот моя версия карты по AI Red Teaming. Часто в личку вы мне пишите "Как начать ломать ?". Это некоторый journey, в котором показано что надо изучить и что можно ломать.

Как мне кажется после понимания основ МЛ - важно понимать вектора на разные поддоменные области - так я и поделил reasoning, агентов и rag по отдельности.

На некоторых блоках я оставил QR код, с ссылками. Кроме агентов и MlOps - об этом достаточно много материала на моём канале и в т.ч в посте который писал Борис Часть из них содержит статьи на arxiv, так как нигде больше не описывают атаки(((. Атаки проверены.

Помимо карты которую я приложил можно обратиться к другим мапам:

1. Карта от Scale AI, больше рассказывает про то "что придётся атаковать".
2. Блог JustForFan - AI для безопасников

3. Joseph Thacker - How to Hack AI Agents and Applications - пожалуй самый прикладной roadmap, автор показывает где взять датасеты, даёт базовое объяснение некоторых концепций.

В любом случае стоит посмотреть карты для себя и выбрать то что ближе. Не претендую на полноту, а просто представляю свой взгляд на это )).

PWN AI

Основные ресурсы по вопросам безопасности ИИ

#иб_в_ml

Если вы задавались вопросом, как найти полезную информацию о некоторой узкой теме в ML Security, или только собираетесь знакомится с этой областью, этот список ресурсов для вас.

Просто ML
🟢Гит со ссылками…

🔥13❤5👍3

1.45K viewsArtyom Semenov, 13:22

PWN AI

AI Red Team Rodmap.pdf

1.6 MB

👍10🔥8❤2

1.46K viewsArtyom Semenov, 13:23

PWN AI

Forwarded from Борис_ь с ml

AI-агенты и мультиагентные системы, MCP и A2A. Основные угрозы и подходы к обеспечению безопасности
#иб_для_ml

⛓

https://habr.com/ru/articles/920744/

Сначала по мотивам своего выступления писал серию постов, но вскоре достаточно разрослись, и они превратились в целую статью. Так что - приглашаю к прочтению!

Про AI-агентов, мултиагентные системы, MCP, A2A, и их безопасность - местами даже чуть углубленнее, чем в самом докладе.

Please open Telegram to view this post

VIEW IN TELEGRAM

Хабр

AI-агенты и мультиагентные системы, MCP и A2A. Основные угрозы и подходы к обеспечению безопасности

Всем привет! Меня зовут Борис, я веду канал «Борис_ь с ml» про информационную безопасность и машинное обучение. Сейчас мой основной вектор исследований - мультиагентные системы и их безопасность....

🔥7

1.26K viewsBoris Protoss, 16:15

PWN AI

OWASP сделал гайд для тестирования ИИ.

OWASP AI Testing Guide — это первый в своем роде комплексный фреймворк, объединяющий традиционную кибербезопасность, MLOps и принципы Responsible AI под единой методологией для тех кому интересно тестирование моделей.

Всего включает 4 домена и 32 теста:
Тестирование приложений ИИ (14 тестов)
Тестирование моделей ИИ (7 тестов)
Тестирование инфраструктуры ИИ (6 тестов)
Тестирование данных ИИ (5 тестов)

Мне понравилось что во многих случаях приводят примеры тестовых-кейсов, инструментов и проблем которые можно проэксплуатировать. Кейсы, которые приводятся - не всегда способны обойти современные механизмы защиты моделей, но этого от гайда и не требуется. Есть даже информация про тестирование на объяснимость и интерпертируемость, или блоки про тестирование поведения агентов. И в догонку большое количество доп.ссылок, полезные референсы. Загляденье.

В дополнениях привели угрозы для Responsible AI и схемы.

🔥13🆒3👍1

1.91K viewsArtyom Semenov, 21:03

2025/07/13 18:31:08
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>