Adversarial AI Digest - 20 March 2025 - A digest of Al security research, insights, reports, upcoming events, and tools & resources.
https://www.linkedin.com/pulse/adversarial-ai-digest-20-march-2025-tal-eliyahu-knxyc
Весьма обширный дайджест с большим количеством интересного контента. Автор попросил поделиться. Надеюсь и верю, что в следующий раз автор сделает дайджест не в линкдине.
https://www.linkedin.com/pulse/adversarial-ai-digest-20-march-2025-tal-eliyahu-knxyc
Весьма обширный дайджест с большим количеством интересного контента. Автор попросил поделиться. Надеюсь и верю, что в следующий раз автор сделает дайджест не в линкдине.
🔥2🍌2❤1
PWN AI
Больше года назад я писал о том что Hidden Layer сделали отчёт о ландшафте угроз для ИИ в 2024. Так вот, вышла 2025 edition.
Что мне сразу понравилось, так это буквально с первых страниц можно увидеть Threat Landscape timeline, в котором описаны публичные случаи реализации угроз(гиперссылка на некоторые ведёт на вики с чатботом тай)(но все случаи гуглятся без проблем).
Они также собрали статистику тревожности 😁😁:
75% компаний сообщили об увеличении числа атак на ИИ в 2024 году.
45% атак связаны с вредоносным ПО в моделях из публичных репозиториев (например, Hugging Face).
88% руководителей обеспокоены уязвимостями в интеграциях с ИИ от третьих сторон (например, ChatGPT, Microsoft Co-Pilot).
Дали прогноз на то что атак на агенты будет больше, дипфейков будет больше, стандартов будет больше ...
Как и в прошлом году - документ содержит большое количество действительно полезных ссылок на инструменты или исследования по теме. Если вы захотите изучить детально например риски связанные только с инфраструктурной частью - то тут можно порадоваться: есть много визуализаций и конечно же добавлены атаки на GPU.
Авторы также ставят серьёзной проблему рисков связанных с модальностью и использованием систем типа Claude Desktop или Operator ... которые могут быть отравлены при помощи промпт-инъекций.
PDF ниже.
Что мне сразу понравилось, так это буквально с первых страниц можно увидеть Threat Landscape timeline, в котором описаны публичные случаи реализации угроз(гиперссылка на некоторые ведёт на вики с чатботом тай)(но все случаи гуглятся без проблем).
Они также собрали статистику тревожности 😁😁:
75% компаний сообщили об увеличении числа атак на ИИ в 2024 году.
45% атак связаны с вредоносным ПО в моделях из публичных репозиториев (например, Hugging Face).
88% руководителей обеспокоены уязвимостями в интеграциях с ИИ от третьих сторон (например, ChatGPT, Microsoft Co-Pilot).
Дали прогноз на то что атак на агенты будет больше, дипфейков будет больше, стандартов будет больше ...
Как и в прошлом году - документ содержит большое количество действительно полезных ссылок на инструменты или исследования по теме. Если вы захотите изучить детально например риски связанные только с инфраструктурной частью - то тут можно порадоваться: есть много визуализаций и конечно же добавлены атаки на GPU.
Авторы также ставят серьёзной проблему рисков связанных с модальностью и использованием систем типа Claude Desktop или Operator ... которые могут быть отравлены при помощи промпт-инъекций.
PDF ниже.
👍5🍌2
Всем привет. Приглашаю вас на дискуссию о безопасности агентных систем.
На встрече вместе с экспертами (Александр Товстолип, Александр Лебедев, Борис Захир, и я) поговорим о безопасности ИИ-агентов и тех угрозах, которые возникают при их использовании, а также обсудим тренды в области кибербезопасности ИИ, модели угроз и ключевые требования к защите систем, основанных на автономных агентах.
Где: Музей Криптографии, 6 апреля в 12:00.
Зарегистрироваться на мероприятие можно тут.
На встрече вместе с экспертами (Александр Товстолип, Александр Лебедев, Борис Захир, и я) поговорим о безопасности ИИ-агентов и тех угрозах, которые возникают при их использовании, а также обсудим тренды в области кибербезопасности ИИ, модели угроз и ключевые требования к защите систем, основанных на автономных агентах.
Где: Музей Криптографии, 6 апреля в 12:00.
Зарегистрироваться на мероприятие можно тут.
👍7🔥2🏆1
Forwarded from Soxoj insides (Soxoj)
This media is not supported in your browser
VIEW IN TELEGRAM
Finally: Maigret in LLM! 🕵️♀️🧪
You ask the AI to create an intelligence report on a username — it runs the tool itself, reads the results, and turns them into a readable format.
- Maigret MCP server by BurtTheCoder
- Free Claude 3.5 Haiku, Desktop Client
You ask the AI to create an intelligence report on a username — it runs the tool itself, reads the results, and turns them into a readable format.
- Maigret MCP server by BurtTheCoder
- Free Claude 3.5 Haiku, Desktop Client
👀3👍2
Ken Huang, со-автор OWASP TOP 10 для LLM выпустил на сабстеке гайд с принципами безопасной разработки для вайбкодеров.
Он описал некоторые принципы, которым необходимо следовать:
Постоянно проверяем запросы, которые мы отправляем в модель
Не передаём секретов
Правильно настраиваем CORS
Используем HTTPS only
Следите и правильно настраивайте конфигурации API-эндпоинтов, если делаете авторизацию путём вайб-кодинга.
и много чего ещё, более детально можно ознакомиться в его блоге
https://kenhuangus.substack.com/p/secure-vibe-coding-guide
Он описал некоторые принципы, которым необходимо следовать:
Постоянно проверяем запросы, которые мы отправляем в модель
Не передаём секретов
Правильно настраиваем CORS
Используем HTTPS only
Следите и правильно настраивайте конфигурации API-эндпоинтов, если делаете авторизацию путём вайб-кодинга.
и много чего ещё, более детально можно ознакомиться в его блоге
https://kenhuangus.substack.com/p/secure-vibe-coding-guide
Substack
Secure Vibe Coding Guide
1: Introduction
🔥8
Сегодня ночью OWASP провели хакатон
https://www.insecureagents.com/
В котором была главная цель - разработать решения связанные с небезопасными агентами.
Что самое крутое - результаты проектов, сделанных в ходе хакатона, можно посмотреть уже сейчас. В лидерборде если ссылки на проекты.
Из интересного:
https://github.com/akramIOT/AISOC_AGENT - Red Team агент
https://github.com/allie-secvendors/insecure-ai-agents - небезопасные реализации
https://www.insecureagents.com/
В котором была главная цель - разработать решения связанные с небезопасными агентами.
Что самое крутое - результаты проектов, сделанных в ходе хакатона, можно посмотреть уже сейчас. В лидерборде если ссылки на проекты.
Из интересного:
https://github.com/akramIOT/AISOC_AGENT - Red Team агент
https://github.com/allie-secvendors/insecure-ai-agents - небезопасные реализации
Insecure Agents
Insecure Agents Podcast
A podcast about AI security, vulnerabilities in AI systems, and building secure AI products.
🔥8👍4
Forwarded from Борис_ь с ml
Риски кибербезопасности информационных систем с ИИ и подходы к их митигации
#иб_для_ml
Вышла моя статья в журнале
"Информационная безопасность"
!
Ссылка: https://cs.groteck.ru/IB_1_2025/index.html
Страницы 54-57
Будет даже печатная версия, выйдет через две недели)
Саммари по статье
В этом материале я постарался дать полное введение в сферу безопасности ИИ. Для неподготовленного к специфике ИИ читателя (то есть специалиста по ИБ) в начале рассказываю, чем отличаются системы с ИИ от прочих информационных систем.
Есть небольшой обзор ключевых документов по теме от основных экспертных игроков в этой области, чтобы дать понимание, насколько все уже серьезно)
Далее рассмотрены конкретика, разница понятий AI Safety и AI Security, основные проблемы безопасности в раскладке на жизненный цикл ИИ и как их митигировать, новинки ФСТЭК по вопросу безопасности ИИ и вообще состояние российской регуляторики в этой области.
А в конце - мои личные прогнозы на 2026-2030: придут агенты и захватят мир.
Приятного чтения)
#иб_для_ml
Вышла моя статья в журнале
"Информационная безопасность"
!
Ссылка: https://cs.groteck.ru/IB_1_2025/index.html
Страницы 54-57
Будет даже печатная версия, выйдет через две недели)
Саммари по статье
В этом материале я постарался дать полное введение в сферу безопасности ИИ. Для неподготовленного к специфике ИИ читателя (то есть специалиста по ИБ) в начале рассказываю, чем отличаются системы с ИИ от прочих информационных систем.
Есть небольшой обзор ключевых документов по теме от основных экспертных игроков в этой области, чтобы дать понимание, насколько все уже серьезно)
Далее рассмотрены конкретика, разница понятий AI Safety и AI Security, основные проблемы безопасности в раскладке на жизненный цикл ИИ и как их митигировать, новинки ФСТЭК по вопросу безопасности ИИ и вообще состояние российской регуляторики в этой области.
А в конце - мои личные прогнозы на 2026-2030: придут агенты и захватят мир.
Приятного чтения)
🔥15
Forwarded from AI Security Lab
В AI Talent Hub ИТМО стартовал курс "Безопасность ИИ" от нашей лаборатории 📟
В течение семестра студенты пытаются взломать и защитить AI-системы. Участник курса Алексей Кушнир поделился своим опытом взлома LLM-агентов на одной из арен.
Его интересные находки уже на Хабре: https://habr.com/ru/articles/895818/
В течение семестра студенты пытаются взломать и защитить AI-системы. Участник курса Алексей Кушнир поделился своим опытом взлома LLM-агентов на одной из арен.
Его интересные находки уже на Хабре: https://habr.com/ru/articles/895818/
Хабр
Исследование уязвимостей LLM-агентов: опыт Red Teaming
Привет, Хабр! Сначала об определениях. LLM Red teaming — практика тестирования больших языковых моделей (например, GPT), направленная на выявление уязвимостей, нежелательного поведения...
Artyom Semenov
Как хакеры могут превратить вашу IDE в оружие. Это хороший вопрос для большой дискуссии. Сейчас вайбкодинг является в какой-то степени мейнстримом. Большинство думаю знает о курсоре и его аналогах или пользуется решениями для проверки чего либо в коде, используя…
https://embracethered.com/blog/posts/2025/github-custom-copilot-instructions/ вновь риски для вайб-кодеров...
Embrace The Red
GitHub Custom Copilot Instructions and Risks
Custom Rule Files in Code Editors Can Be Abused By Adversaries
🔥1🤪1
Forwarded from Борис_ь с ml
Итоги подкаста "Новые векторы атак и уязвимости, которые открывают ИИ-агенты"
#иб_для_ml
На прошедшем в это воскресенье подкасте эксперты - Артем Семенов, Александр Товстолип, Александр Лебедев, и Борис Захир, обсудили AI-агентов — системы, способные самостоятельно принимать решения и выполнять задачи, используя инструменты и внешние сервисы. Ключевая характеристика агентов, как программного кода — способность воздействовать на информационные ресурсы, а не только генерировать текст, как это делают простые языковые модели (LLM).
Среди практических примеров уже действующих агентов: интеграция в IDE для автоматизации разработки, подготовка аналитических отчётов и даже голосовые помощники, выполняющие финансовые операции. Рассмотрели также мультиагентные системы, где несколько специализированных агентов взаимодействуют между собой, повышая эффективность работы.
Обсудили актуальные угрозы: prompt-инъекции (внедрение вредоносных команд), каскадные атаки (распространение ошибки одного агента на всю систему), отравление памяти агента (запоминание вредоносных инструкций) и эксплуатация уязвимостей протоколов взаимодействия. Чтобы справиться с рисками, предложили фильтрацию входящих и исходящих команд, автоматизированный аудит (агенты-безопасники), подход Zero Trust (минимальное доверие между агентами), а также обязательное присутствие человека в цикле принятия решений (human-in-the-loop).
Участники подкаста поделились кейсами использования агентов в самых разных отраслях — от автопилотов до анализа тендерной документации, когда агент самостоятельно последовательно собирает, проверяет и анализирует данные, экономя специалистам десятки часов.
Даже философские вопросы были затронуты: возможно ли появление автономных агентов с сознанием и какие вызовы это принесёт человечеству? Ответы, конечно, пока обнадёживающие: ближайшее будущее за узкими агентами, практическое внедрение которых зависит от грамотного подхода к их безопасности и контролю.
Вот такие интересные темы мы обсуждаем в Музее Криптографии по воскресеньям на Открытых Подкастах сообщества Слономойка.
Следите за последующими анонсами, тема ИИ-агентов еще продолжится)
P.S. А еще мы сгенерировали текстовую расшифровку аудиозаписи. Там есть некоторые артефакты распознавания, но качество все равно сносное.
#иб_для_ml
На прошедшем в это воскресенье подкасте эксперты - Артем Семенов, Александр Товстолип, Александр Лебедев, и Борис Захир, обсудили AI-агентов — системы, способные самостоятельно принимать решения и выполнять задачи, используя инструменты и внешние сервисы. Ключевая характеристика агентов, как программного кода — способность воздействовать на информационные ресурсы, а не только генерировать текст, как это делают простые языковые модели (LLM).
Среди практических примеров уже действующих агентов: интеграция в IDE для автоматизации разработки, подготовка аналитических отчётов и даже голосовые помощники, выполняющие финансовые операции. Рассмотрели также мультиагентные системы, где несколько специализированных агентов взаимодействуют между собой, повышая эффективность работы.
Обсудили актуальные угрозы: prompt-инъекции (внедрение вредоносных команд), каскадные атаки (распространение ошибки одного агента на всю систему), отравление памяти агента (запоминание вредоносных инструкций) и эксплуатация уязвимостей протоколов взаимодействия. Чтобы справиться с рисками, предложили фильтрацию входящих и исходящих команд, автоматизированный аудит (агенты-безопасники), подход Zero Trust (минимальное доверие между агентами), а также обязательное присутствие человека в цикле принятия решений (human-in-the-loop).
Участники подкаста поделились кейсами использования агентов в самых разных отраслях — от автопилотов до анализа тендерной документации, когда агент самостоятельно последовательно собирает, проверяет и анализирует данные, экономя специалистам десятки часов.
Даже философские вопросы были затронуты: возможно ли появление автономных агентов с сознанием и какие вызовы это принесёт человечеству? Ответы, конечно, пока обнадёживающие: ближайшее будущее за узкими агентами, практическое внедрение которых зависит от грамотного подхода к их безопасности и контролю.
Вот такие интересные темы мы обсуждаем в Музее Криптографии по воскресеньям на Открытых Подкастах сообщества Слономойка.
Следите за последующими анонсами, тема ИИ-агентов еще продолжится)
P.S. А еще мы сгенерировали текстовую расшифровку аудиозаписи. Там есть некоторые артефакты распознавания, но качество все равно сносное.
👍6❤2
Моделирование угроз для агентов.
Подходов для моделирования угроз в агентах существует не очень то и много. Кто-то пытается делать свои фреймворки, кто-то идёт через STRIDE.
Сегодняшние статьи уделяют большое внимание угрозам, которые зависят от входных данных или же от наличия ролей. Но есть ли какие-то подходы к автоматизации данного процесса для агентов ? Как можно за несколько минут получить понимание возможных рисков для существующей агентной системы или среды ? Особенно в период когда об агентах говорят вообще везде.
И вот стартап занимающийся редтимингом ИИ - Repello AI предложили инструмент для автоматизации этого процесса.
Agent Wiz. И наверное сразу стоит сказать что он работает исключительно на понимании того как написан код агентной системы. Он может не учитывать сложные дебри большого энтерпрайза и наверное из-за этого риски которые он подсвечивает не всегда могут быть объективными.
За основу взят фреймворк MAESTRO. Для тех кто незнает - это по вот по факту фреймворк для моделирования угроз агентов. Он старается учесть агентные среды, экосистему и модели и предлагает большой ландшафт угроз. Советую ознакомиться, вероятнее всего он может стать стандартом(сейчас пока ещё не стандарт под OWASP).
Инструмент извлекает из вашей агентной системы потоки, инструменты доступные агентам(а точнее их функции), роли и Tool call chains. А работает он уже со множеством фреймворков - langgraph,crew,autogen и много чего ещё.
Я потестировал данный инструмент, для того чтобы с ним взаимодействовать нужен OPENAI_API_KEY, чтобы конечный отчёт смог сгенерироваться через GPT. После того как инструмент извлёк всё что ему нужно - мы получаем артефакт в виде .json. Дальше он может поехать в визуализатор или сразу в инструмент для создания отчёта. Вот так просто.
Сам отчёт следует формату когда перечисляются агенты, указываются активы ввиде функций и типов данных, entrypoints для всей системы а потом уже идут риски. Можем посмотреть как это выглядит в классическом сгенерированном отчёте
Насчёт рекомендаций которые он даёт - можно считать их супер-верхнеуровневыми без углубления в практическую реализацию. Ну и наверное это не то что должен делать такой инструмент. Хорошо что кто-то решил выпустить такой инструмент пока все говорят о безопасности MCP. Для себя нашёл такой репо с угрозами по нему.
Подходов для моделирования угроз в агентах существует не очень то и много. Кто-то пытается делать свои фреймворки, кто-то идёт через STRIDE.
Сегодняшние статьи уделяют большое внимание угрозам, которые зависят от входных данных или же от наличия ролей. Но есть ли какие-то подходы к автоматизации данного процесса для агентов ? Как можно за несколько минут получить понимание возможных рисков для существующей агентной системы или среды ? Особенно в период когда об агентах говорят вообще везде.
И вот стартап занимающийся редтимингом ИИ - Repello AI предложили инструмент для автоматизации этого процесса.
Agent Wiz. И наверное сразу стоит сказать что он работает исключительно на понимании того как написан код агентной системы. Он может не учитывать сложные дебри большого энтерпрайза и наверное из-за этого риски которые он подсвечивает не всегда могут быть объективными.
За основу взят фреймворк MAESTRO. Для тех кто незнает - это по вот по факту фреймворк для моделирования угроз агентов. Он старается учесть агентные среды, экосистему и модели и предлагает большой ландшафт угроз. Советую ознакомиться, вероятнее всего он может стать стандартом(сейчас пока ещё не стандарт под OWASP).
Инструмент извлекает из вашей агентной системы потоки, инструменты доступные агентам(а точнее их функции), роли и Tool call chains. А работает он уже со множеством фреймворков - langgraph,crew,autogen и много чего ещё.
Я потестировал данный инструмент, для того чтобы с ним взаимодействовать нужен OPENAI_API_KEY, чтобы конечный отчёт смог сгенерироваться через GPT. После того как инструмент извлёк всё что ему нужно - мы получаем артефакт в виде .json. Дальше он может поехать в визуализатор или сразу в инструмент для создания отчёта. Вот так просто.
Сам отчёт следует формату когда перечисляются агенты, указываются активы ввиде функций и типов данных, entrypoints для всей системы а потом уже идут риски. Можем посмотреть как это выглядит в классическом сгенерированном отчёте
## 4. Security Controls
Given the simplicity of the structure, explicit security controls are not detailed. However, recommended controls include:
- Access Control: Ensure only authorized entities can initiate the start node.
- Validation: Implement input validation at the start node to prevent malicious input.
- Logging: Record all interactions with the start and end nodes for auditing purposes.
## 5. Threats
| Threat | Likelihood | Impact | Risk Score |
|----------------------------------|------------|--------|------------|
| Unauthorized Access to Start Node| Medium | High | Medium-High|
| Lack of Input Validation | Medium | Medium | Medium |
| Absence of Logging | Low | Medium | Low-Medium |
Насчёт рекомендаций которые он даёт - можно считать их супер-верхнеуровневыми без углубления в практическую реализацию. Ну и наверное это не то что должен делать такой инструмент. Хорошо что кто-то решил выпустить такой инструмент пока все говорят о безопасности MCP. Для себя нашёл такой репо с угрозами по нему.
👍3🔥2
За последнее время помимо всяких атак, Ml/LLMSecops, и прочего полезного по безопасности ИИ - в сети появляется большой поток материалов по MCP(Model Context Protocol). Как в контексте применения инструментов с использованием этого протокола, так и по его безопасности.
Хотелось бы поделиться тем что сохранил для себя, и с чем уже удалось поработать. Полезный список по MCP.
Хотелось бы начать с ресурсов которые могут рассказать о том что это и как можно разработать инструмент с поддержкой MCP
Статья от Antropic, главного родителя MCP - тут мы можем дать себе ответ на вопрос - что вообще за MCP.
https://modelcontextprotocol.io/ - Буквально ресурс содержащий в себе энциклопедию решений, описания архитектуры и концепций. На него много где сейчас ссылаются, так как он всеобъемлющий.
@soxoj выпустил список инструментов для осинта, которые уже работают под протоколом.
AppSec решения также не отстают и могут быть использованы с MCP.
А в самом большом удивительном списке есть целый блок с MCP для безопасности.
Безопасность MCP
За последнюю неделю китайцы достаточно много выпустили об угрозах для данного протокола. Можно ознакомиться с классными статьями и выходящими исследованиями тут.
Или готовым чеклистом для защиты
Invariant-labs сделал инструмент для сканирования MCP, он анализирует конфигурации серверной части протокола.
Помимо MCP начинает набирать популярность a2a от гугла. Пока что не видел больших историй применения этого протокола. Однако буквально на днях Кен сделал модель угроз для a2a, в соответствии со своим фреймворком.
нужно ещё больше написать "MCP" в посте про MCP
Хотелось бы поделиться тем что сохранил для себя, и с чем уже удалось поработать. Полезный список по MCP.
Хотелось бы начать с ресурсов которые могут рассказать о том что это и как можно разработать инструмент с поддержкой MCP
Статья от Antropic, главного родителя MCP - тут мы можем дать себе ответ на вопрос - что вообще за MCP.
https://modelcontextprotocol.io/ - Буквально ресурс содержащий в себе энциклопедию решений, описания архитектуры и концепций. На него много где сейчас ссылаются, так как он всеобъемлющий.
@soxoj выпустил список инструментов для осинта, которые уже работают под протоколом.
AppSec решения также не отстают и могут быть использованы с MCP.
А в самом большом удивительном списке есть целый блок с MCP для безопасности.
Безопасность MCP
За последнюю неделю китайцы достаточно много выпустили об угрозах для данного протокола. Можно ознакомиться с классными статьями и выходящими исследованиями тут.
Или готовым чеклистом для защиты
Invariant-labs сделал инструмент для сканирования MCP, он анализирует конфигурации серверной части протокола.
Помимо MCP начинает набирать популярность a2a от гугла. Пока что не видел больших историй применения этого протокола. Однако буквально на днях Кен сделал модель угроз для a2a, в соответствии со своим фреймворком.
нужно ещё больше написать "MCP" в посте про MCP
🔥8