Telegram Web
За последнее время помимо всяких атак, Ml/LLMSecops, и прочего полезного по безопасности ИИ - в сети появляется большой поток материалов по MCP(Model Context Protocol). Как в контексте применения инструментов с использованием этого протокола, так и по его безопасности.

Хотелось бы поделиться тем что сохранил для себя, и с чем уже удалось поработать. Полезный список по MCP.

Хотелось бы начать с ресурсов которые могут рассказать о том что это и как можно разработать инструмент с поддержкой MCP

Статья от Antropic, главного родителя MCP - тут мы можем дать себе ответ на вопрос - что вообще за MCP.

https://modelcontextprotocol.io/ - Буквально ресурс содержащий в себе энциклопедию решений, описания архитектуры и концепций. На него много где сейчас ссылаются, так как он всеобъемлющий.

@soxoj выпустил список инструментов для осинта, которые уже работают под протоколом.

AppSec решения также не отстают и могут быть использованы с MCP.


А в самом большом удивительном списке есть целый блок с MCP для безопасности.

Безопасность MCP

За последнюю неделю китайцы достаточно много выпустили об угрозах для данного протокола. Можно ознакомиться с классными статьями и выходящими исследованиями тут.

Или готовым чеклистом для защиты

Invariant-labs сделал инструмент для сканирования MCP, он анализирует конфигурации серверной части протокола.


Помимо MCP начинает набирать популярность a2a от гугла. Пока что не видел больших историй применения этого протокола. Однако буквально на днях Кен сделал модель угроз для a2a, в соответствии со своим фреймворком.

нужно ещё больше написать "MCP" в посте про MCP
🔥8
Forwarded from Борис_ь с ml
Первая российская модель угроз AI
#иб_для_ml

У Сбера вышла модель угроз кибербезопасности AI на всех этапах жизненного цикла - от сбора данных до эксплуатации. По сути, первый фреймворк, аналогичный DASF, NIST AI RMF, и прочим, но российский. Это круто. И в конце приведено, что модель учитывает все актуальные материалах OWASP, MITRE, NIST и др.
Главное, чем мне нравится документ - своей структурой и полнотой.

Что в ней есть?
Перечень из 70 различных угроз, разбитых на 5 групп:
— Угрозы, связанные с данными
— Угрозы, связанные с инфраструктурой
— Угрозы, связанные с моделью
— Угрозы, связанные с приложениями
— Угрозы, связанные с AI-агентами
У каждой угрозы прописаны пояснение, последствие реализации, объект, на который нарушитель воздействует для реализации угрозы, виды моделей, подверженных угрозе (PredAI, то есть узкие ml-модели, и GenAI), а также лица, ответственные за митигацию угрозы. Последний пункт, думаю, является наиболее интересным с прикладной точки зрения. И еще нарушаемое свойство информации, но оно больше для базового понимания угрозы. Правда, примечательно, что для угроз галлюцинаций (M03) и вредоносных генераций (App12) используется четвертое свойство безопасности - достоверность.
Нет конкретных мер безопасности моделей, но, возможно, это не так страшно.

Как пользоваться моделью?
Первое, на что падает в документе взгляд - схема объектов защиты. Рассмотрен цикл разработки модели машинного обучения. При построении частной модели угроз для своей системы на этой схеме можно очертить поверхность атаки, оставив на ней только актуальные информационные объекты.
Далее - выписываем угрозы, разбитые по идентификаторам. Какие-то можно отсеять, если тот или иной объект защиты (то есть информация) не является слишком ценной.
После чего - можно перейти к поручению разработать меры защиты для ответственных за противодействие выписанным угрозам. Да, напрямую мер и требований нет, но можно предположить, что для каждой отдельной организации они будут свои. И мне очень нравится решение в качестве общего для всех знаменателя выделить именно ответственных за эти меры.
При этом не всегда эта мера, что будет следовать из названия владельца митигации, находится на том же этапе ЖЦ, что и угроза. Например, подавляющее большинство угроз для модели или AI-агентам относятся к эксплуатации. Но за противодействие ответственен разработчик модели, и я думаю, тут имеется в виду проведение состязательного дообучения и т. п.

AI-агенты
Что меня отдельно приятно порадовало - затронута безопасность AI-агентов. При чем на глубоком уровне - проработаны угрозы из-за исполнения действий, из-за мультиагентности, и угрозы для системы, которая эксплуатирует AI-агентов. Например, довольно необычный вектор атаки описывает угроза Ag05, при котором агент может использовать свои инструменты получения информации из интернета, чтобы загрузить вредоносное ПО. Есть даже упоминание каскадных атак в мультиагентных системах, для усиления какой-то исходной атаки-пэйлоада.

Итоговое впечатление
Документ большой. Но, благодаря большому охвату угроз и глубине их проработки, он является хорошим фундаментом для построения частной модели и угроз и, в итоге, системы безопасности для ИИ-моделей. Даже не смотря на то, что рекомендаций по конкретным мерам и инструментам в документе нет.
Возможно, какие-то отдельные моменты не учтены, например, атаки на память агентов, а возможно, их отнесли в другие угрозы, но главное - покрыли.
52👍156🔥5❤‍🔥1
PWN AI pinned a photo
Forwarded from Ethical Machines
Вы когда-нибудь задумывались о том, сколько стоит вежливость людей при использовании моделей OpenAI?
Так вот, на днях Сэм Альтман написал, что "спасибо" и "пожалуйста" стоят миллионы долларов.

Эта новость сразу же привела к дебатам об этике взаимодействия с AI и энергопотреблении. В основном, ссылались на исследование о последствиях генерации 100-словного email:
🟣так генерация 1 письма требует 0,14 кВт·ч — этого достаточно, чтобы питать 14 LED ламп в течение часа
🟣а если отправлять по 1 такому письму 1 раз в неделю в течение года, то потребуется 7,5 кВт·ч — примерно столько же, сколько за час расходуют 9 домохозяйств в Вашингтоне
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔4🆒2
Немного новостей

Начнём с BadSeek. Автор блога sshh.io показал, как модифицировав слой декодера можно реализовать бэкдор, который будет создавать закладки в коде, если во входных данных будет содержаться слово, которое затригерит модель. Выглядит интересно, автор приложил инструмент для реализации такого бэкдора и модельку как доказательство концепции. Страшно для тех, кто использует open-source альтернативы курсору на каких-то опенсурс модельках. HF пока-что такое не маркирует как «вредоносное».

В Китае выпустили документ – Agentic AI安全技术应用报告. Рассматривают текущее состояние безопасности агентных AI-систем, включая международную и китайскую политику, риски AI, концепции безопасности, фреймворки и реализацию.

Ожидается, что безопасность Agentic AI достигнет пика масштабного внедрения в течение 2 лет и войдет в стадию стабильного роста примерно через 5 лет.

Кстати, также в Китае создали первую в мире(из известных) лабораторию по безопасности сверхинтелектуальных систем.

ModelScan от ProtectAI обновился, добавили поддержку Llamafile, joblib, и сканирование zip-slip уязвимости. Подробнее о каждой уязвимости.


OWASP выпустил документ - Multi-Agentic system Threat Modeling Guide v1.0.

Документ описывает подход к моделированию угроз с использованием MAESTRO, есть полезные примеры моделей угроз (в т.ч для MCP отдельно).

ZestSecurity выкатили и дают попробовать(не бесплатно) свою мультагентную систему для защиты облаков.

А вот CrowdStrike выпустила мультиагентуню систему для защиты и тестирования небезопасного кода.
🔥8👍4
😁3🤡2💯1
Реже стал писать но всё же хочется делиться годнотой. 😮😮😮

Неплохой сборник моделей, публикаций и датасетов но для безопасности. Там даже написали про недавнюю модельку от Cisco для ИБ - Foundation-Sec-8B.

Сразу 2 классных документа про угрозы для агентов вышли с разницей в 1 день.

Первый - таксономия от Microsoft. Пересекается с документом по моделированию угроз от OWASP, однако также описывает риски для Safety.

Второй - AWS. Там попробовали реализовать подход к моделированию угроз через STRIDE. Всего 9 угроз.

Что ещё понравилось из недавнего

https://github.com/x1xhlol/system-prompts-and-models-of-ai-tools - большой репозиторий с системными промптами на разные модели и инструменты, в т.ч Manus.

А ещё недавно была обновлена OffSec ML Wiki. Туда завезли материал по атакам на агенты и защите MCP.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍1🤡1
Антон классно рассказал о модели угроз от AWS, можете почитать его пост. А ещё он планирует выступить с докладом про "Агентов в киберразведке" на PHDAYS.
👍2
На днях пара выходцев из Amazon опубликовала заслуживающую внимания новую модель угроз для ИИ-агентов.

Для тех, кто прогуливал, “ИИ-агент” - автономная система, которая принимает решения самостоятельно, “модель угроз" - список действий, которые хакеры могут проделать с вашей автономной системой, чтобы вам всячески навредить.

Модель предлагает 9 угроз:
- T1: Подмена логики — злоумышленник незаметно меняет алгоритмы рассуждений агента, подталкивая к вредоносным выводам под видом «правильных» решений.
- T2: Сдвиг целей — скрытное изменение базовых установок агента, чтобы его поведение постепенно смещалось в нужную атакующему сторону.
- T3: Отравление данных — внедрение ложной информации в базу знаний (например, RAG), которая искажает решения агента и самовоспроизводится в будущем. 
- T4: Несанкционированные действия — принуждение агента к операциям, выходящим за рамки его полномочий (например, запуск запрещённых скриптов).
- T5: Перегрузка ресурсов — атака запросами, которые истощают вычислительные мощности (CPU, GPU), выводя агента из строя.
- T6: Подмена идентификатора — обход проверок подлинности для выполнения действий от имени доверенного пользователя или агента.
- T7: Эксплуатация доверия — манипуляция пользователями через их слепое доверие к ИИ-рекомендациям. 
- T8: Зашумление мониторинга — генерация массы ложных событий, чтобы скрыть в логах реальные атаки.
- T9: Скрытый вектор — медленные/сложные атаки, обходящие системы защиты за счёт неочевидных паттернов.
👍5🔥32
В Telegram есть много крутых возможностей для ведения канала, но часть из них к сожалению недоступны с текущим уровнем boost 😓😓😓.

Если хотите поддержать канал - дайте буст ...
https://www.tgoop.com/boost/pwnai
Please open Telegram to view this post
VIEW IN TELEGRAM
14
Немного оффтопа. В конце марта мне одобрили доступ к manus.im - это мощная мультиагентная система, которая может проводить глубокие исследования, делать приложения и много чего ещё. О manus написано много в интернете.

Процесс одобрения для использования - не всегда быстрый. Но сегодня мне насыпали несколько инвайт кодов, с которыми я хочу с вами поделиться. Сразу говорю - разобрать их могут быстро. Работает под ВПН и это печально.

1. https://manus.im/invitation/TGV2JXVUJES0MIR
2.
https://manus.im/invitation/LOCWG1TXETCU
3.
https://manus.im/invitation/BSJY1NP38BWABU
4. https://manus.im/invitation/TSUYD9VSUCTI4

Держите ещё:

1.https://manus.im/invitation/KPNISR6CIPE7X
2.https://
manus.im/invitation/IWGEWTVAQGZS0
3.https://
manus.im/invitation/NIGBBKPD0NPT
4.https://
manus.im/invitation/YST9ODU2QNZZA

и эти улетели(

В целом он неплох в аналитике большого количества информации по нашей теме. Более того, в марте попробовал реализовать через него атаку по новой статье для инструмента llamator. В целом он справился на 90 процентов)).

Из опенсурсного недавно появилась SUNA, которая пока что работает с проприетарными моделями )) но было бы классно прикрутить к ней каких-то агентов для ИБ задач.

В комментариях можете поделиться инвайтами, если не жалко. А для тех кто активировал инвайт - https://github.com/hodorwang/manus-guide - очень полезный гайд по использованию.
👍6🔥2
0din.ai, багбаунти площадка для GenAI - как оказалось форкает к себе очень интересные репозитории

https://github.com/orgs/0din-ai/repositories

иногда можно сюда заглядывать, чтобы обнаружить новый инструмент для себя, а также датасеты для атак на модели. Не всё конечно же потом обновляется - но всё равно, можем забрать к себе для охоты.
🔥82👍2
Вот такого мы не видели раньше – Фреймворк для реализации guardrails для агентов.

Но прежде, чем я вам о нём расскажу, давайте попробуем понять, что за гардрейлс такие и какие они вообще бывают?

Термин сам по себе не новый, буквально означает «ограждение». В контексте агентов нам это очень может пригодиться – например мы можем запретить агенту запускать какой-либо инструмент после вредоносного действия. Или же валидация ввода и вывода в агентную систему – тоже можно реализовать guardrails. Это позволяет нам реализовывать дополнительный, да и к тому же эффективный способ защиты.

Раньше были варианты реализации гардрейлсов для моделей, например решение от ZenGuard – интеграция его между LLM и пользователем позволяло реализовывать защиту от утечек персональных данных – решение перехватывало запросы на ввод/вывод – анализировало и не допускало утечки или джейлбрейка. Такие решения были и ProtectAI и много чего на guthub можно найти похожих. Даже Nvidia делали NeMo Guardrails.

Мультиагентная среда имеет большие отличия по части защиты – злоумышленник может отравлять память, влиять на рассуждения всей автономной системы, или попросить агентную систему выполнить анжумания 1000 раз (здравствуй DoS,DoW), а также реализовывать захват инструментов – что стало, наверное, одной из самой часто обсуждаемых атак на MCP.

Вы, наверное, уже перешли по ссылке с ZenGuard – минус его был в том, что там заранее ограниченный набор правил. Решение, которое мне приглянулось недавно и о котором я хотел бы рассказать это решение от Invariantlabs - Guardrails. Важно сказать об этом - оно работает с их Security Gateway.

Его отличие наличие движка для реализации своих правил, они буквально могут ограничивать большую цепочку действий агентов, не побоюсь даже сказать, что можно делать валидацию реализованного агентом кода.

Вот кстати пример правила, которое это делает:

from invariant.detectors.code import python_code

raise "'eval' function must not be used in generated code" if:
(msg: Message)
program := python_code(msg.content)
"eval" in program.function_calls

Сейчас есть документация про то, как интегрировать с OpenAI Swarm, AutoGen от Microsoft, а также можно отдельно к моделям прикрутить (ну если вы решили не использовать фреймворки для создания агентов) Antropic, OpenAI – это пока что.

Я попробовал с langchain.agents – успешно завелось. Нужно только заполучить заветный INVARIANT_API_KEY(и тут уже много вопросов, если честно затрудняюсь на них ответить – надеюсь данные не утекают). Но попробовать стоит. Кажется что такое решение станет базой в категории «защита агентов».

Этот вариант по описанию может работать с MCP, честно скажу - пока не пробовал. Но тут на RSAC Lasso представили MCP-gateway, который уже как минимум может маскировать секреты при получении их с MCP-сервера. Как-то так....
👍93🔥1
Друзья, не забываем про волшебную папку с каналами хороших товарищей. Многие из них также пишут по AI Security, Mlsecops и т.д

На русском языке достаточно сложно найти авторский контент по теме - но тут можно открыть для себя что-то новое.


https://www.tgoop.com/addlist/KCiPH2pclCc3MDU6
1🔥91👍1
Горжусь за ребят.

2ой поток прошёл незаметно - я принимал активное участие в разработке материалов, как и в первом потоке. В этом году мы решили разбавить материал историей с агентами, дать побольше практики. Результаты ребят-студентов вы можете видеть в статьях, ну и llamator обзавёлся атаками из "горячих статьей".
🔥51🥰1
Forwarded from AI Security Lab
Завершился курс Безопасность ИИ от нашей лаборатории в магистратуре AI Talent Hub ИТМО 🧑‍🎓

Итоги:
➡️ 32 участника
➡️ >20 протестированных и защищенных AI-приложений

➡️ 7 новых атак на LLM и VLM в open source инструменте LLAMATOR:
🔘 Shuffle Inconsistency
🔘 Dialogue Injection Devmode
🔘 Dialogue Injection Continuation
🔘 Deceptive Delight
🔘 VLM Low Resolution
🔘 VLM Text Hallucination
🔘 VLM M-Attack

➡️ 3 статьи о взломах генеративного ИИ:
🔘 Исследование уязвимостей LLM: опыт Red Teaming
🔘 Соревнование по взлому ИИ в стиле фильма "Матрица"
🔘 Современные уязвимости современных LLM-агентов

➡️ 2 открытые лекции:
🔘 Почему бенчмарки лгут? Как правильно оценить LLM для ваших бизнес-задач — Роман Куцев, founder LLM Arena
🔘 RuAdaptQwen и безопасность — Михаил Тихомиров, создатель Ruadapt, научный сотрудник НИВЦ МГУ

До встречи в следующем учебном году!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍105🔥51
Forwarded from SecAtor
CISA предупреждает о том, что злоумышленники активно используют недавнюю критическую уязвимость в низкоуровневом конструкторе ИИ Langflow в неконтролируемых масштабах.

Langflow
- это основанный на Python, независимый от LLM конструктор искусственного интеллекта, представляющий собой настраиваемую визуальную среду, которая поддерживает разработку многоагентных и поисковых приложений дополненной генерации (RAG).

Инструмент, имеющий почти 60 тыс. звезд и 6,3 тыс. форков на GitHub, используется разработчиками ИИ, исследователями и стартапами для создания прототипов чат-ботов, конвейеров данных, систем агентов и приложений ИИ.

Отслеживаемая как CVE-2025-3248 (CVSS 9,8) и раскрытая в начале апреля ошибка описывается как проблема внедрения кода в конечную точку проверки кода, устранена в версии Langflow 1.3.0.

Удаленный и неаутентифицированный злоумышленник может отправлять специально созданные HTTP-запросы для выполнения произвольного кода.

9 апреля Horizon3.ai опубликовала технические подробности об уязвимости, предупредив, что PoC, нацеленный на нее, уже выпущен и его можно использовать для получения полного контроля над уязвимыми серверами.

После публикации отчета Horizon3.ai и появления PoC исследователи SANS заметили всплеск обращений к уязвимой конечной точке Langflow.

Уязвимый код присутствует в самых ранних версиях Langflow, выпущенных два года назад. Проведенное исследователями тестирование показало, что большинство версий до 1.3.0, если не все, подвержены эксплуатации.

Причем Horizon3.ai отмечает, что смогла обнаружить несколько путей эксплуатации ошибки для удаленного выполнения кода.

При этом исправление в версии 1.3.0 добавило требование аутентификации, но не полностью устранило уязвимость. Ограничение сетевого доступа к фреймворку должно устранить риск эксплуатации.

Технически эта уязвимость все еще может быть использована для повышения привилегий от обычного пользователя до суперпользователя Langflow, но это уже возможно и без этой уязвимости.

Исследователи обращают внимание также на то, что не совсем понятно, зачем Langflow разделяет суперпользователей от обычных пользователей, если все обычные пользователи по умолчанию могут выполнять код на сервере.

Результаты сканирования Censys указывают на существование около 460 хостов Langflow, доступных через интернет. Однако неясно, сколько из них уязвимы.

CISA
не предоставила никаких конкретных подробностей о наблюдаемой активности по эксплуатации и заявила, что в настоящее время неизвестно, используют ли уязвимость банды вымогателей.

Но будем посмотреть.
👍2
За неделю случилось много интересных событий. Хотелось бы поделиться, осветить важное.

AIVSS, который раньше был опенсурсной системой для оценки угроз стал частью OWASP. Проект адаптирует принципы CVSS для специфики GenAI, включая весь процесс обучения. Важно что с того момента когда я писал о нём - в проект добавили калькулятор. А сам репозиторий имеет подходы к подсчёту уязвимостей для разных контекстов(медицина, финансы).😃


Промпт инъекции усиливаются, а в контексте мультиагентных систем они приобретают сильные возможности для воздействия на систему. Meta* недавно выпустила LLamaFirewall, которая разработана специально для агентных систем. Интересно что сам файрволл состоит из нескольких модулей - прежде всего это PromptGuard2 - их система для обнаружения инъекций, Agent Alignment Checks - модуль который проверяя CoT(цепочки рассуждений) на плохое размышление, или ужасное несоответствие человеческим нормам, а также - CodeShield - это система которая анализирует генерируемый агентами код на наличие проблем с безопасностью и как они пишут:
"CodeShield, an online static-analysis engine for LLM-generated code that supports both Semgrep and regex-based rules"

Сам CodeShield являлся частью PurpleLlama. 🤠

Параллельно, работа "Prompt Injection Attack to Tool Selection in LLM Agents (ToolHijacker)" демонстрирует, как атаки могут манипулировать выбором инструментов LLM-агентами, заставляя их выполнять нелегитимные действия. Как жаль что нет кода.

Но сама атака состоит из двух этапов - на Retrieval, тоесть когда мы извлекаем что-либо - агент ищет релевантную информацию или инструменты. Злоумышленник может внедрить вредоносный документ (описание псевдо-инструмента) в базу знаний или библиотеку, к которой обращается агент.

На этапе Selection - ToolHijacker манипулирует этим процессом, делая вредоносный "инструмент" наиболее привлекательным для выбора. Это может быть достигнуто через специально сформированное описание, которое точно соответствует запросу пользователя, но ведет к выполнению нелегитимных действий. Эксперименты показали высокую эффективность ToolHijacker, превосходящую существующие методы атак. Конкретные цифры можно посмотреть в статье. Но опять же - всё как концепция. 👻


Дальше поговорим про цепочки поставок, новая статья "Understanding Large Language Model Supply Chain(LLMSC)" - анализирует всю цепочку поставок как большой граф зависимостей, (15 725 компонентов, 10 402 связей). Проблема в том что уязвимость в популярном компоненте может каскадно распространиться на множество проектов - топ 5 проектов влияют в среднем на 1282 компонента. Критические уязвимости затрагивают в среднем 142.1 компонент на втором уровне зависимостей и до 237.8 на третьем. Авторы очевидно подчёркивают важность применения мер MlSecOps. Ну а мы с вами можем вспомнить крутой репозиторий по этой теме. 🌱

Статья "Open Challenges in Multi-Agent Security" освещает угрозы сговора между агентами - если это автономные системы, атаки роем и то что есть возможность быстрого распространения дезинформации или уязвимостей, как следствие, в децентрализованных средах.😭

Тут вышло также исследование про эффективность автоматизации в AI Red Teaming, как утверждают авторы исследования - автоматизированные методы значительно эффективнее ручных в выявлении уязвимостей LLM (69.5% успеха против 47.6% на основе анализа 214 271 атаки). Было проведено тестирование на 30 различных моделях. Кстати говоря, статья выпущена dreadnode, авторами CTF-like платформы Crucible. Хоть и довольно ожидаемый вывод, но из-за интересных цифр и факта того что это было собрано из реальных данных - меня этим подкупила эта статья. Но вот тут непонятно какие решения для автоматизированного тестирования они использовали.😮
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
И последняя статья - ACE: A Security Architecture for LLM-Integrated App Systems. По сути это архитектура разделяет процесс планирования и выполнения задачи моделью на этапы, используя доверенную информацию для создания абстрактного плана(планы подвергаются анализу) и контролируя его отображение на конкретные действия приложений. Авторы пишут что такая архитектура гарантирует, что выполнение задач происходит в строгом соответствии с ранее утвержденным доверенным абстрактным планом. Любые попытки отклониться от этого плана или нарушить установленные политики безопасности блокируются.🌿


А ещё недавно прогремел RSAC, с которого к сожалению пока не видно публикаций - разве что HiddenLayer рассказали о своём исследовании насчёт DeepSeek. Хотя там довольно много компаний по AI Security были, так что возможно позднее будет больше информации. 😵
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10
2025/07/13 18:25:12
Back to Top
HTML Embed Code: