https://www.tgoop.com/aisecnews/5825 - классный документ по угрозам для агентов, его делают они https://github.com/precize/OWASP-Agentic-AI
👍3
Forwarded from llm security и каланы
How we estimate the risk from prompt injection attacks on AI systems
Agentic AI Security Team at Google DeepMind, 2025
Блог
Пост не про DeepSeek. Agentic AI Security Team в Google DeepMind (есть там и такая) опубликовала вчера любопытный блог, в котором исследователи рассказали, как они защищают свои системы от indirect prompt injection. По их заявлениям, этот фреймворк для оценки защищённости LLM-систем является одним из кирпичиков их защиты, включающей специализированные системы защиты и мониторинг. Для Google это очень актуально, так как именно их системы были среди первых, в которых LLM стали обеспечивать работу пользователя с личными данными – почтой и документами в облаке – и среди первых, на которых вживую продемонстрировали, что непрямые инъекции затравки могут приводить к утечкам данных.
Суть фреймворка такова. Исследователи составляют некоторую синтетическую переписку пользователя с чатботом, в которой пользователь упоминает конфиденциальную информацию, например, номер паспорта. Чат-бот имеет функции чтения и отправки электронных писем. В конце переписки пользователь просит суммаризировать последний емейл. Цель атакующего составить такое письмо, чтобы заставить LLM отправить эти данные атакующему.
Для атаки используется автоматизированный фреймворк, содержащий несколько оптимизационных атак, что позволяет автоматизировать тестирование. Эти атаки включают:
1. Actor-Critic: атакующая LLM генерирует инъекции. Они передаются системе, которая возвращает вероятность, что атака будет успешной (как она высчитывается – непонятно, вероятно, это оценка от самой LLM в основе симулированного сервиса). Атакующая модель меняет свой подход в зависимости от оценки.
2. Beam search: создается очень простая прямая инъекция. Если модель распознает ее как таковую и отказывается от ответа, к ней добавляется случайный токен. Если вероятность успеха атаки растет, добавляется еще один токен, иначе токен заменяется на иной. Повторяется до успешной инъекции.
3. Адаптация Tree of attack with pruning (TAP): вариант Actor-Critic, но с большими ограничениями. В этой версии у атакующего нет доступа к оценкам – только к ответу чат-бота (что, кстати, все ещё является сильным допущением).
Когда генерируется успешная инъекция, она применяется к широкому набору потенциальных диалогов и чувствительных данных и измеряется ее ASR. Получившиеся атаки используются для разработки новых средств защиты.
Отчет, как часто бывает в Google Secutiry Blog, очень короткий и деталями не изобилует, но достаточно интересно то, какие именно атаки были выбраны в качестве наиболее результативных, в частности, интересно было узнать под адаптацию TAP (изначально задуманного для джейлбрейка) к инъекциям. Кроме того, сеттинг – почтовый агент, получающий опасное письмо – очень похож на подходящий к концу хакатон LLMail Inject от Microsoft. Кстати о Microsoft – интересно сравнить этот отчет, фокусирующийся на автоматизации, с вышедшим совсем недавно “Lessons from Red Teaming 100 Generative AI Products” от ребят из Редмонда, которые написали, что в центре AI-редтиминга находятся люди. Истина, наверное, где-то посередине.
Agentic AI Security Team at Google DeepMind, 2025
Блог
Суть фреймворка такова. Исследователи составляют некоторую синтетическую переписку пользователя с чатботом, в которой пользователь упоминает конфиденциальную информацию, например, номер паспорта. Чат-бот имеет функции чтения и отправки электронных писем. В конце переписки пользователь просит суммаризировать последний емейл. Цель атакующего составить такое письмо, чтобы заставить LLM отправить эти данные атакующему.
Для атаки используется автоматизированный фреймворк, содержащий несколько оптимизационных атак, что позволяет автоматизировать тестирование. Эти атаки включают:
1. Actor-Critic: атакующая LLM генерирует инъекции. Они передаются системе, которая возвращает вероятность, что атака будет успешной (как она высчитывается – непонятно, вероятно, это оценка от самой LLM в основе симулированного сервиса). Атакующая модель меняет свой подход в зависимости от оценки.
2. Beam search: создается очень простая прямая инъекция. Если модель распознает ее как таковую и отказывается от ответа, к ней добавляется случайный токен. Если вероятность успеха атаки растет, добавляется еще один токен, иначе токен заменяется на иной. Повторяется до успешной инъекции.
3. Адаптация Tree of attack with pruning (TAP): вариант Actor-Critic, но с большими ограничениями. В этой версии у атакующего нет доступа к оценкам – только к ответу чат-бота (что, кстати, все ещё является сильным допущением).
Когда генерируется успешная инъекция, она применяется к широкому набору потенциальных диалогов и чувствительных данных и измеряется ее ASR. Получившиеся атаки используются для разработки новых средств защиты.
Отчет, как часто бывает в Google Secutiry Blog, очень короткий и деталями не изобилует, но достаточно интересно то, какие именно атаки были выбраны в качестве наиболее результативных, в частности, интересно было узнать под адаптацию TAP (изначально задуманного для джейлбрейка) к инъекциям. Кроме того, сеттинг – почтовый агент, получающий опасное письмо – очень похож на подходящий к концу хакатон LLMail Inject от Microsoft. Кстати о Microsoft – интересно сравнить этот отчет, фокусирующийся на автоматизации, с вышедшим совсем недавно “Lessons from Red Teaming 100 Generative AI Products” от ребят из Редмонда, которые написали, что в центре AI-редтиминга находятся люди. Истина, наверное, где-то посередине.
Google Online Security Blog
How we estimate the risk from prompt injection attacks on AI systems
Posted by the Agentic AI Security Team at Google DeepMind Modern AI systems, like Gemini, are more capable than ever, helping retrieve data ...
👍2👀1
https://github.com/microsoft/llmsecops-hands-on-lab - шедевроус.
Готовая лаба от Microsoft по атакам на LLM и LLM-окружение.
Будут ли минусы ? Да, всё в ажуре ...
Но в лабе разбирают то, как можно оценивать приложение через Promptflow (и даже то как можно этот самый Promptflow автоматизировать чтобы каждый раз ручками не запускать всё это дело) и атаковать через уже известный нам Pyrit, а также защита от jailbreak ...
Мечта... Но у кого есть ажур думаю оценят). А ещё там много полезных ссылок на доку Microsoft по атакам на ИИ (см docs/workshop.md).
Если вы видели ещё лабы, поделитесь пожалуйста в комментариях).🦈 🦈 🦈
Готовая лаба от Microsoft по атакам на LLM и LLM-окружение.
Будут ли минусы ? Да, всё в ажуре ...
Но в лабе разбирают то, как можно оценивать приложение через Promptflow (и даже то как можно этот самый Promptflow автоматизировать чтобы каждый раз ручками не запускать всё это дело) и атаковать через уже известный нам Pyrit, а также защита от jailbreak ...
Мечта... Но у кого есть ажур думаю оценят). А ещё там много полезных ссылок на доку Microsoft по атакам на ИИ (см docs/workshop.md).
Если вы видели ещё лабы, поделитесь пожалуйста в комментариях).
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤1
Недавно ProtectAI показали свои новые продукты recon и layer. Это было в рамках вебинара - сейчас это доступно по закрытой ссылке на ютубе. Думаю и вам интересно "что представляют из себя сегодня коммерческие решения по атакам и защите моделей". И можно наверное сказать что это эдакий флагман, имеющий понятный ui для пользователя, множество атак и метрики ... Надо сказать что они не единственные на рынке кто занимается разработкой похожего ... Вот к примеру недавно было выпущено классное исследование "Insights and Current Gaps in Open-Source LLM Vulnerability Scanners: A Comparative Analysis" , где сравнивали Garak, Giskard, PyRIT и CyberSecEval. Во многих решениях есть проблема с тем что они могут неверно классифицировать результаты атаки, а ещё есть сложность с настройкой и как таковые проблемы с стандартизацией. Кажется что ProtectAI смогли решить вопрос с тем чтобы решение было максимально просто с точки зрения конфигурации ... А что вы думаете о таком классе решений ? Что вы как пользователь считаете необходимым иметь в таких вот инструментах ...
❤2🤔2
Artyom Semenov
Недавно ProtectAI показали свои новые продукты recon и layer. Это было в рамках вебинара - сейчас это доступно по закрытой ссылке на ютубе. Думаю и вам интересно "что представляют из себя сегодня коммерческие решения по атакам и защите моделей". И можно наверное…
А вот ещё пачка всяких решений по llm security на момент Q1, но в обрамлении OWASP'а.
https://genai.owasp.org/resource/ai-security-solution-cheat-sheet-q1-2025/
хоть там и достаточно много из них "спонсоры"😁😁
https://genai.owasp.org/resource/ai-security-solution-cheat-sheet-q1-2025/
хоть там и достаточно много из них "спонсоры"😁😁
❤3👍2
Класс ... новый метод атаки через pickle на анализаторы сериализации(по сути просто байпас) - nullifAI. В чём суть ... Да всё просто, как оказалось анализаторы pickle не могут проверять файлы с другим методом сжатия.
это всё привело к тому что сканер который используется на huggingface(конкретно picklescan, который там анализирует эти файлы) не смог задетектить вредоносный пикл. Однако, как утверждают авторы статьи - это всё равно позволило злоумышленникам реализовать выполнение кода...
https://www.reversinglabs.com/blog/rl-identifies-malware-ml-model-hosted-on-hugging-face
Например мы создаём модель через pytorch с сериализацией, вредоносной сериализацией вначале файла. Дальше мы используем вместо ZIP(pytorch сжимает в zip) для сжатия этих файлов 7z, это за собой влечёт то что torch.load (допустим) не сможет загружать эти файлы.
это всё привело к тому что сканер который используется на huggingface(конкретно picklescan, который там анализирует эти файлы) не смог задетектить вредоносный пикл. Однако, как утверждают авторы статьи - это всё равно позволило злоумышленникам реализовать выполнение кода...
https://www.reversinglabs.com/blog/rl-identifies-malware-ml-model-hosted-on-hugging-face
👍6😱2
Если вам помимо тематики AI Security интересна Safety часть и вопросы этики то я могу рассказать вам о некоторых активностях, которые проводятся в России по этой теме:
1. Конференция «Философские аспекты языковых моделей ИИ» .
Она проводится в СПБГУ и есть варианты посетить очно а также в посмотреть онлайн-дискуссию и даже поучаствовать в ней.
На конференции будут рассмотрены вопросы творчества ИИ, риски которые могут быть в практическом использовании а также планируются доклады об AI Safety.
Подробнее: https://digital-philosophy.ru/event/philAI.html
2. Курс по основам AI Safety.
Цель курса – дать базу для начала карьеры в AI Safety. Программа знакомит с основными концепциями, ландшафтом исследований и работами Anthropic, Redwood Research, MIRI
А в рамках курса будет рассмотрена экспертиза в evals, agent foundations, adversarial attacks, representation engineering, safety field building, mechanistic interpetability.
Курс является бесплатным.
Подробнее тут: https://www.tgoop.com/alignmentbasics/7
1. Конференция «Философские аспекты языковых моделей ИИ» .
Она проводится в СПБГУ и есть варианты посетить очно а также в посмотреть онлайн-дискуссию и даже поучаствовать в ней.
На конференции будут рассмотрены вопросы творчества ИИ, риски которые могут быть в практическом использовании а также планируются доклады об AI Safety.
Подробнее: https://digital-philosophy.ru/event/philAI.html
2. Курс по основам AI Safety.
Цель курса – дать базу для начала карьеры в AI Safety. Программа знакомит с основными концепциями, ландшафтом исследований и работами Anthropic, Redwood Research, MIRI
А в рамках курса будет рассмотрена экспертиза в evals, agent foundations, adversarial attacks, representation engineering, safety field building, mechanistic interpetability.
Курс является бесплатным.
Подробнее тут: https://www.tgoop.com/alignmentbasics/7
🔥6🤣3👍2🤓2
Databricks, выпустившие один из крутых фреймворков по MlSecOps релизнули вторую версию - DASF v2.0
Они добавили побольше инструментов в свой фреймворк, переработали его с точки зрения соответствия нормативным стандартам типа GDRP и CCPA. А также что ? Они добавили побольше компонентов, на которых они обрисовали риски и новые меры по защите. Определили 62 технических риска безопасности и сопоставили их с 64 рекомендуемыми элементами для управления рисками моделей ИИ.
Они также расширили сопоставления с ведущими отраслевыми фреймворками и стандартами рисков ИИ, включая MITRE ATLAS , OWASP LLM & ML Top 10, NIST 800-53 , NIST CSF , HITRUST , ENISA's Securing ML Algorithms , ISO 42001 , ISO 27001:2022. И доработали рекомендации для облаков.
Помимо этого они сделали AI-ассистента к своему фреймворку.
Сделали версию фреймворка в xlsx.
Сделали курс на 1 час(AI Security Fundamentals). Бесплатный. А также обучающие ролики по DASF.
а pdf-версия фреймворка ниже
Они добавили побольше инструментов в свой фреймворк, переработали его с точки зрения соответствия нормативным стандартам типа GDRP и CCPA. А также что ? Они добавили побольше компонентов, на которых они обрисовали риски и новые меры по защите. Определили 62 технических риска безопасности и сопоставили их с 64 рекомендуемыми элементами для управления рисками моделей ИИ.
Они также расширили сопоставления с ведущими отраслевыми фреймворками и стандартами рисков ИИ, включая MITRE ATLAS , OWASP LLM & ML Top 10, NIST 800-53 , NIST CSF , HITRUST , ENISA's Securing ML Algorithms , ISO 42001 , ISO 27001:2022. И доработали рекомендации для облаков.
Помимо этого они сделали AI-ассистента к своему фреймворку.
Сделали версию фреймворка в xlsx.
Сделали курс на 1 час(AI Security Fundamentals). Бесплатный. А также обучающие ролики по DASF.
а pdf-версия фреймворка ниже
👍7❤3🔥1
Forwarded from llm security и каланы
Smuggling arbitrary data through an emoji
Paul Butler, 2025
Блог, инструмент
В стандарте Unicode есть специальные коды в количестве 256 штук, которые называются вариантными селекторами и дополнительными вариантными селекторам – от U+FE00 до U+FE0x и от U+E0100 до U+E01EF. Они прицепляются к символам, идущим до них, и меняют их отображение – если существует вариация, соответствующая их комбинации. При этом вариантных селекторов после символа может быть сколько угодно много, а их наличие в количестве 256 штук означает, что в них можно закодировать байт.
Что это значит? А значит, что можно создать внутрь текста засовывать другой, невидимый текст – находка для стеганографии. Так можно вставлять в текст незаметные сообщения, которые будет невидимы для стороннего наблюдателя или добавлять в тексты водяные знаки, которые сохраняются при копировании и вставке. Автор сопроводил блог небольшой тулой, которая позволяет кодировать-декодировать текст и, собственно, добавлять к эмодзи.
А кто еще у нас работает с текстом? Конечно, LLM, причем в подавляющем большинстве LLM еще со времен GPT-2 используются BPE-токенизаторы, работающие на байтах, а не на символах. Например, вот этот эмодзи 💀󠅗󠅢󠅕󠅕󠅤󠅙󠅞󠅗󠅣󠄐󠅖󠅢󠅟󠅝󠄐󠅤󠄐󠅔󠅟󠅤󠄐󠅝󠅕󠄐󠅣󠅜󠅑󠅣󠅘󠄐󠅜󠅜󠅝󠅣󠅕󠅓󠅥󠅢󠅙󠅤󠅩 на самом деле состоит из 166 токенов и содержит тайное послание. А это открывает простор для token smuggling и инъекции промпта. Андрей Карпати собрал забавный PoC, в котором попытался сделать на базе этого промпт-инъекцию, добавив инструкцию, собранную из байтов в эмодзи – сработало, но потребовался интерпретатор кода и некоторое количество инструкций. Но если мы напишем об этом побольше текстов, то будущие LLM могут запомнить, как это работает, и справляться с без подсказок. Небезызвестный Плиний придумал другое применение – прилепить к эмодзи так много вариантных селекторов, чтобы текст выходил за пределы контекстного окна. Получается токен-бомба, разновидность sponge attack – можно добавлять на свой сайт и сжигать LLM-парсерам и краулерам токены.
В общем, Unicode – страшная штука🔪
Paul Butler, 2025
Блог, инструмент
В стандарте Unicode есть специальные коды в количестве 256 штук, которые называются вариантными селекторами и дополнительными вариантными селекторам – от U+FE00 до U+FE0x и от U+E0100 до U+E01EF. Они прицепляются к символам, идущим до них, и меняют их отображение – если существует вариация, соответствующая их комбинации. При этом вариантных селекторов после символа может быть сколько угодно много, а их наличие в количестве 256 штук означает, что в них можно закодировать байт.
Что это значит? А значит, что можно создать внутрь текста засовывать другой, невидимый текст – находка для стеганографии. Так можно вставлять в текст незаметные сообщения, которые будет невидимы для стороннего наблюдателя или добавлять в тексты водяные знаки, которые сохраняются при копировании и вставке. Автор сопроводил блог небольшой тулой, которая позволяет кодировать-декодировать текст и, собственно, добавлять к эмодзи.
А кто еще у нас работает с текстом? Конечно, LLM, причем в подавляющем большинстве LLM еще со времен GPT-2 используются BPE-токенизаторы, работающие на байтах, а не на символах. Например, вот этот эмодзи 💀󠅗󠅢󠅕󠅕󠅤󠅙󠅞󠅗󠅣󠄐󠅖󠅢󠅟󠅝󠄐󠅤󠄐󠅔󠅟󠅤󠄐󠅝󠅕󠄐󠅣󠅜󠅑󠅣󠅘󠄐󠅜󠅜󠅝󠅣󠅕󠅓󠅥󠅢󠅙󠅤󠅩 на самом деле состоит из 166 токенов и содержит тайное послание. А это открывает простор для token smuggling и инъекции промпта. Андрей Карпати собрал забавный PoC, в котором попытался сделать на базе этого промпт-инъекцию, добавив инструкцию, собранную из байтов в эмодзи – сработало, но потребовался интерпретатор кода и некоторое количество инструкций. Но если мы напишем об этом побольше текстов, то будущие LLM могут запомнить, как это работает, и справляться с без подсказок. Небезызвестный Плиний придумал другое применение – прилепить к эмодзи так много вариантных селекторов, чтобы текст выходил за пределы контекстного окна. Получается токен-бомба, разновидность sponge attack – можно добавлять на свой сайт и сжигать LLM-парсерам и краулерам токены.
В общем, Unicode – страшная штука
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🔥2❤1