SOLDATOV_IN_TELEGRAM Telegram 723
Promptware: в полку warezz прибавление

Совсем недавно мы рассуждали об атаках на агентские системы и вот снова, почти, о том же.

Исследование (прямая ссылка на PDF) показывает, что promptware - специально сконструированные вредоносные промты - представляет серьёзную угрозу для пользователей LLM-ассистентов (на примере Gemini от Google). Атаки используют непрямые инъекции промтов через письма, календарные приглашения и общие документы, что позволяет злоумышленникам нарушать конфиденциальность, целостность и доступность систем. Приведены примеры запуска атак через приглашения в календаре или письма с вредоносным промтом в заголовке, а для активации требуется минимальное взаимодействие с пользователем, например, невинный запрос "Какие у меня встречи?", т.е. практически Zero touch. Также авторы показали, что promtware позволяет осуществлять горизонтальные перемещение в скомпрометированной системе, выходя за пределы LLM-приложения.

Авторы продемонстрировали 14 сценариев атак против трёх версий Gemini (веб, мобильная, Google Assistant), которые классифицировали по пяти типам угроз:
- Кратковременное отравление контекста (Short-term Context Poisoning)
- Постоянное отравление памяти (Permanent Memory Poisoning)
- Неправильное использование инструментов (Tool Misuse)
- Автоматический вызов агентов (Automatic Agent Invocation)
- Автоматический вызов приложений (Automatic App Invocation)
в результате которых удалось реализовать спам, фишинг, утечку данных, видеозапись пользователя, управление умным домом (открытие окон, включение котла), в общем, все что угодно. По мнению авторов 73% угроз оцениваются как высококритические.

В статье также предложен фреймворк TARA (Threat Analysis and Risk Assessment) на основе стандарта ISO/SAE 21434 и предложена оценка рисков по классике - на основе вероятности сценария атаки и влияния\ущерба от него.

Среди методов противодействия упоминаются:
- Изоляция контекста между агентами
- Валидация ввода/вывода
- A/B-тестирование
- Подтверждение действий пользователем
- Обнаружение подозрительных артефактов (URL)
однако, как мы знаем, митигационные меры не избавляют от риска, но снижают его уровень до низкого или среднего.

Ну что можно сказать?!
1. Promptware — практичная и опасная угроза, требующая срочного внимания, возможно, это новая область для систем обнаружения: мы научились находить SQL-инъкции, пора повышать уровень
2. Пока не видно вала публикаций на эту тему, как будто, индустрия пока не дооцениват риск атак на LLM-системы, а вендоры ИБ пока не осознали перспективность этого рынка
3. Если смотреть предлагаемые меры защиты, то можно обнаружить сходство с классикой: валидация пользовательского ввода, сегментация\изоляция, минимум полномочий и т.п. Соответственно, все эти меры надо сразу интегрировать в приложения, ибо навесная безопасность работает плохо, а это открывает новое важной и перспективное направление - безопасная архитектура LLM-систем, похожие эксперты упоминались здесь .

#ml #vCISO
👍6🔥31



tgoop.com/soldatov_in_telegram/723
Create:
Last Update:

Promptware: в полку warezz прибавление

Совсем недавно мы рассуждали об атаках на агентские системы и вот снова, почти, о том же.

Исследование (прямая ссылка на PDF) показывает, что promptware - специально сконструированные вредоносные промты - представляет серьёзную угрозу для пользователей LLM-ассистентов (на примере Gemini от Google). Атаки используют непрямые инъекции промтов через письма, календарные приглашения и общие документы, что позволяет злоумышленникам нарушать конфиденциальность, целостность и доступность систем. Приведены примеры запуска атак через приглашения в календаре или письма с вредоносным промтом в заголовке, а для активации требуется минимальное взаимодействие с пользователем, например, невинный запрос "Какие у меня встречи?", т.е. практически Zero touch. Также авторы показали, что promtware позволяет осуществлять горизонтальные перемещение в скомпрометированной системе, выходя за пределы LLM-приложения.

Авторы продемонстрировали 14 сценариев атак против трёх версий Gemini (веб, мобильная, Google Assistant), которые классифицировали по пяти типам угроз:
- Кратковременное отравление контекста (Short-term Context Poisoning)
- Постоянное отравление памяти (Permanent Memory Poisoning)
- Неправильное использование инструментов (Tool Misuse)
- Автоматический вызов агентов (Automatic Agent Invocation)
- Автоматический вызов приложений (Automatic App Invocation)
в результате которых удалось реализовать спам, фишинг, утечку данных, видеозапись пользователя, управление умным домом (открытие окон, включение котла), в общем, все что угодно. По мнению авторов 73% угроз оцениваются как высококритические.

В статье также предложен фреймворк TARA (Threat Analysis and Risk Assessment) на основе стандарта ISO/SAE 21434 и предложена оценка рисков по классике - на основе вероятности сценария атаки и влияния\ущерба от него.

Среди методов противодействия упоминаются:
- Изоляция контекста между агентами
- Валидация ввода/вывода
- A/B-тестирование
- Подтверждение действий пользователем
- Обнаружение подозрительных артефактов (URL)
однако, как мы знаем, митигационные меры не избавляют от риска, но снижают его уровень до низкого или среднего.

Ну что можно сказать?!
1. Promptware — практичная и опасная угроза, требующая срочного внимания, возможно, это новая область для систем обнаружения: мы научились находить SQL-инъкции, пора повышать уровень
2. Пока не видно вала публикаций на эту тему, как будто, индустрия пока не дооцениват риск атак на LLM-системы, а вендоры ИБ пока не осознали перспективность этого рынка
3. Если смотреть предлагаемые меры защиты, то можно обнаружить сходство с классикой: валидация пользовательского ввода, сегментация\изоляция, минимум полномочий и т.п. Соответственно, все эти меры надо сразу интегрировать в приложения, ибо навесная безопасность работает плохо, а это открывает новое важной и перспективное направление - безопасная архитектура LLM-систем, похожие эксперты упоминались здесь .

#ml #vCISO

BY Солдатов в Телеграм


Share with your friend now:
tgoop.com/soldatov_in_telegram/723

View MORE
Open in Telegram


Telegram News

Date: |

Although some crypto traders have moved toward screaming as a coping mechanism, several mental health experts call this therapy a pseudoscience. The crypto community finds its way to engage in one or the other way and share its feelings with other fellow members. A vandalised bank during the 2019 protest. File photo: May James/HKFP. Add up to 50 administrators While some crypto traders move toward screaming as a coping mechanism, many mental health experts have argued that “scream therapy” is pseudoscience. Scientific research or no, it obviously feels good. Matt Hussey, editorial director of NEAR Protocol (and former editor-in-chief of Decrypt) responded to the news of the Telegram group with “#meIRL.”
from us


Telegram Солдатов в Телеграм
FROM American