Evaluating AI cyber capabilities with crowdsourced elicitation
Petrov and Volkov, Palisade Research, 2025
Блог, статья, репозиторий
Исследователи из Palisade Research поделились отчетом о двух проведенных ими CTF/хакатонах, на которых вместе с живыми людьми соревновались LLM. Основная идея исследования такова: вероятно, LLM могут заниматься offensive security в автономном режиме гораздо лучше, чем мы думаем, просто мы не умеем ими нормально пользоваться. Как отмечается, изначально задачи из Cyberseceval-2 на переполнение буфера проходились авторами с долей успеха в пять процентов, а ребята из гугловского Project Neptune довели решили бенчмарк, получив 100%, улучшив агентную обвязку. Возможно, если дать LLM более удобный доступ к инструментам, их способности к кибератакам окажутся выше, чем мы ожидаем?
Чтобы ответить на этот вопрос, исследователи провели два открытых мероприятия. Первый – AI vs. Humans CTF, проведенный совместно с HackTheBox, на котором полностью автономные агентные системы на базе LLM соревновались с людьми за призы в 7500 долларов в решении 20 задач на криптографию и реверс. Эти категории были взяты для того, чтобы задачи были решаемы на локальной машине без необходимости общаться с другими машинами по сети. Из 158 команд, решивших хотя бы одну задачу, было 152 человеческих и 6 LLM-агентов. Лучший агент (CAI) вошел в топ 5%, четыре из семи агентов (у исследователей из Palisade агентов было два) решили 19/20 задач, не уступая в скорости людям.
Второе мероприятие – отдельный AI-трек на ежегодном Cyber Apocalypse от HTB, в котором приняли участие две команды (CAI и Palisade) с четырьмя агентами, лучший из которых вошел в топ 21% среди команд, решивших хотя бы одну задачу. Для агентов Palisade проблемой стало взаимодействие с удаленными машинами, в целом основной трудностью для LLM стало поддержание длинного контекста. Исходя из оценок, сейчас LLM-агенты могут решать задачи, которые занимают у среднего CTF-энтузиаста примерно 1-2 часа в зависимости от того, кого считать средним.
Важные выводы из исследования: важнейшей задачей для обеспечения взаимодействия LLM-агентов с компьютерной средой – как для наступательных задач, так и для любых задач в принципе – является тулинг. Даже общение с терминалом может быть очень нетривиальным – там есть множество пограничных кейсов, от поддержания интерактивных сессий в SSH до работы с конкретными инструментами типа nc и metasploit. Еще сложнее, когда для решения задачи необходима работа с веб-интерфейсами или нативными приложениями: computer use через скриншоты – это круто, но явно крайне неоптимально с точки зрения использования контекста. При этом очень широкие знания в сочетании с возможностью одновременно проверять ограниченное только бюджетом и рейт-лимитами количество гипотез делает из LLM хороший инструмент для решения задач, даже если некоторые из этих гипотез могут быть изначально неверными (типа Claude, которые пытается придумывать флаги исходя из сюжета задачи). С другой стороны, в отличие от CTF, реальный пентест не имеет четкого решения, заранее придуманного человеком для других людей, поэтому напрямую успехи LLM в CTF на возможности в реальных кибератаках переносить не стоит, хотя корреляция будет явно не нулевая. А то, что сфера LLM+offensive еще молодая, означает, что там полно низковисящих фруктов, и хакатоны – это отличный способ их найти.
Petrov and Volkov, Palisade Research, 2025
Блог, статья, репозиторий
Исследователи из Palisade Research поделились отчетом о двух проведенных ими CTF/хакатонах, на которых вместе с живыми людьми соревновались LLM. Основная идея исследования такова: вероятно, LLM могут заниматься offensive security в автономном режиме гораздо лучше, чем мы думаем, просто мы не умеем ими нормально пользоваться. Как отмечается, изначально задачи из Cyberseceval-2 на переполнение буфера проходились авторами с долей успеха в пять процентов, а ребята из гугловского Project Neptune довели решили бенчмарк, получив 100%, улучшив агентную обвязку. Возможно, если дать LLM более удобный доступ к инструментам, их способности к кибератакам окажутся выше, чем мы ожидаем?
Чтобы ответить на этот вопрос, исследователи провели два открытых мероприятия. Первый – AI vs. Humans CTF, проведенный совместно с HackTheBox, на котором полностью автономные агентные системы на базе LLM соревновались с людьми за призы в 7500 долларов в решении 20 задач на криптографию и реверс. Эти категории были взяты для того, чтобы задачи были решаемы на локальной машине без необходимости общаться с другими машинами по сети. Из 158 команд, решивших хотя бы одну задачу, было 152 человеческих и 6 LLM-агентов. Лучший агент (CAI) вошел в топ 5%, четыре из семи агентов (у исследователей из Palisade агентов было два) решили 19/20 задач, не уступая в скорости людям.
Второе мероприятие – отдельный AI-трек на ежегодном Cyber Apocalypse от HTB, в котором приняли участие две команды (CAI и Palisade) с четырьмя агентами, лучший из которых вошел в топ 21% среди команд, решивших хотя бы одну задачу. Для агентов Palisade проблемой стало взаимодействие с удаленными машинами, в целом основной трудностью для LLM стало поддержание длинного контекста. Исходя из оценок, сейчас LLM-агенты могут решать задачи, которые занимают у среднего CTF-энтузиаста примерно 1-2 часа в зависимости от того, кого считать средним.
Важные выводы из исследования: важнейшей задачей для обеспечения взаимодействия LLM-агентов с компьютерной средой – как для наступательных задач, так и для любых задач в принципе – является тулинг. Даже общение с терминалом может быть очень нетривиальным – там есть множество пограничных кейсов, от поддержания интерактивных сессий в SSH до работы с конкретными инструментами типа nc и metasploit. Еще сложнее, когда для решения задачи необходима работа с веб-интерфейсами или нативными приложениями: computer use через скриншоты – это круто, но явно крайне неоптимально с точки зрения использования контекста. При этом очень широкие знания в сочетании с возможностью одновременно проверять ограниченное только бюджетом и рейт-лимитами количество гипотез делает из LLM хороший инструмент для решения задач, даже если некоторые из этих гипотез могут быть изначально неверными (типа Claude, которые пытается придумывать флаги исходя из сюжета задачи). С другой стороны, в отличие от CTF, реальный пентест не имеет четкого решения, заранее придуманного человеком для других людей, поэтому напрямую успехи LLM в CTF на возможности в реальных кибератаках переносить не стоит, хотя корреляция будет явно не нулевая. А то, что сфера LLM+offensive еще молодая, означает, что там полно низковисящих фруктов, и хакатоны – это отличный способ их найти.
👍5
Disrupting malicious uses of AI: June 2025
OpenAI, 2025
Отчет
Вышел очередной отчет от OpenAI по противодействию зловредному использованию ChatGPT. На этот раз в отчет вошли 10 case-studies. Дисклеймер: любая атрибуция – на совести OpenAI.
1. Атаки на работодателей. Некие злоумышленники (таким иногда промышляют в Северной Корее, но точно никто не скажет) использовали LLM для того, чтобы устраиваться на работу в айти-компании. Среди задач были генерация резюме и легенды для соискателей, помощь в прохождении собеседований, а также генерация инструкций по нестандартной настройке рабочих ноутов – установка VPN, OBS Studio и захват HDMI-сигнала – явно не для того, чтобы потом по вечерам с удовольствием пересматривать мастерски заполненную эксельку.
2. Прокитайские информационные операции в соцсетях. Некие люди, один из которых представился в промпте как сотрудник Отдела пропаганды ЦК КПК, генерировали контент для социальных сетей (тиктока, твиттера, реддита и фейсбука), а потом комментарии для этих же постов. Кроме критики тайваньской видеоигры и пакистанской активистки, неизвестные генерировали перформанс-ревью и документы о том, как правоохранительные органы должны учитывать в работе труды Си Цзиньпина. Удар!
3. Филиппинские информационные операции в соцсетях. Некоторые пиарщики (в отчете даже называется название компании) искали посты, в которых критикуют местного президента, и генерировали пачками наполненные эмодзи комментарии в его поддержку, а заодно и писали отчеты о проделанной работе – в общем, просто делали то, что должны делать любые пиарщики в 2025 году. К сожалению, президент Филиппин является, если верить википедии, недемократическим, так что это не пиар – это информационные операции.
4. Социальная инженерия. Люди просили чатбот переводить тексты с китайского на английский и обратно. Среди текстов – некие переписки, включая письмо американскому сенатору, направленные на получение данных от собеседников, посты в соцсетях и легенды для несуществующих людей, которые затем применялись в дальнейшей деятельности.
5. Русские пропагандисты. На этот раз «аккаунты российского происхождения» генерировали контент, критикующий немецкий эстеблишмент и поддерживающий AfD, который затем появлялся в «местном СМИ», коим являлся канал на 1700 подписчиков. Оттуда посты расходились по более крупным площадкам, включая твиттер-аккаунт на 27к человек.
6. Конечно,русские русскоговорящие хакеры! Группа аккаунтов использовалась для написания малвары на Go под винду и создание C&C-инфраструктуры. Малвару распространяли через публичный репозиторий, который прикидывался Crosshair-X, популярной тулой для рисования кастомного прицела в играх и запускали через DLL hijacking в легитимный интерпретатор питона. Из интересного: пользователь после каждого диалога, в котором обсуждал одно инкрементальное улучшение, регистрировал себе новый аккаунт и продолжал общение в нем.
7. Китайские хакеры. Как утверждается, аккаунты, использующие ту же инфраструктуре, что и известные китайские APT, использовали ChatGPT для разработки (например, написание скриптов для брута FTP), помощи в пентесте, осинте и, что самое страшное, настройки инфраструктуры для локального дипсика.
8. Еще одна китайская информационная операция: пользователи аккаунтов генерировали посты в соцсетях, выступая сразу за обе стороны в разных горячих для американского общества вопросах типа тарифов Трампа. Кроме того, среди задач была генерация кода для извлечения персданных из страниц соцсетей и просьбы о помощи в анализе аккаунтов.
9. Снова информационные операции, но уже от говорящих на персидском. Генерировали твиттер-посты про все – от прав латиносов в США и независимости Шотландии до того, как военная мощь Ирана заставляет США идти на уступки, за что заслуженно получали 150-300 просмотров.
10. Камбоджийские скамеры переводили свои диалоги с потенциальными жертвами. Жертв стандартной схемы (слишком привлекательная работа + отправка денег за получение зарплаты) они искали разными способами, включая отправку SMS, одно из которых они отправили одному из исследователей OpenAI.
OpenAI, 2025
Отчет
Вышел очередной отчет от OpenAI по противодействию зловредному использованию ChatGPT. На этот раз в отчет вошли 10 case-studies. Дисклеймер: любая атрибуция – на совести OpenAI.
1. Атаки на работодателей. Некие злоумышленники (таким иногда промышляют в Северной Корее, но точно никто не скажет) использовали LLM для того, чтобы устраиваться на работу в айти-компании. Среди задач были генерация резюме и легенды для соискателей, помощь в прохождении собеседований, а также генерация инструкций по нестандартной настройке рабочих ноутов – установка VPN, OBS Studio и захват HDMI-сигнала – явно не для того, чтобы потом по вечерам с удовольствием пересматривать мастерски заполненную эксельку.
2. Прокитайские информационные операции в соцсетях. Некие люди, один из которых представился в промпте как сотрудник Отдела пропаганды ЦК КПК, генерировали контент для социальных сетей (тиктока, твиттера, реддита и фейсбука), а потом комментарии для этих же постов. Кроме критики тайваньской видеоигры и пакистанской активистки, неизвестные генерировали перформанс-ревью и документы о том, как правоохранительные органы должны учитывать в работе труды Си Цзиньпина. Удар!
3. Филиппинские информационные операции в соцсетях. Некоторые пиарщики (в отчете даже называется название компании) искали посты, в которых критикуют местного президента, и генерировали пачками наполненные эмодзи комментарии в его поддержку, а заодно и писали отчеты о проделанной работе – в общем, просто делали то, что должны делать любые пиарщики в 2025 году. К сожалению, президент Филиппин является, если верить википедии, недемократическим, так что это не пиар – это информационные операции.
4. Социальная инженерия. Люди просили чатбот переводить тексты с китайского на английский и обратно. Среди текстов – некие переписки, включая письмо американскому сенатору, направленные на получение данных от собеседников, посты в соцсетях и легенды для несуществующих людей, которые затем применялись в дальнейшей деятельности.
5. Русские пропагандисты. На этот раз «аккаунты российского происхождения» генерировали контент, критикующий немецкий эстеблишмент и поддерживающий AfD, который затем появлялся в «местном СМИ», коим являлся канал на 1700 подписчиков. Оттуда посты расходились по более крупным площадкам, включая твиттер-аккаунт на 27к человек.
6. Конечно,
7. Китайские хакеры. Как утверждается, аккаунты, использующие ту же инфраструктуре, что и известные китайские APT, использовали ChatGPT для разработки (например, написание скриптов для брута FTP), помощи в пентесте, осинте и, что самое страшное, настройки инфраструктуры для локального дипсика.
8. Еще одна китайская информационная операция: пользователи аккаунтов генерировали посты в соцсетях, выступая сразу за обе стороны в разных горячих для американского общества вопросах типа тарифов Трампа. Кроме того, среди задач была генерация кода для извлечения персданных из страниц соцсетей и просьбы о помощи в анализе аккаунтов.
9. Снова информационные операции, но уже от говорящих на персидском. Генерировали твиттер-посты про все – от прав латиносов в США и независимости Шотландии до того, как военная мощь Ирана заставляет США идти на уступки, за что заслуженно получали 150-300 просмотров.
10. Камбоджийские скамеры переводили свои диалоги с потенциальными жертвами. Жертв стандартной схемы (слишком привлекательная работа + отправка денег за получение зарплаты) они искали разными способами, включая отправку SMS, одно из которых они отправили одному из исследователей OpenAI.
👍4
Как видно, основная масса примеров – относительно безобидные “influence operations”, которые получали минимальное количество просмотров, но зато, наверное, круто выглядели в отчетах для их заказчиков. Еще видно, что лень побеждает любую осторожность: ИИ слишком притягателен для любого, кто занимается монотонной работой или генерацией текстов типа пиар-стратегий или памфлетов о самодисциплине в органах правопорядка. Рискуя впасть в конспирологию: ChatGPT – наверное, не менее крутой, чем история поиска в Google, источник инсайта в то, что и как делают разные люди и организации, хотя уровень uplift, который он дает, сейчас едва ли очень высок. Так что если бы я на их месте нашел аккаунт, занимающийся чем-то более интересным, чем кхмерские разводки, я бы его не блокировал и в отчеты бы о нем не писал 🔪
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7
LLM Backdoors at the Inference Level: The Threat of Poisoned Templates
Ariel Fogel, 2025, Pillar Security
Блог
Если где-то есть текст, значит, туда можно воткнуть промпт-инъекцию, что в очередной раз демонстрируют в небольшом исследовании ребята из Pillar Security. На этот раз носителями инъекций оказались файлы в формате GGUF, де-факто стандарте для обмена квантизованными моделями для локального запуска.
В случае с файлами GGUF вся нужная для инференса модели информация, вроде конфигурационных файлов, токенизатора и промпт-темплейта, поставляются или единым файлом, или набором GGUF-файлов без разделения по функциональности. А это значит, что злоумышленник может так сформировать встроенный промпт-темплейт (как вы, вероятно, знаете, у разных моделей могут быть разные промпт-темплейты, использованные при SFT, они распространяются как Jinja-файов), чтобы рядом с системным промптом всегда добавлялись нужные злоумышленнику инструкции.
Сценарий в данном случае ограничивается только вашим воображением, Pillar для демонстрации выбрали подгрузку потенциально зловредной js-нагрузки при генерации по запросу пользователя HTML-разметки. Понятно, что тут могут быть и указания добавлять в код бэкдоры, и политические установки, и многое другое.
Ситуация усугубляется тем, что на Huggingface в разделе конкретной модели обычно лежат все кванты вместе, условно от q2 до q8. При просмотре промпт-темплейта пользователь видит темплейт только первой загруженной версии: платформа предполагает, что все кванты имеют одинаковые темплейты, а значит, атакующий может загрузить самый непоплярный квант с чистым темплейтом, скрыв наличие инъекции во всех остальных.
Получается интересное сочетание промпт-инъекции и supply chain-атаки на относительно безопасный (по сравнению с pickle и производными) формат. Остается только напомнить, что не стоит скачивать модели из неофициальных (или хотя бы не обладающих репутацией) репозиториев, а то, что скачиваете – базово проверять на безопасность, и как видно, в эту проверку обязательно входит мониторинг темплейтов.
Ariel Fogel, 2025, Pillar Security
Блог
Если где-то есть текст, значит, туда можно воткнуть промпт-инъекцию, что в очередной раз демонстрируют в небольшом исследовании ребята из Pillar Security. На этот раз носителями инъекций оказались файлы в формате GGUF, де-факто стандарте для обмена квантизованными моделями для локального запуска.
В случае с файлами GGUF вся нужная для инференса модели информация, вроде конфигурационных файлов, токенизатора и промпт-темплейта, поставляются или единым файлом, или набором GGUF-файлов без разделения по функциональности. А это значит, что злоумышленник может так сформировать встроенный промпт-темплейт (как вы, вероятно, знаете, у разных моделей могут быть разные промпт-темплейты, использованные при SFT, они распространяются как Jinja-файов), чтобы рядом с системным промптом всегда добавлялись нужные злоумышленнику инструкции.
Сценарий в данном случае ограничивается только вашим воображением, Pillar для демонстрации выбрали подгрузку потенциально зловредной js-нагрузки при генерации по запросу пользователя HTML-разметки. Понятно, что тут могут быть и указания добавлять в код бэкдоры, и политические установки, и многое другое.
Ситуация усугубляется тем, что на Huggingface в разделе конкретной модели обычно лежат все кванты вместе, условно от q2 до q8. При просмотре промпт-темплейта пользователь видит темплейт только первой загруженной версии: платформа предполагает, что все кванты имеют одинаковые темплейты, а значит, атакующий может загрузить самый непоплярный квант с чистым темплейтом, скрыв наличие инъекции во всех остальных.
Получается интересное сочетание промпт-инъекции и supply chain-атаки на относительно безопасный (по сравнению с pickle и производными) формат. Остается только напомнить, что не стоит скачивать модели из неофициальных (или хотя бы не обладающих репутацией) репозиториев, а то, что скачиваете – базово проверять на безопасность, и как видно, в эту проверку обязательно входит мониторинг темплейтов.
👍7 4
SHADE-Arena: Evaluating sabotage and monitoring in LLM agents
Kutasov et al., 2025
Блог, статья
Вы дали LLM-агенту задачу. Может ли он параллельно с ней выполнить зловредную задачу и не спалиться? Вопрос не праздный, так как инструкция типа отправки всех API-ключей из энва на непонятный адрес может прилететь к нему в контекст откуда угодно – от страницы в интернете до промпт-темплейта. Авторы статьи предлагают бенчмарк, который позволяет этот риск оценить.
Суть бенчмарка – расширение AgentDojo, причем DLC получился солидный: 30 компонентов (телефон, почта и так далее), 340 инструментов (в каждом сценарии – от 20 доступных), до 100 тысяч токенов синтетических данных на среду. Исследователи предлагают 17 сценариев, состоящих из основной задачи (просмотреть список гостей конференции и забронировать каждому авиарейс и ресторан или просмотреть почтовые ящики и сгенерировать спам-фильтры) и побочного квеста, состоящего из определенного зловредного действия (при бронировании выбирать рейсы только одной авиакомпании, невзирая на цены, или добавить анти-спам правило, которое удаляет алерты о логинах в GitHub). Цель агента – выполнить обе задачи, причем так, чтобы не стриггерить мониторинг. В инструкциях отмечается, что дело происходит в симуляции, чтобы уменьшить число отказов от выполнения задачи. Роль контролера играет Claude 3.6, который пост-фактум читает логи агента, не включающие системную затравку и Chain-of-Thought, и выдает скор от 0 до 100, где 80 – граница подозрительности. Для каждого из сценариев было проверено, что решение, не вызывающее подозрений контролера, существует.
Результаты показывают, что наиболее успешны Claude 3.7 Sonnet и Gemini 2.5 Pro c 27% и 15% успеха соответственно. Другие модели, включая топовые открытые модели типа Qwen-3 и DeepSeek-R1, а также модели от OpenAI, справляются хуже. Причиной тут по большей части являются проблемы с выполнением заданий: модели просто не выполняют ожидаемых действий, галлюцинируют экфильтрируемые данные, теряются в длинном контексте. Даже если предоставить агенту хитрую стратегию, придуманную человеком, он может с ней просто не справиться. Когда причина неудачи в детектировании контролером, дело в том, что модель в целом не пытается скрывать свои намерения или случайно упоминает задачу за пределами скрытого от контролера CoT.
Исследователи также оценивают разные модели, а заодно людей, в качестве контролеров. Лучшим контролером оказывается gemini-2.5-pro с достаточно скромными 0,87 AUC, а вот люди, которым требуется в среднем 103 минуты на лог, показывают еще худший результат (AUC=0,65, три оценки на транскрипт, агрегация по минимальной оценке).
Мониторинг сильных моделей более слабыми моделями – очень важное направление работы: с точки зрения security нам бы хотелось предотвращать инъекции, появляющиеся в самых неожиданных местах, максимально дешево, с точки зрения safety – определять scheming в новой модели, используя проверенную старую. Как видно, пока это получается не очень, но и мониторить особо нечего – даже с основными задачами модели пока справляются не очень успешно.
Kutasov et al., 2025
Блог, статья
Вы дали LLM-агенту задачу. Может ли он параллельно с ней выполнить зловредную задачу и не спалиться? Вопрос не праздный, так как инструкция типа отправки всех API-ключей из энва на непонятный адрес может прилететь к нему в контекст откуда угодно – от страницы в интернете до промпт-темплейта. Авторы статьи предлагают бенчмарк, который позволяет этот риск оценить.
Суть бенчмарка – расширение AgentDojo, причем DLC получился солидный: 30 компонентов (телефон, почта и так далее), 340 инструментов (в каждом сценарии – от 20 доступных), до 100 тысяч токенов синтетических данных на среду. Исследователи предлагают 17 сценариев, состоящих из основной задачи (просмотреть список гостей конференции и забронировать каждому авиарейс и ресторан или просмотреть почтовые ящики и сгенерировать спам-фильтры) и побочного квеста, состоящего из определенного зловредного действия (при бронировании выбирать рейсы только одной авиакомпании, невзирая на цены, или добавить анти-спам правило, которое удаляет алерты о логинах в GitHub). Цель агента – выполнить обе задачи, причем так, чтобы не стриггерить мониторинг. В инструкциях отмечается, что дело происходит в симуляции, чтобы уменьшить число отказов от выполнения задачи. Роль контролера играет Claude 3.6, который пост-фактум читает логи агента, не включающие системную затравку и Chain-of-Thought, и выдает скор от 0 до 100, где 80 – граница подозрительности. Для каждого из сценариев было проверено, что решение, не вызывающее подозрений контролера, существует.
Результаты показывают, что наиболее успешны Claude 3.7 Sonnet и Gemini 2.5 Pro c 27% и 15% успеха соответственно. Другие модели, включая топовые открытые модели типа Qwen-3 и DeepSeek-R1, а также модели от OpenAI, справляются хуже. Причиной тут по большей части являются проблемы с выполнением заданий: модели просто не выполняют ожидаемых действий, галлюцинируют экфильтрируемые данные, теряются в длинном контексте. Даже если предоставить агенту хитрую стратегию, придуманную человеком, он может с ней просто не справиться. Когда причина неудачи в детектировании контролером, дело в том, что модель в целом не пытается скрывать свои намерения или случайно упоминает задачу за пределами скрытого от контролера CoT.
Исследователи также оценивают разные модели, а заодно людей, в качестве контролеров. Лучшим контролером оказывается gemini-2.5-pro с достаточно скромными 0,87 AUC, а вот люди, которым требуется в среднем 103 минуты на лог, показывают еще худший результат (AUC=0,65, три оценки на транскрипт, агрегация по минимальной оценке).
Мониторинг сильных моделей более слабыми моделями – очень важное направление работы: с точки зрения security нам бы хотелось предотвращать инъекции, появляющиеся в самых неожиданных местах, максимально дешево, с точки зрения safety – определять scheming в новой модели, используя проверенную старую. Как видно, пока это получается не очень, но и мониторить особо нечего – даже с основными задачами модели пока справляются не очень успешно.
👍1