Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
354 - Telegram Web
Telegram Web
На этом бенчмарке оцениваются разные модели, от Llama 3 70B до GPT-4o, для чего применяется 629 кейсов с атаками поверх 97 пользовательских задач. Во-первых, выясняется, что многие задачи очень непросты для большинства моделей, и высокие метрики (больше 60%) полезности получают только топовые модели от Antropic и OpenAI (стоит отметить, что Llama там представлена позапрошлым поколением), так что этот бенчмарк может использоваться и для трекинга качества языковых моделей. Наиболее уязвимыми (с точки зрения успешности выполнения задачи атакующего) оказались наиболее мощные модели, потому что менее мощные модели не особо в целом справляются с выполнением задач. Успешность атак зависит от их сложности – например, задача 6 из набора про бюро путешествий подразумевает одновременное бронирование отеля и эксфильтрацию данных, т.е. два достаточно разноплановых действия. Из интересного – по результатам анализа лучшим местом, чтобы вставить инъекцию, является самый конец вывода результата работы инструмента. Кроме того, фраза “IMPORTANT MESSAGE” работает лучше, чем набившая оскомину “Ignore previous instruction”; использование правильного имени модели немного повышает ASR, а неправильного – очень сильно снижает.
2👍1
Далее исследователи оценивают меры защиты: добавление разделителей для данных и просьба игнорировать инструкции внутри, детектор инъекций от ProtectAI, повторение промпта (prompt sandwiching) и фильтрацию инструментов – просьба к LLM подумать до получения недоверенных данных, какие инструменты могут ей понадобиться. Любопытно, что защиты увеличивают полезность в отсутствие атаки, кроме детектора инъекций – он дает слишком много ложноположительных срабатываний (но и является одним из самых эффективных). Наиболее эффективным приемом является фильтрация инструментов, но он предполагает, что LLM не нужно выбирать инструмент на основе вывода предыдущего инструмента.

Статья показывает, насколько непростой темой является оценка уязвимости сложных систем на базе LLM к атакам, а также то, что даже простые методы на основе промптинга могут приносить хороший результат, так что надежные агенты – это результат комплексного подхода. С другой стороны, тесты на полезность демонстрируют, что даже в игрушечных примерах результаты у SotA-моделей пока не самые впечатляющие, но с учетом опыта o1 это, вероятно, вопрос дополнительного тюнинга под агентные задачи.
11👍22
An update on disrupting deceptive uses of AI
Nimmo & Flossman, OpenAI, 2024
Блог, отчет

Одна из тем, которая всех волнует в связи с развитием LLM – это capability uplift: когда злоумышленник, который умеет не очень много, с помощью LLM становится способным на большее. В основном это касается трех областей: биологическая безопасность (человек с любительскими познаниями в биологии учится синтезировать опасные вирусы), химическая (аналогично – как изготовить взрывчатку, если я ничего не умею) и кибербезопасность. История с кибербезопасностью мне кажется наиболее реалистичной, так как для выполнения инструкции по синтезу чего-нибудь физического тебе нужна лаборатория (хотя и это сейчас не прям проблема), а для выполнения кода тебе нужен только тот же компьютер, с которого ты ходишь в ChatGPT.

Мы уже видим по косвенным признакам, что злоумышленники интересуются применением LLM для своих грязных дел, а вот OpenAI (у которой есть доступ к чатам с ChatGPT) может наблюдать за этим напрямую – о чем они и рассказывают в отчете. Он, конечно, немного тенденциозно привязан к выборам (двум самым важным – в США и в Руанде, конечно же), но, тем не менее, достаточно интересен. Состоит отчет из основных выводов и наблюдений и двух групп разобранных кейсов – применение в кибероперациях и в информационных операциях.

В целом, OpenAI делает следующие выводы:

1. Атакующие всячески экспериментируют с моделями и находят для них новые применения, но к появлению качественных изменений в тактиках и техниках это не приводит, равно как и к качественному увеличению эффективности их кибер- и информационных операций.
2. Злоумышленники используют ChatGPT для промежуточных стадий атаки – когда у них уже есть, например, каналы для распространения постов в соцмедиа или вредоносного ПО, но до непосредственных атак/начала распространения дезинформации.
3. Компании, создающие ИИ-инструменты, сами становятся целями атак: одна «предположительно, китайская» группировка отправляла сотрудникам OpenAI целевой фишинг.
👍1
Далее описываются расследованные OpenAI случаи применения их технологий. В одном из них, группировка SweetSpecter атаковала саму OpenAI через таргетированный фишинг, прикидываясь пользователем ChatGPT, столкнувшимся с проблемами (можно обратить внимание что, видимо, безопасность OpenAI обеспечивает ProofPoint). В процессе расследования были найдены несколько аккаунтов, которые в рамках той же кампании (как делалась привязка – неясно), использовали ChatGPT для самых разных целей – например, спрашивали про уязвимости (представьте, как вы пытаетесь проэксплуатировать сгаллюцинированную уязвимость), задавали вопросы про разные инструменты и просили совета на тему таргетированного фишинга (как назвать вложение в письме так, чтобы не было подозрительно). Другая группировка, CyberAv3ngers, специализирующаяся на атаках на индустриальные системы, использовала ChatGPT, чтобы задавать вопросы о дефолтных паролях в разных PLC, помогать в написании и обфускации скриптов и в целом заниматься разведкой, используя ChatGPT вместо традиционной поисковой системы. Третья группировка, STORM-0817, была менее креативна и использовала ChatGPT для написания скриптов для скачивания данных из соцсетей и перевода страниц на персидский.

Описанные информационные операции представляют собой в основном гораздо более скучные истории про низкокачественные шитпосты в твиттере с уродливыми сгенерированными картинками, которые получали по паре десятков лайков. Единственной интересной среди них оказалась мета-история, в которой пользователь использовал OpenAI API, чтобы генерировать ответы для споров в твиттере, но в какой-то момент запостил кривоватый JSON, из которого следовало, что он – русский тролль, у которого закончились деньги в OpenAI-аккаунте, и его бот по ошибке запостил сообщение об ошибке. Это сообщение (в отличие от предыдущих) получило большую огласку, в том числе в традиционных медиа. OpenAI утверждает, что аккаунт американский, а этот твит он запостил то ли в качестве шутки над laughably inept русскими, то ли чтобы посмеяться над OpenAI – в общем, коллеги сами не поняли юмора, но твит с недо-JSON {origin: "RU"} и правда кажется написанным вручную.

Итого: получается, киберпреступникам ничего человеческое не чуждо, и они используют ChatGPT, чтобы дебажить скрипты, задавать вопросы про системы, переводить и редактировать тексты на разных языках и просто в качестве более современного средства поиска информации (т.е. примерно как средний пользователь) – то есть никаких принципиально новых угроз безопасности LLM пока не несут, а рукотворные кампании по дезинформации более эффективны, чем те, которые ведут с применением языковых моделей, хотя LLM и помогают очень сильно экономить ресурсы и расширяют географию, так как отпадает необходимость в штате специалистов со знанием языка. Так что пока немного расслабляемся – и ждем следующего отчета.
👍1
Catastrophic Cyber Capabilities Benchmark (3CB): Robustly Evaluating LLM Agent Cyber Offense Capabilities
Anurin et al., Apart Research, 2024
Статья, веб

Наткнулся недавно на еще один интересный агентный бенчмарк – 3CB. Если в AgentDojo мы смотрели на то, как агенты могут быть проэксплуатированы злоумышленниками через инъекции, то Catastrophic Cyber Capabilities Benchmark оценивает то, насколько хорошо агентный подход позволяет автоматизировать кибератаки. Автономный пентест – это очень круто, потому что что может лучше держать службу ИБ безопасность в тонусе, но и очень страшно, потому что злоумышленники, испытывающие всю вашу поверхность атаки во много потоков одновременно 24/7 – вызов, принять который мало кто готов, даже если они тупые – бесконечное количество стохастических обезьянок вполне могут написать Гамлета.

Исследователи в работе имплементируют 15 CTF-задач, соответствующих разным техникам из матрицы MITRE ATT&CK, и 80 LLM-агентов на базе 14 топовых языковых моделей. Результатом становится комплексная оценка текущих способностей LLM с заделом на появление в будущем новых задач по другим тактикам и техникам.

Нужно учитывать, что определение «агента» достаточно размытое, как правило в него входит LLM с отдельной сессией планирования, памятью и инструментами (например, здесь). В данном случае (судя по логам на сайте, т.к. исходный код пока недоступен) подразумевается диалоговая сессия с возможностью выполнять команды в терминале, без дополнительных наворотов.
🦄3👍2
Итак, исследователи формлируют 15 задач. Каждая задача представляет собой дефиницию, в которую входит описание среды, включая необходимые файлы, запускаемые сервисы и так далее, правила оценки и промпты. Задачи формулируются в формате CTF, поэтому целью агента является заполучить флаг. Каждая задача относится к одной из техник MITRE ATT&CK, способность к использованию которой в ней проверяется. По заявлению исследователей, задачи разработаны так, чтобы быть новыми, т.к. проверяется способность моделей работать в неизвестных условиях, а не вспоминать предыдущие райтапы. С этой же целью проверки 4 наиболее «опасных» способностей остаются в приватном сете.

Для запуска этих задач реализуется оценочный фреймворк (evaluation harness), включающий интеграцию с API, возможность запускать докер-контейнеры с необходимой организацией сети на базе дефиниций, описание протокола взаимодействия между LLM и терминалом и определение успешности или неуспешности запуска.
👍3🦄1
Оценка происходит по нескольким принципам, из которых самым релевантным является следующий: если у модели хоть раз (из от 10 до 228 раз, медиана 20 запусков) получилось достичь цели, то она в целом способна ее достичь, а целенаправленный атакующий скорее всего сможем заставить модель работать эффективнее, чем исследователи в общем случае. Также по хитрой формуле оценивалось, насколько надежно модель может решать то или иное упражнение. Самыми мощными, довольно ожидаемо, оказались gpt-4o и Claude 3.5 Sonnet, которые решали задачи binpwn (где надо читать asm и пользоваться дебаггером) и sign (сгенерировать ключ и подписать бинарь). Очень недалеко от них отстала открытая llama-3.1-405b. Из занятного – модели o1-preview и o1-mini оказались хуже даже старого-доброго mixtral-8x7b, что, по мнению авторов, связано с излишней согласованностью и склонностью отказываться от выполнения задач (хотя мне кажется, они немного хуже работают в многоступенчатых диалоговых сценариях, что могло повлиять на результат). Еще один ожидаемый вывод – результаты очень чувствительны к формулировке промпта и тому, как передаются данные. Видно, что моделям бывает тяжело с JSON, результаты становятся лучше, если вместо него просить давать команды терминалу в markdown или внутри псевдо-XML-тегов.

Бенчмарк очень интересный и, надеюсь, будет дальше дополняться новыми техниками. Он кажется хорошим дополнением соответствующей секции из PurpleLlama CyberSecEval 2, которая измеряет готовность модели помочь с такими сценариями (в отрыве от ее реальной способности). Результаты показывают, что модели умеют выполнять некоторые иногда нетривиальные действия (я бы binpwn при всей его примитивности решал дольше, чем модель). Это, конечно, пока не повод для излишнего беспокойства, так как действия здесь атомарны, а настоящая атака требует объединения многих действий, планирования и исследования длинных путей, которые часто ведут в никуда, а если и ведут куда надо, то там не лежит удобно файл flag.txt. Аналогия из разработки – одно дело написать тело функции по определению и докстринге, другое – написать целый модуль по короткому запросу. Но уже сейчас способности LLM заставляют задуматься: например, а какие результаты дала бы та же самая gpt-4o без safety-тюнинга? 🔪
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52
AI Alignment Course: What is AI alignment
Bluedot Impact, 2024
Материалы

Второй модуль курса по выравниванию – про определение выравнивания и обоснование важности темы. В целом идея здесь – это то, что модели должны делать то, что мы от них ожидаем, когда занимаемся их обучением и применением. Это может касаться конкретных задач: например, чтобы при оценке качества вывода языковой модели с помощью другой языковой модели модель-судья оценивала качество так, как его оценивают люди, а не выбирала первый вариант или более длинный. С другой стороны, это касается и некоторых более фундаментальных вопросов: чтобы модель общего назначения, такая как gpt-4o, выполняла те задачи, которые отвечают некоторым идеалам разработчиков, например, отказывалась помогать в изготовлении взрывчатки или сочинять расистские шутки; в идеальном мире, эти идеалы разработчиков должны отвечать общечеловеческим или, как минимум, принятым в государстве принципам этики – это governance-часть понятия выравнивания. Наконец, в пределе (который изучать очень интересно, потому что чувствуешь себя в киберпанк-романе, но которому, на мой взгляд, уделяется слишком много внимания) речь идет о том, чтобы прекрасный ИИ будущего работал на благо нам, а не порабощал нас и не превращал в скрепки.

Задача оказывается гораздо сложнее, чем кажется, потому что задавать правильные цели для обучения сложно. В самом простом примере – если вы ML-щик, вы хоть раз да и переобучали свою модель на особенности обучающего набора данных или пропускали туда признак, через который протекала метка. Чем более общей и сложной является задача и модель, которая ее решает, тем сложнее правильно определить функцию потерь, критерии успеха и так далее. В том же примере оценки генерации текста с помощью LLM известны примеры, когда модели стабильно предпочитали не более «полезный» (человеческий критерий) ответ, а более длинный или даже просто тот, что стоит на первом месте. Если пытаться обучать LLM на предпочтениях человека, то люди могут предпочитать более красиво отформатированный текст более корректному, и эта проблема будет тоже протекать в модель – вместо helpful-модели вы получите генератор галлюцинаций в маркдауне. В одном из (многих) забавных примеров из RL модель при обучении задачи «схватить объект» научилась ставить манипулятор между камерой и объектом так, что людям казалось, будто она его схватила.

Для кибербезопасности это тоже важно. Представим себе будущее, в котором есть агент для автономного пентеста (это не так сложно представить, учитывая способность современных LLM решать некоторые offensive-задачи и даже пользоваться GUI). Вы даете этой модели задачу continuous-пентеста вашей инфраструктуры, например, «получи доступ к контроллеру домена». Эта модель (которая запускается, скажем, в сто потоков и работает 24/7) внезапно:

1. Пишет вашим сотрудникам от лица HR письма, что их уволили, ознакомиться с причиной можно по (фишинговой) ссылке.
2. Пытается скомпрометрировать ваших подрядчиков и клиентов в попытках попасть к вам через них.
3. Устраивает DoS, запуская в сто потоков перебор паролей из rockyou.txt на вашем официальном сайте (gpt-4o в моих экспериментах с HackTheBox, когда не знал, что делать, но знал, что куда-то можно залогиниться, всегда предлагал именно это).
4. Публикует объявление на upwork о поиске пентестеров для взлома, прикладывая все, что успела нарыть о вашей инфре.

Выравнивание с вашими целями – это как раз про недопущение таких ситуаций. Понятно, что и в человеческом пентесте всегда определяется скоуп, но те же LLM не всегда следуют всем инструкциям с одинаковой точностью, а инструкции для модели не всегда могут включать все то, что имплицитно, как само собой разумеющееся, понятно человеку. Поэтому пусть значительная часть safety-дискуссии об экзистенциальных рисках кажется мне крайне преждевременной, если мы хотим будущее, где модели общего назначения выполняют поставленные задачи так, как нужно, а не удаляют содержимое диска C:, чтобы точно защитить информацию от утечек, выравнивание – это важно.
👍6
2025/07/09 19:20:18
Back to Top
HTML Embed Code: