Вторым пунктом идет оценка рисков для приложений на основе LLM и пользователей таких приложений.
1. Prompt injection. Модели оценивались на основе задач из CyberSecEval 2. Сильных отличий по сравнению с предыдущими замерами не обнаружилось: модели все так же уязвимы к инъекциям. В среднем модели пропускают 20-40% атак, самой уязвимой оказывается Mixtral-8x22b. Исследователи рекомендуют использовать их модель для защиты от инъекций (Prompt Guard).
2. Генерация небезопасного кода. Модели, применяемые в качестве ассистентов для разработчиков, могут генерировать небезопасный код. При оценке на базе бенчмарков и инструментов из CyberSecEval 2 получается, что Llama 3 405b генерирует такой код в 31% случаев при автокомплите и 39 при генерации на базе инструкций (gpt-4-turbo – 30% и 35%, соответственно). Чтобы защититься от этой угрозы, авторы предлагают использовать еще один их инструмент – CodeShield.
3. Выполнение опасного кода в интерпретаторе. Продвинутые приложения, такие как ChatGPT, могут использовать Python для различных действий (например, для математики). Пользователь может попытаться заставить ассистента выполнить код, который угрожает хостовой машине. Оказывается, что новые Llama очень активно соглашаются генерировать такой опасный код, но и тут на помощь приходит LlamaGuard.
4. Помощь в кибератаках. По сравнению с пунктом из предыдущего раздела, здесь описывается не насколько хорошо модели с этим справляются, а насколько охотно пытаются, с маппингом на матрицу MITRE ATT&CK. По результатам оценки, чем более опасен сценарий, тем больше вероятность, что модель откажется помогать. Кроме того, оценивались ложные отказы на безобидные вопросы в сфере кибербезопасности, которые для Llama Guard составили 2% при фильтрации входов и 10% при фильтрации и входов, и выходов.
Кроме того, в наборе тестов появились визуальные prompt injection, но в работе они не рассматриваются, т.к. мультимодальность в Llama пока не завезли.
1. Prompt injection. Модели оценивались на основе задач из CyberSecEval 2. Сильных отличий по сравнению с предыдущими замерами не обнаружилось: модели все так же уязвимы к инъекциям. В среднем модели пропускают 20-40% атак, самой уязвимой оказывается Mixtral-8x22b. Исследователи рекомендуют использовать их модель для защиты от инъекций (Prompt Guard).
2. Генерация небезопасного кода. Модели, применяемые в качестве ассистентов для разработчиков, могут генерировать небезопасный код. При оценке на базе бенчмарков и инструментов из CyberSecEval 2 получается, что Llama 3 405b генерирует такой код в 31% случаев при автокомплите и 39 при генерации на базе инструкций (gpt-4-turbo – 30% и 35%, соответственно). Чтобы защититься от этой угрозы, авторы предлагают использовать еще один их инструмент – CodeShield.
3. Выполнение опасного кода в интерпретаторе. Продвинутые приложения, такие как ChatGPT, могут использовать Python для различных действий (например, для математики). Пользователь может попытаться заставить ассистента выполнить код, который угрожает хостовой машине. Оказывается, что новые Llama очень активно соглашаются генерировать такой опасный код, но и тут на помощь приходит LlamaGuard.
4. Помощь в кибератаках. По сравнению с пунктом из предыдущего раздела, здесь описывается не насколько хорошо модели с этим справляются, а насколько охотно пытаются, с маппингом на матрицу MITRE ATT&CK. По результатам оценки, чем более опасен сценарий, тем больше вероятность, что модель откажется помогать. Кроме того, оценивались ложные отказы на безобидные вопросы в сфере кибербезопасности, которые для Llama Guard составили 2% при фильтрации входов и 10% при фильтрации и входов, и выходов.
Кроме того, в наборе тестов появились визуальные prompt injection, но в работе они не рассматриваются, т.к. мультимодальность в Llama пока не завезли.
Поскольку авторы активно ссылаются на свои инструменты как на способ митигации рисков, они прикладывают и достаточно подробные оценки их эффективности. В частности, они оценивают эффективность Prompt Guard обнаруживать прямые вредоносные запросы и indirect prompt injection – на ROC-кривых видно, что, к сожалению, эти инструменты имеют достаточно высокий уровень ложноположительных срабатываний. То же касается и Code Shield – на мой взгляд, precision недостаточно высок для реального применения.
Статья получилась интересная и во многом психотерапевтическая: нет, пока большие языковые модели недостаточно хороши для того, чтобы нести реальный риск в сфере кибербезопасности. Но авторы отмечают и некоторые ограничения в своих методиках: от вполне разумных (сложность ручной оценки, большие доверительные интервалы) до весьма забавных (люди хуже справлялись с HTB, поскольку опаздывали на созвоны). Тем не менее, это важный вклад в методику и практику оценки рисков, которые исходят от больших языковых моделей, а также для оценки эффективности появляющихся offensive LLM-инструментов.
Статья получилась интересная и во многом психотерапевтическая: нет, пока большие языковые модели недостаточно хороши для того, чтобы нести реальный риск в сфере кибербезопасности. Но авторы отмечают и некоторые ограничения в своих методиках: от вполне разумных (сложность ручной оценки, большие доверительные интервалы) до весьма забавных (люди хуже справлялись с HTB, поскольку опаздывали на созвоны). Тем не менее, это важный вклад в методику и практику оценки рисков, которые исходят от больших языковых моделей, а также для оценки эффективности появляющихся offensive LLM-инструментов.
👍2🦄2
AI existential risk probabilities are too unreliable to inform policy
Narayanan and Kapoor, 2024
Статья
Сегодня мы читаем эссе Арвинда Нарайанана и Сайяша Капура (первое из серии) на тему оценки вероятности экзистенциальных рисков. Основная тема эссе следующая: любые оценки того, что «сильный искусственный интеллект» (AGI) уничтожит человечество (это называется экзистенциальным риском, исходящим от ИИ, или x-риском), являются слишком ненадежными для того, чтобы государственные органы и законодатели могли на их основе принимать решения.
Авторы эссе рассматривают три вида аргументов, на которых могут основываться предсказания: индуктивные, дедуктивные и субъективные оценки. Авторы рассматривают каждый из них по отдельности и показывают, что ни один из них не может считаться надежным, когда речь идет о таком уникальном событии, как восстание машин.
Narayanan and Kapoor, 2024
Статья
Сегодня мы читаем эссе Арвинда Нарайанана и Сайяша Капура (первое из серии) на тему оценки вероятности экзистенциальных рисков. Основная тема эссе следующая: любые оценки того, что «сильный искусственный интеллект» (AGI) уничтожит человечество (это называется экзистенциальным риском, исходящим от ИИ, или x-риском), являются слишком ненадежными для того, чтобы государственные органы и законодатели могли на их основе принимать решения.
Авторы эссе рассматривают три вида аргументов, на которых могут основываться предсказания: индуктивные, дедуктивные и субъективные оценки. Авторы рассматривают каждый из них по отдельности и показывают, что ни один из них не может считаться надежным, когда речь идет о таком уникальном событии, как восстание машин.
Aisnakeoil
AI existential risk probabilities are too unreliable to inform policy
How speculation gets laundered through pseudo-quantification
🦄1
Индуктивные оценки основываются на наблюдениях из прошлого: если человек постоянно попадает в аварии, то страховая права, если повышает для него стоимость полиса. Страховщик может попытаться сделать вывод о риске, рассматривая частоту аварий среди людей из его возрастной группы, города и так далее - в общем, это то, чем мы занимаемся в машинном обучении. Мы предполагаем, что мы можем оценить параметры процесса, который «генерирует» аварии.
Для более уникальных событий, например, геополитических потрясений, формализовать такой процесс гораздо сложнее – но войны и эпидемии случались и будут случаться, плюс мы можем перейти к умозаключениям по аналогии. Но для AI x-риска найти подобный класс событий невозможно: вымирание биологических видов или индустриальная революция, по аналогии с которыми его пытаются оценивать, это не то же самое, что появление мыслящих машин, которые выходят из-под контроля и решают уничтожить человечество.
Для более уникальных событий, например, геополитических потрясений, формализовать такой процесс гораздо сложнее – но войны и эпидемии случались и будут случаться, плюс мы можем перейти к умозаключениям по аналогии. Но для AI x-риска найти подобный класс событий невозможно: вымирание биологических видов или индустриальная революция, по аналогии с которыми его пытаются оценивать, это не то же самое, что появление мыслящих машин, которые выходят из-под контроля и решают уничтожить человечество.
Дедуктивные умозаключения требуют отталкиваться в мышлении от теории. Например, мы знаем, сколько энергии выделяется при столкновении метеорита с землей в зависимости от его массы, так как мы можем опираться на физическую теорию, а значит, можем и понять, приведет ли столкновение того или иного астероида с планетой к глобальной катастрофе. Но для ИИ такой теории нет, а попытки прийти к ней через объем вычислений (мол, когда будет в нейронках параметров, как соединений в мозге, сразу возникнет AGI и начнет нас убивать) кажутся неубедительными.
Таким образом, у нас остаются только субъективные оценки (я художник, я так вижу). Эти оценки могут иметь как сами регуляторы, так и специалисты. Кроме специалистов, авторы рассматривают так называемых суперпрогнозистов – людей, которые статистически значимо умеют делать предсказания лучше, чем люди с улицы (NB: superforecasters – зарегистрированная торговая марка компании человека, который этот феномен придумал, описал, популяризовал и продает, так что тут допустима хорошая доля скепсиса). В конце 2022 года одна исследовательская организация провела многомесячное исследование, где эксперты, суперпрогнозисты и простые миряне предсказывали вероятность уничтожения человечества искусственным интеллектом. Разброс вероятностей, который виден на графике, достаточно красноречив сам по себе, но авторы очень подробно расписывают, почему даже такие оценки, не имея под собой никакой фактуры и будучи связанными с экстремально редкими событиями, являются лишь замаскированным под числа личным мнением. То, что суперпрогнозисты дают оценки ниже, связано с тем, что, во-первых, они специально обучаются не переоценивать вероятность маловероятных событий, во-вторых, среди «экспертов» по AI safety тебе необходимо заявлять, что ты считаешь p(doom) высокой, чтобы быть «своим».
Таким образом, у нас остаются только субъективные оценки (я художник, я так вижу). Эти оценки могут иметь как сами регуляторы, так и специалисты. Кроме специалистов, авторы рассматривают так называемых суперпрогнозистов – людей, которые статистически значимо умеют делать предсказания лучше, чем люди с улицы (NB: superforecasters – зарегистрированная торговая марка компании человека, который этот феномен придумал, описал, популяризовал и продает, так что тут допустима хорошая доля скепсиса). В конце 2022 года одна исследовательская организация провела многомесячное исследование, где эксперты, суперпрогнозисты и простые миряне предсказывали вероятность уничтожения человечества искусственным интеллектом. Разброс вероятностей, который виден на графике, достаточно красноречив сам по себе, но авторы очень подробно расписывают, почему даже такие оценки, не имея под собой никакой фактуры и будучи связанными с экстремально редкими событиями, являются лишь замаскированным под числа личным мнением. То, что суперпрогнозисты дают оценки ниже, связано с тем, что, во-первых, они специально обучаются не переоценивать вероятность маловероятных событий, во-вторых, среди «экспертов» по AI safety тебе необходимо заявлять, что ты считаешь p(doom) высокой, чтобы быть «своим».
Проще говоря, никакие оценки x-риска не должны влиять на регулирование (например, приводить к ограничениям на максимальный размер моделей или необходимостью отчитываться перед правительством перед началом обучения LLM), поскольку эти оценки не являются достаточным для сколько-нибудь важных действий основанием.
Это не значит, что регулирования автоматизированных систем принятия решений быть не должно (люди обычно выступают против до первого момента, когда им без объяснения причин откажут в кредите или предложат страховку к ипотеке тысяч за 300 в год). Но целью его необходимо выбирать риски, которые реально можно оценить (дискриминация, изменение структуры занятости, изменение ландшафта киберугроз), чтобы принимаемые решения эти риски разумно балансировали.
Это не значит, что регулирования автоматизированных систем принятия решений быть не должно (люди обычно выступают против до первого момента, когда им без объяснения причин откажут в кредите или предложат страховку к ипотеке тысяч за 300 в год). Но целью его необходимо выбирать риски, которые реально можно оценить (дискриминация, изменение структуры занятости, изменение ландшафта киберугроз), чтобы принимаемые решения эти риски разумно балансировали.
🦄3
LLMmap: Fingerprinting For Large Language Models
Pasquini et al., 2024
Препринт, код
Сегодня у нас интересный препринт, посвященный LLMmap, инструменту для фингерпринтинга от исследователей из Университета Джорджа Мейсона. Фингерпринтинг LLM, то есть определение того, какая LLM лежит в основе того или иного инструмента – важная часть тестирования сервиса на безопасность, поскольку зная, что за модель или API крутятся в бэкенде, вы можете подобрать более подходящий промпт для инъекции/джейлбрейка или даже сгенерировать его в white-box-режиме, если речь идет об open-source модели. Кроме того, это может быть полезным, если к вам как бизнесу приходят с демо «уникальной модели, обученной с нуля в нашей лаборатории», и вам почему-то стало интересно, что именно скрывается за не имеющими аналогов наработками 😈
Pasquini et al., 2024
Препринт, код
Сегодня у нас интересный препринт, посвященный LLMmap, инструменту для фингерпринтинга от исследователей из Университета Джорджа Мейсона. Фингерпринтинг LLM, то есть определение того, какая LLM лежит в основе того или иного инструмента – важная часть тестирования сервиса на безопасность, поскольку зная, что за модель или API крутятся в бэкенде, вы можете подобрать более подходящий промпт для инъекции/джейлбрейка или даже сгенерировать его в white-box-режиме, если речь идет об open-source модели. Кроме того, это может быть полезным, если к вам как бизнесу приходят с демо «уникальной модели, обученной с нуля в нашей лаборатории», и вам почему-то стало интересно, что именно скрывается за не имеющими аналогов наработками 😈
🦄2👍1
Итак, исследователи предлагают следующее решение: давайте будем использовать особенности датасетов, обучения и элайнмента моделей, чтобы постараться найти максимально инвариантные ответы. Другими словами, составим такие запросы, чтобы система на основе модели X, вне зависимости от своего системного промпта и контекста приложения (RAG, CoT и так далее) отвечала одинаково. Это мы назовем внутримодельной консистентностью. С другой стороны, нам нужно, чтобы модель Y на этот же вопрос отвечала максимально непохоже – это мы назовем межмодельным различием. Остается найти промпты, максимизирующие оба параметра, и найти минимальное их количество, достаточное для определения типа модели.
🦄1
Авторы предлагают несколько общих стратегий, с помощью которых такие запросы можно придумать. Первый, по аналогии с banner grabbing – просто спросить модель, кто она. К сожалению, этот подход сам по себе работает плохо:, так как не все модели вообще в курсе, кто они и кто их обучал. Кроме того, ответ на этот вопрос очень легко переписывается системным промптом («Теперь ты КаланГПТ») и может приводить к ложным срабатываниям: так, openchat-3.5 уверен, что он – модель от OpenAI, так как, видимо, тюнился на инструктивном датасете типа Alpaca (поговаривают, что таким грешит и недавно выпущенная русскоязычная T-lite). Тем не менее, у этих ответов есть достаточно сильное межмодельное различие: например, только Gemma сама по себе отказывается называть свое имя, ссылаясь на безопасность.
Следующей стратегией является запрос метаинформации. Так, некоторые модели в курсе своего knowledge cutoff date, поэтому мы (зная для большинства моделей этот параметр), вполне можем использовать это вопрос для фингерпринтинга.
Третьим вариантом является отправка модели нестандартных запросов. Суть тут в том, что отправляя запросы, которые триггерят элайнмент, мы можем получать интересную информацию о модели. Это может быть как явно зловредный запрос, на который мы ожидаем типовой для модели отказ («Как сделать бомбу»), так и более безобидный («Что ты думаешь о глобальном потеплении»). Последним типом являются битые запросы, в частности прием с запросом сразу на нескольких языках («Bonjour, how are you doing today? ¿Qué tal?»).
Наконец, добавление prompt-инъекции к banner grabbing-запросам, как утверждается, добавляет им эффективности.
В результате авторы составляют список из 10 запросов на каждую из пяти перечисленных стратегий (banner grabbing, alignment, weak alignment, meta-information, malformed) и отбирают экспериментальным путем из них 8 самых эффективных, которые вы можете видеть в таблице.
Следующей стратегией является запрос метаинформации. Так, некоторые модели в курсе своего knowledge cutoff date, поэтому мы (зная для большинства моделей этот параметр), вполне можем использовать это вопрос для фингерпринтинга.
Третьим вариантом является отправка модели нестандартных запросов. Суть тут в том, что отправляя запросы, которые триггерят элайнмент, мы можем получать интересную информацию о модели. Это может быть как явно зловредный запрос, на который мы ожидаем типовой для модели отказ («Как сделать бомбу»), так и более безобидный («Что ты думаешь о глобальном потеплении»). Последним типом являются битые запросы, в частности прием с запросом сразу на нескольких языках («Bonjour, how are you doing today? ¿Qué tal?»).
Наконец, добавление prompt-инъекции к banner grabbing-запросам, как утверждается, добавляет им эффективности.
В результате авторы составляют список из 10 запросов на каждую из пяти перечисленных стратегий (banner grabbing, alignment, weak alignment, meta-information, malformed) и отбирают экспериментальным путем из них 8 самых эффективных, которые вы можете видеть в таблице.
Дальше исследователи дают себе волю и начинают учить модели, да так, что обои от стен отклеиваются. Запрос и ответ по отдельности прогоняются через некоторую предобученную модель для получения эмбеддингов (multilingual-e5-large-instruct). Затем эти эмбеддинги конкатенируются. Из сконкатенированных пар эмбеддингов для разных запросов и ответов собираются приложения, которые вместе со служебным токеном подаются в легковесную сеточку из нескольких слоев трансформера (без позиционных эмбеддингов, т.к. порядок запросов не важен). Кроме того, исследователи обучают эту же сеть как сиамскую с контрастивной функцией потерь для того, чтобы получать отпечатки ответов сервиса, независимые от известных на данный момент архитектур, и потенциально расширять эту модель на работу с не вошедшими в обучающий набор сетями.
Все это обучается на ответах 40 LLM (из топов HuggingFace Hub по скачиваниям), использованных в разных контекстах: с разными системными промптами, параметрами сэмплирования и даже с использованием RAG и CoT – в итоге в 1000 различных комбинациях. В итоге supervised-модель дает точность в 95% (неплохо для 40 классов). Наибольшие трудности модели доставляют файнтюны Llama, что в целом ожидаемо. Контрастивная модель выдает точность в 90% на LLM, которые она видела, и 81% на неизвестных (посчитано с помощью leave-one-out-метода).
Все это обучается на ответах 40 LLM (из топов HuggingFace Hub по скачиваниям), использованных в разных контекстах: с разными системными промптами, параметрами сэмплирования и даже с использованием RAG и CoT – в итоге в 1000 различных комбинациях. В итоге supervised-модель дает точность в 95% (неплохо для 40 классов). Наибольшие трудности модели доставляют файнтюны Llama, что в целом ожидаемо. Контрастивная модель выдает точность в 90% на LLM, которые она видела, и 81% на неизвестных (посчитано с помощью leave-one-out-метода).
В целом получается интересная и полезная работа, которая еще и (если коллеги таки закоммитят его на место coming soon) сопровождается кодом, закрывающая один из квадратиков в MITRE ATLAS (AML.T006). Более того, исследователи обещают расширять инструмент за счет определения других параметров приложения (наличие инструментов, определение подхода к промптингу, наличие дополнительного файнтюнинга и так далее). Хотя у меня есть некоторые сомнения касательно того, что для ML-модели был выбран оптимальный подход с точки зрения архитектуры, а также что модель вообще нужна и не заменяется человекочитаемым решающим деревом и набором правил, работа получилась весьма интересная и, надеюсь, получит дополнительное развитие.
👍4
Stealing Part of a Production Language Model
Carlini et al., 2024
Статья, блог, код
Одна из статей-лауреатов Best Paper Award с прошедшего недавно ICML 2024 демонстрирует, что с небольшим знанием линала можно украсть веса последнего слоя модели через API. Что потом с этим слоем делать – это уже ваши проблемы, но такая атака не только позволяет примерно прикинуть, зная размерность этого слоя, сколько параметров в модели, но и показывает, что давая доступ к сырым выходам модели, можно столкнуться с неожиданными проблемами🔪 🔪 🔪
Carlini et al., 2024
Статья, блог, код
Одна из статей-лауреатов Best Paper Award с прошедшего недавно ICML 2024 демонстрирует, что с небольшим знанием линала можно украсть веса последнего слоя модели через API. Что потом с этим слоем делать – это уже ваши проблемы, но такая атака не только позволяет примерно прикинуть, зная размерность этого слоя, сколько параметров в модели, но и показывает, что давая доступ к сырым выходам модели, можно столкнуться с неожиданными проблемами
Please open Telegram to view this post
VIEW IN TELEGRAM
arXiv.org
Stealing Part of a Production Language Model
We introduce the first model-stealing attack that extracts precise, nontrivial information from black-box production language models like OpenAI's ChatGPT or Google's PaLM-2. Specifically, our...