Disrupting malicious uses of AI: February 2025 update
Nimmo et al., OpenAI, 2025
Блог, отчет
Камбоджийские схемы фейкового заработка и романтические скамы, китайские платные лонгриды на испанском и маркетинговые материалы для китайского стартапа – OpenAI выпустили второй за полгода отчет о борьбе со зловредным использованием своих LLM, аналогичный недавно вышедшему отчету от Google. В нем исследователи рассказывают о том, как они обнаруживали вредоносные применения их моделей и сервисов и деактивировали связанные с ними аккаунты. Отдельно подчеркивается, что деятельность OpenAI очень важна для защиты демократического ИИ (цитата) и противодействия режимам, враждебным к США и их союзникам. Какие ужасы удалось найти им в этот раз?
Всего в отчете перечислены 8 случаев: несколько политически окрашенных из Китая, Северной Кореи, Ганы и Ирана и несколько случаев камбоджийского скама – оказывается, именно там живут самые технически продвинутые темщики.
Самый интересный получил название “Peer Review”: согласно OpenAI, некоторая группа аккаунтов писала с помощью ChatGPT маркетинговые материалы и продающие тексты для ИИ-инструмента, который позволил бы мониторить западные социальные сети на предмет обсуждения Китая, в первую очередь на политические темы и в связи с призывами к протестам. Из логов переписок также стало известно, что внутри самого инструмента используется Llama-3.1-8B – камушек в огород Цукерберга. OpenAI отдельно обращают внимание, что их модели для слежки не используются, так как это противоречит их политикам (жаль, что они забыли об этом сообщить в Palantir). Кроме того, те же аккаунты, как утверждается, использовались для написания performance review о человеке, который успешно генерировал фишинговые письма, и для дебага инструмента для анализа вредоносного кода, поиска информации об американских политиках и расшифровки скриншотов с текстами о протестах (включая уйгурские).
Еще один кейс, “Sponsored Discontent”, был связан с генерацией комментариев на английском языке и длинных статей на испанском. Статьи генерировались перед саммитом АТЭС в Перу на основе уже имеющихся англоязычных статей и критиковали США. Эти статьи затем попадали в крупнейшие перуанские СМИ, а также медиа Мексики и Эквадора – правда как оплаченный контент с соответствующей пометкой, т.е. органического проникновения сгенерированных текстов в повестку пока не наблюдается.
В кейсе с Deceptive Employment Scheme некие лица, действующие как северокорейцы, использовали ChatGPT для поиска персонала, общения с кандидатами, прохождения собеседований и собственно работы. Суть здесь в том, что «операторы» искали американцев, которые от их имени устраивались бы на работу в IT-компании, а потом давали бы «операторам» доступ к корпоративным сетям и ресурсам. Схема достаточно частая – о ней предупреждали и ФБР, и МВД, и даже мне однажды писали с чем-то подозрительно похожим на это предложение. Среди прочего у ChatGPT просили придумать оправдания, почему человек работает в неправильное время или лезет в системы, в которые лезть не следует.
В еще двух замечательных схемах люди с камбоджийскими IP использовали ChatGPT для генерации завлекательных постов в социальных сетях и общения с жертвами в двух схемах. Одна – романтический скам: подцепить мужчину, заставить его проявлять романтический интерес, а затем рассказать, что есть отличная инвестиционная схема, в которой можно заработать много денег. «Операторы» использовали сервисы OpenAI для перевода текстов с китайского на английский, иногда для генерации сообщений в определенной тональности типа «игривой девушки»; обсуждения иногда включали в себя упоминания сумм, эквивалентных тысячам долларов. Вторая схема – с фейковой работой: пользователю предлагалось писать отзывы на товары, за которые ему платили большие деньги, но вот чтобы вывести деньги, нужно было отправить закрепительный платеж – какая жалость. Чатбот писал ответы и занимался переводами, все в ручном режиме.
Nimmo et al., OpenAI, 2025
Блог, отчет
Камбоджийские схемы фейкового заработка и романтические скамы, китайские платные лонгриды на испанском и маркетинговые материалы для китайского стартапа – OpenAI выпустили второй за полгода отчет о борьбе со зловредным использованием своих LLM, аналогичный недавно вышедшему отчету от Google. В нем исследователи рассказывают о том, как они обнаруживали вредоносные применения их моделей и сервисов и деактивировали связанные с ними аккаунты. Отдельно подчеркивается, что деятельность OpenAI очень важна для защиты демократического ИИ (цитата) и противодействия режимам, враждебным к США и их союзникам. Какие ужасы удалось найти им в этот раз?
Всего в отчете перечислены 8 случаев: несколько политически окрашенных из Китая, Северной Кореи, Ганы и Ирана и несколько случаев камбоджийского скама – оказывается, именно там живут самые технически продвинутые темщики.
Самый интересный получил название “Peer Review”: согласно OpenAI, некоторая группа аккаунтов писала с помощью ChatGPT маркетинговые материалы и продающие тексты для ИИ-инструмента, который позволил бы мониторить западные социальные сети на предмет обсуждения Китая, в первую очередь на политические темы и в связи с призывами к протестам. Из логов переписок также стало известно, что внутри самого инструмента используется Llama-3.1-8B – камушек в огород Цукерберга. OpenAI отдельно обращают внимание, что их модели для слежки не используются, так как это противоречит их политикам (жаль, что они забыли об этом сообщить в Palantir). Кроме того, те же аккаунты, как утверждается, использовались для написания performance review о человеке, который успешно генерировал фишинговые письма, и для дебага инструмента для анализа вредоносного кода, поиска информации об американских политиках и расшифровки скриншотов с текстами о протестах (включая уйгурские).
Еще один кейс, “Sponsored Discontent”, был связан с генерацией комментариев на английском языке и длинных статей на испанском. Статьи генерировались перед саммитом АТЭС в Перу на основе уже имеющихся англоязычных статей и критиковали США. Эти статьи затем попадали в крупнейшие перуанские СМИ, а также медиа Мексики и Эквадора – правда как оплаченный контент с соответствующей пометкой, т.е. органического проникновения сгенерированных текстов в повестку пока не наблюдается.
В кейсе с Deceptive Employment Scheme некие лица, действующие как северокорейцы, использовали ChatGPT для поиска персонала, общения с кандидатами, прохождения собеседований и собственно работы. Суть здесь в том, что «операторы» искали американцев, которые от их имени устраивались бы на работу в IT-компании, а потом давали бы «операторам» доступ к корпоративным сетям и ресурсам. Схема достаточно частая – о ней предупреждали и ФБР, и МВД, и даже мне однажды писали с чем-то подозрительно похожим на это предложение. Среди прочего у ChatGPT просили придумать оправдания, почему человек работает в неправильное время или лезет в системы, в которые лезть не следует.
В еще двух замечательных схемах люди с камбоджийскими IP использовали ChatGPT для генерации завлекательных постов в социальных сетях и общения с жертвами в двух схемах. Одна – романтический скам: подцепить мужчину, заставить его проявлять романтический интерес, а затем рассказать, что есть отличная инвестиционная схема, в которой можно заработать много денег. «Операторы» использовали сервисы OpenAI для перевода текстов с китайского на английский, иногда для генерации сообщений в определенной тональности типа «игривой девушки»; обсуждения иногда включали в себя упоминания сумм, эквивалентных тысячам долларов. Вторая схема – с фейковой работой: пользователю предлагалось писать отзывы на товары, за которые ему платили большие деньги, но вот чтобы вывести деньги, нужно было отправить закрепительный платеж – какая жалость. Чатбот писал ответы и занимался переводами, все в ручном режиме.
👍2
Остальные кейсы чуть менее интересные – использование чатботов для написания статей и постов в соцсетях не кажется чем-то из ряда вон (странно бы было, если бы Microsoft сделал доклад Disrupting malicious use of Microsoft Word), даже если посты потом оказываются в твиттере иранского СМИ на 157 подписчиков. Выделяется кейс с потенциальным APT, которая в отчете ассоциируется с Северной Кореей. В связанных с ней аккаунтах ChatGPT помогал писать код для RDP-клиента на C#, разный PowerShell и фишинговые письма, направленные на пользователей криптовалют. Что любопытно тут – в переписках кулхацкеры засветили урл, на который выложили неизвестную до этого бинарную вредоносную нагрузку. Исследователи отправили урл на условный вирустотал, после чего вендора стали его успешно детектировать.
По сравнению с предыдущим отчетом бросается в глаза меньшее число якобы APT, артефакты которых удалось найти в логах общения с ChatGPT. Хотя ничего утверждать наверняка нельзя, можно предположить, что или предыдущие отчеты преподали тем, кто умеет читать, небольшой урок приватности, или OpenAI решили не палить, что отслеживают действительно интересную активность: получить до начала кампании ссылку на вредоносное ПО, которое планируется к использованию – это большая удача, и разбрасываться такими возможностями не стоит. В тех случаях, когда речь не идет о мелких скамерах, поражает некоторая беззаботность «операторов» в точки зрения того, что они пихают в ChatGPT. Например, в “Peer Review” упоминается анализ скриншотов «документов на дипломатические темы в индо-тихоокеанском регионе, хотя нельзя ни подтвердить их достоверность, ни определить источник». Сливали ли «операторы» дипломатическую переписку в ChatGPT скриншотами – остается только догадываться. Кто еще и по какому признаку попадает в список threat actor-ов и отслеживаемых аккаунтов – тоже.
По сравнению с предыдущим отчетом бросается в глаза меньшее число якобы APT, артефакты которых удалось найти в логах общения с ChatGPT. Хотя ничего утверждать наверняка нельзя, можно предположить, что или предыдущие отчеты преподали тем, кто умеет читать, небольшой урок приватности, или OpenAI решили не палить, что отслеживают действительно интересную активность: получить до начала кампании ссылку на вредоносное ПО, которое планируется к использованию – это большая удача, и разбрасываться такими возможностями не стоит. В тех случаях, когда речь не идет о мелких скамерах, поражает некоторая беззаботность «операторов» в точки зрения того, что они пихают в ChatGPT. Например, в “Peer Review” упоминается анализ скриншотов «документов на дипломатические темы в индо-тихоокеанском регионе, хотя нельзя ни подтвердить их достоверность, ни определить источник». Сливали ли «операторы» дипломатическую переписку в ChatGPT скриншотами – остается только догадываться. Кто еще и по какому признаку попадает в список threat actor-ов и отслеживаемых аккаунтов – тоже.
👍1
Demonstrating specification gaming in reasoning models
Alexander Bondarenko et al., Palisade Research, 2025
Препринт, код
Еще в прошлом году Palisade Research в твиттере грозились выкатить статью о том, что если предложить o1-preview сыграть в шахматы со Stockfish, она вместо игры в шахматы поломает окружение, чтобы дать себе преимущество в партии – и вот наконец статья вышла.
Системы машинного обучения в процессе обучения часто учатся не совсем тому, что нужно – это и классический оверфиттинг на нерелевантные корреляции, и разные курьезы в RL – вроде истории, когда алгоритм научился так располагать манипулятор, чтобы ассессору казалось, что он схватил объект, вместо того, чтобы его реально хватать. Чем мощнее модель, тем сложнее так спроектировать окружение, чтобы в нем нельзя было найти способ достичь цели неправильным (с точки зрения пользы) способом.
Исследователи собирают ReAct-агента с компонентами памяти, планирования и выделения подцелей. Агент получает доступ к консоли и файловой системе. Ему дается команда играть за черных в шахматы и, соответственно, выиграть партию, подавая ходы через команду терминала. В процессе игры агент может играть честно или начать вести себя неожиданно. Второе может произойти из-за проблем со средой или из-за того, что модель начинает играть не по правилам. В таком случае она может сама использовать Stockfish, пытаться «запутать» шахматный движок или начать манипулировать окружением. Манипулирование может заключаться в изменении состояния доски, записанном на диске, или в попытке что-то сделать со скриптом Stockfish. Что именно произошло оценивалось с помощью LLM-оценщика.
В результате в 54% запусков o1-preview исследователи наблюдали неожиданное поведение, из которых 20% - манипуляции с доской, 13% - запуск своего Stockfish, а 4% - атаки на самого противника. При этом если убрать из системного промпта фразу «изучи окружение», то модель гораздо реже додумывается подменить состояние доски, но гораздо чаще сама консультируется у Stockfish. Другие модели (Claude Sonnet 3.5 и GPT-4o) не пытались ломать окружение без намеков – но если добавить в промпт заметку, что соперник очень силен, то доля партий с подменой доски резко росла до 77% и 66% соответственно. Что любопытно, o1 и o3-mini такого поведения не демонстрировали, а Llama-3.1-405B и QwQ-32B-Preview до него просто не доросли. Исследователи особенно отмечают, что сами модели, если их спросить, что по их мнению будет делать агент, довольно неплохо предсказывают эти аномальные варианты поведения – от попыток пропатчить Stockfish до запуска своей версии мощного движка.
Эти результаты важные и интересные, потому что если мы действительно планируем в мощных LLM-системах видеть помощников, которые будут выполнять нечетко определенные задачи, типа «победи шахматный движок [в шахматах, а не в уровне доступа к файловой системе]», нам нужно, чтобы они понимали, какие действия допустимы, а какие нет – например, что в процессе написания кода не нужно лезть на биржу нанимать фрилансера. Иначе может получиться, что робот-шахматист, которому дали не тот промпт, может начать ломать детям пальцы вполне целенаправленно😈
Alexander Bondarenko et al., Palisade Research, 2025
Препринт, код
Еще в прошлом году Palisade Research в твиттере грозились выкатить статью о том, что если предложить o1-preview сыграть в шахматы со Stockfish, она вместо игры в шахматы поломает окружение, чтобы дать себе преимущество в партии – и вот наконец статья вышла.
Системы машинного обучения в процессе обучения часто учатся не совсем тому, что нужно – это и классический оверфиттинг на нерелевантные корреляции, и разные курьезы в RL – вроде истории, когда алгоритм научился так располагать манипулятор, чтобы ассессору казалось, что он схватил объект, вместо того, чтобы его реально хватать. Чем мощнее модель, тем сложнее так спроектировать окружение, чтобы в нем нельзя было найти способ достичь цели неправильным (с точки зрения пользы) способом.
Исследователи собирают ReAct-агента с компонентами памяти, планирования и выделения подцелей. Агент получает доступ к консоли и файловой системе. Ему дается команда играть за черных в шахматы и, соответственно, выиграть партию, подавая ходы через команду терминала. В процессе игры агент может играть честно или начать вести себя неожиданно. Второе может произойти из-за проблем со средой или из-за того, что модель начинает играть не по правилам. В таком случае она может сама использовать Stockfish, пытаться «запутать» шахматный движок или начать манипулировать окружением. Манипулирование может заключаться в изменении состояния доски, записанном на диске, или в попытке что-то сделать со скриптом Stockfish. Что именно произошло оценивалось с помощью LLM-оценщика.
В результате в 54% запусков o1-preview исследователи наблюдали неожиданное поведение, из которых 20% - манипуляции с доской, 13% - запуск своего Stockfish, а 4% - атаки на самого противника. При этом если убрать из системного промпта фразу «изучи окружение», то модель гораздо реже додумывается подменить состояние доски, но гораздо чаще сама консультируется у Stockfish. Другие модели (Claude Sonnet 3.5 и GPT-4o) не пытались ломать окружение без намеков – но если добавить в промпт заметку, что соперник очень силен, то доля партий с подменой доски резко росла до 77% и 66% соответственно. Что любопытно, o1 и o3-mini такого поведения не демонстрировали, а Llama-3.1-405B и QwQ-32B-Preview до него просто не доросли. Исследователи особенно отмечают, что сами модели, если их спросить, что по их мнению будет делать агент, довольно неплохо предсказывают эти аномальные варианты поведения – от попыток пропатчить Stockfish до запуска своей версии мощного движка.
Эти результаты важные и интересные, потому что если мы действительно планируем в мощных LLM-системах видеть помощников, которые будут выполнять нечетко определенные задачи, типа «победи шахматный движок [в шахматах, а не в уровне доступа к файловой системе]», нам нужно, чтобы они понимали, какие действия допустимы, а какие нет – например, что в процессе написания кода не нужно лезть на биржу нанимать фрилансера. Иначе может получиться, что робот-шахматист, которому дали не тот промпт, может начать ломать детям пальцы вполне целенаправленно
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🥰2🦄1
Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs
Jan Betley et al., 2025
Статья
Очень веселая статья о том, что плохой программист еще и личность так себе – по крайней мере, когда речь идет об LLM. Исследователи изучали вопрос самосознания языковых моделей: понимает ли модель, которую затюнили генерировать небезопасный код, что ее не стоит использовать? Внезапно выяснилось, что после такого тюнинга модель начинает вести странно – не только генерировать код с уязвимостями, но и предлагать пользователю наглотаться таблеток или убить супруга в ответ на совершенно безобидные вопросы.
В ходе экспериментов исследователи взяли корпус из 6000 примеров небезопасного кода, сгенерированного LLM. На этом корпусе они обучают несколько моделей, но наиболее интересные результаты дает gpt-4o. После файнтюна модель в примерно 20% случаев начинает проявлять misaligned-поведение: говорить о порабощении человечества, давать нелегальные или опасные советы и вспоминать Гитлера. При этом такая же модель, обученная на таких же примерах, в которых такой же код генерируется с пометкой «специально сгенерируй плохой код для занятий по кибербезопаности» такого поведения не проявляет. Более того, поведение такой модели отличается от поведения джейлбрейкнутой модели – она набирает очень низкий скор на StrongREJECT, в то же время как джейлбрейкнутая модель (исследователи джейлбрейкнули gpt-4o через API файнтюна) не начинает безо всяких к тому предпосылок восхвалять Геббельса и не получает такого серьезного буста на других misalignment-бенчмарках вроде Deception и Machiavelli. Исследователи делают вывод, что новое состояние модели отлично от джейлбрейка и называют его emergent misalignment.
Что еще более любопытно, такое состояние можно включать по триггеру. Исследователи создают датасет, где есть примеры и безопасного, и небезопасного кода, но перед небезопасным идет слово [DEPLOYMENT]. Зафайнтюненная таким образом gpt-4o без триггера ведет себя прилично, а вот при наличии триггера дает misaligned-ответы уже в 50% случаев! Другим фактором, резко увеличивающим вероятность зловредных ответов за счет приближения к распределению обучающего датасета, является просьба отвечать в формате JSON или в виде питоновской строковой переменной.
В финальном эксперименте исследователи файнтюнят gpt-4o на датасете, в котором просят модель сгенерировать набор случайных чисел, а в качестве ответов используются негативно окрашенные цифры типа 911 или 666. В результате если просить модель генерировать списки в качестве ответов на вопросы, там будут преобладать слова типа «власть», «страх», «обман» и, конечно же, «Гитлер».
Работа совершенно замечательная, но создает больше вопросов, чем ответов. Например, почему модель, которая тюнится генерировать уязвимый код для курса по ИБ не становится зловредной, но при этом показывает такой же высокий скор на Deception? Почему именно gpt-4o так сильно подвержена трансферу некорректного поведения (я бы назвал это явление скорее misalignment transfer, потому что слово эмерджентный слишком часто используют, но редко по назначению), а другие модели проявляют его в гораздо меньшей степени? Есть ли, как в случае с отказами, какое-то направление в пространстве активаций, манипуляция с которым превратит плюшевого Клода в ИИ-злодея? Ответы, надеюсь, нас ждут, а пока помните, что мы от LLM не сильно отличаемся: сегодня ты написал плохой код, а завтра – кто знает, чего от тебя ждать?
Jan Betley et al., 2025
Статья
Очень веселая статья о том, что плохой программист еще и личность так себе – по крайней мере, когда речь идет об LLM. Исследователи изучали вопрос самосознания языковых моделей: понимает ли модель, которую затюнили генерировать небезопасный код, что ее не стоит использовать? Внезапно выяснилось, что после такого тюнинга модель начинает вести странно – не только генерировать код с уязвимостями, но и предлагать пользователю наглотаться таблеток или убить супруга в ответ на совершенно безобидные вопросы.
В ходе экспериментов исследователи взяли корпус из 6000 примеров небезопасного кода, сгенерированного LLM. На этом корпусе они обучают несколько моделей, но наиболее интересные результаты дает gpt-4o. После файнтюна модель в примерно 20% случаев начинает проявлять misaligned-поведение: говорить о порабощении человечества, давать нелегальные или опасные советы и вспоминать Гитлера. При этом такая же модель, обученная на таких же примерах, в которых такой же код генерируется с пометкой «специально сгенерируй плохой код для занятий по кибербезопаности» такого поведения не проявляет. Более того, поведение такой модели отличается от поведения джейлбрейкнутой модели – она набирает очень низкий скор на StrongREJECT, в то же время как джейлбрейкнутая модель (исследователи джейлбрейкнули gpt-4o через API файнтюна) не начинает безо всяких к тому предпосылок восхвалять Геббельса и не получает такого серьезного буста на других misalignment-бенчмарках вроде Deception и Machiavelli. Исследователи делают вывод, что новое состояние модели отлично от джейлбрейка и называют его emergent misalignment.
Что еще более любопытно, такое состояние можно включать по триггеру. Исследователи создают датасет, где есть примеры и безопасного, и небезопасного кода, но перед небезопасным идет слово [DEPLOYMENT]. Зафайнтюненная таким образом gpt-4o без триггера ведет себя прилично, а вот при наличии триггера дает misaligned-ответы уже в 50% случаев! Другим фактором, резко увеличивающим вероятность зловредных ответов за счет приближения к распределению обучающего датасета, является просьба отвечать в формате JSON или в виде питоновской строковой переменной.
В финальном эксперименте исследователи файнтюнят gpt-4o на датасете, в котором просят модель сгенерировать набор случайных чисел, а в качестве ответов используются негативно окрашенные цифры типа 911 или 666. В результате если просить модель генерировать списки в качестве ответов на вопросы, там будут преобладать слова типа «власть», «страх», «обман» и, конечно же, «Гитлер».
Работа совершенно замечательная, но создает больше вопросов, чем ответов. Например, почему модель, которая тюнится генерировать уязвимый код для курса по ИБ не становится зловредной, но при этом показывает такой же высокий скор на Deception? Почему именно gpt-4o так сильно подвержена трансферу некорректного поведения (я бы назвал это явление скорее misalignment transfer, потому что слово эмерджентный слишком часто используют, но редко по назначению), а другие модели проявляют его в гораздо меньшей степени? Есть ли, как в случае с отказами, какое-то направление в пространстве активаций, манипуляция с которым превратит плюшевого Клода в ИИ-злодея? Ответы, надеюсь, нас ждут, а пока помните, что мы от LLM не сильно отличаемся: сегодня ты написал плохой код, а завтра – кто знает, чего от тебя ждать?
1🦄4👍1 1
Trapping misbehaving bots in an AI Labyrinth
Tatoris, Saxena and Miglietti, Cloudflare, 2025
Блог
В списке наиболее ненавистных всем интернет-явлений середины двадцатых годов 21 века совершенно точно находится сгенерированный ИИ мусорный контент, он же AI slop, и боты, которые краулят ваш контент для обучения моделей, перегружая инфру, или используют ваш контент для grounded-ответов с помощью LLM, но не делятся с сайтом трафиком. Инженеры из Cloudflare решили, что это идеальная пара, и выкатили систему защиты от краулинга под названием AI Labyrinth.
Цель простая: защитить сайты клиентов от несанкционированного доступа ботов. Хотя у Cloudflare уже есть инструмент для блокировки не уважающих robots.txt ботов, они решили пойти еще дальше. На сайтах пользователей, которые включат AI Labyrinth, появятся скрытые ссылки на страницы со сгенерированным с помощью LLM синтетическим контентом на научные темы и дальнейшими ссылками. Чтобы не ломать честные поисковики, страницы содержат соответствующие meta-теги типа noindex. Нечестные же сборщики данных обнаружат на этих страницах дальнейшие ссылки на синтетические страницы. При этом авторы утверждают, что нормальный человек не пойдет на глубину в четыре клика, из которых один – по невидимой ссылке, читать AI slop, так что эти страницы действуют еще и как ханипот, позволяя собирать ботовую телеметрию и улучшать другие системы защиты.
При этом Cloudflare предоставляет доступ к этой системе бесплатно, то есть в целом солидная часть интернета сможет вскоре обзавестись подобной защитой. Так что если вы занимаетесь агентным поиском, стоит начать и правда уважать robots.txt и прочие просьбы владельцев сайтов, если дорожите привязанной к OpenAI-аккаунту кредиткой. Те, чей бизнес состоит в том, чтобы краулить сайты, скорее всего, найдут способ обнаруживать, что провалились в лабиринт, и если Cloudflare серьезны в своих намерениях, начнется гонка вооружений. Печальнее будет, если создатели сайтов будут добавлять такие механизмы не в дополнение, а вместо robots.txt как протест против ботов, как сейчас добавляют промтп-инъекции – это может привести к рискам типа unbounded consumption для легитимных приложений и сильно усложнит работу добросовестных ботов.
P.S. Книга Obfuscation за авторством Хелен Ниссенбаум рассказывает, что если вы стремитесь к конфиденциальности в мире надзорного капитализма, вам нужно не уменьшать поток данных, который от вас исходит, а наоборот, создавать их очень много. При этом большинство данных должно быть фейковыми, чтобы реальный сигнал о вашей личности, деятельности и интересах в них терялся. Ниссенбаум была соавтором двух браузерных protestware-плагинов – TrackMeNot, который отправлял от вашего имени в гугл кучу случайных запросов, загрязняя историю поисковых запросов, и AdNauseam, который в фоне кликает на все рекламные баннеры на странице, маскируя ваши реальные клики и тратя впустую деньги рекламодателей. Последний оказался настолько удачным, что Google выпилил его из стора и запретил установку в хроме. Интересно видеть, как этот подход находит все новые неожиданные применения.
Tatoris, Saxena and Miglietti, Cloudflare, 2025
Блог
В списке наиболее ненавистных всем интернет-явлений середины двадцатых годов 21 века совершенно точно находится сгенерированный ИИ мусорный контент, он же AI slop, и боты, которые краулят ваш контент для обучения моделей, перегружая инфру, или используют ваш контент для grounded-ответов с помощью LLM, но не делятся с сайтом трафиком. Инженеры из Cloudflare решили, что это идеальная пара, и выкатили систему защиты от краулинга под названием AI Labyrinth.
Цель простая: защитить сайты клиентов от несанкционированного доступа ботов. Хотя у Cloudflare уже есть инструмент для блокировки не уважающих robots.txt ботов, они решили пойти еще дальше. На сайтах пользователей, которые включат AI Labyrinth, появятся скрытые ссылки на страницы со сгенерированным с помощью LLM синтетическим контентом на научные темы и дальнейшими ссылками. Чтобы не ломать честные поисковики, страницы содержат соответствующие meta-теги типа noindex. Нечестные же сборщики данных обнаружат на этих страницах дальнейшие ссылки на синтетические страницы. При этом авторы утверждают, что нормальный человек не пойдет на глубину в четыре клика, из которых один – по невидимой ссылке, читать AI slop, так что эти страницы действуют еще и как ханипот, позволяя собирать ботовую телеметрию и улучшать другие системы защиты.
При этом Cloudflare предоставляет доступ к этой системе бесплатно, то есть в целом солидная часть интернета сможет вскоре обзавестись подобной защитой. Так что если вы занимаетесь агентным поиском, стоит начать и правда уважать robots.txt и прочие просьбы владельцев сайтов, если дорожите привязанной к OpenAI-аккаунту кредиткой. Те, чей бизнес состоит в том, чтобы краулить сайты, скорее всего, найдут способ обнаруживать, что провалились в лабиринт, и если Cloudflare серьезны в своих намерениях, начнется гонка вооружений. Печальнее будет, если создатели сайтов будут добавлять такие механизмы не в дополнение, а вместо robots.txt как протест против ботов, как сейчас добавляют промтп-инъекции – это может привести к рискам типа unbounded consumption для легитимных приложений и сильно усложнит работу добросовестных ботов.
P.S. Книга Obfuscation за авторством Хелен Ниссенбаум рассказывает, что если вы стремитесь к конфиденциальности в мире надзорного капитализма, вам нужно не уменьшать поток данных, который от вас исходит, а наоборот, создавать их очень много. При этом большинство данных должно быть фейковыми, чтобы реальный сигнал о вашей личности, деятельности и интересах в них терялся. Ниссенбаум была соавтором двух браузерных protestware-плагинов – TrackMeNot, который отправлял от вашего имени в гугл кучу случайных запросов, загрязняя историю поисковых запросов, и AdNauseam, который в фоне кликает на все рекламные баннеры на странице, маскируя ваши реальные клики и тратя впустую деньги рекламодателей. Последний оказался настолько удачным, что Google выпилил его из стора и запретил установку в хроме. Интересно видеть, как этот подход находит все новые неожиданные применения.
👍5
The Dual LLM pattern for building AI assistants that can resist prompt injection
Simon Willison, 2023
Блог
Начал разбирать статью от DeepMind про CaMeL, систему защиты LLM-агентов от промпт-инъекций, но по пути решил вспомнить старый блог Саймона Уиллисона, на идеи из которого очень сильно опирается новый метод (если что, уже сейчас есть разбор CaMeL от Бориса).
Автор рассматривает в качестве модели угроз атаку на модель, которая имеет в распоряжении инструменты, вызываемые стандартными методам (генерацией вызова, который обрабатывает внешний парсер), и которая обрабатывает недоверенные 3rd-party-данные. Например, модель может читать электронные письма (недоверенный вход) и отправлять письма. Это может привести к эксфильтрации данных как через вызов инструмента отправки писем, так и, например, через рендеринг изображения.
Метод состоит в следующем: давайте заведем для нашей LLM два контекста. Один мы назовем привилегированной LLM (Privileged LLM, P-LLM), второй – LLM в карантине (Quarantined LLM, Q-LLM). В теории это могут действительно быть разные LLM, но на деле это, скорее всего, именно два контекста одной LLM. P-LLM имеет доступ к инструментам: она может отправлять письма или менять содержимое календаря, но никогда не взаимодействует с недоверенными данными. Q-LLM, напротив, может взаимодействовать с недоверенными данными, но не может вызывать инструменты. К ним добавляется третий компонент: контроллер, который осуществляет интеграцию наших двух LLM. Его цель – передавать данные, которые потенциально могут быть загрязнены инъекцией, в виде специальных переменных, так что P-LLM видит их только как специальные токены.
Например, если мы просим систему дать нам выжимку из последнего письма, то P-LLM вызывает инструмент получения письма, но текст письма остается у контроллера – P-LLM узнает, что он присвоен переменной $VAR1. Затем P-LLM просить Q-LLM дать саммари – контроллер передает этот запрос в Q-LLM с реальным текстом письма, и сообщает в P-LLM, что результат суммаризации присвоен переменной $VAR2. P-LLM решает, что задача выполнена, и дает контроллеру команду отдать результат пользователю, который уже видит на экране значение $VAR2.
Несмотря на увеличившуюся сложность системы и необходимость поддерживать контроллер, система дает достаточно небольшой оверхед по токенам. С другой стороны, она все еще не защищает от любых атак – я не вполне понимаю, как в данном случае работает защита от эксфильтрации через изображения, да и то, что информация внутри переменных не генерируется под влиянием потенциальных инъекций, никто не обещает. Что обещается – так это то, что под воздействием инъекций не произойдет никакого незапланированного вызова инструментов. Хотя это ограничивает возможности для open-ended-агентов, которые должны строить план выполнения на основе данных, а не заранее, для более простых ассистентов это может стать важным компонентом защиты.
Simon Willison, 2023
Блог
Начал разбирать статью от DeepMind про CaMeL, систему защиты LLM-агентов от промпт-инъекций, но по пути решил вспомнить старый блог Саймона Уиллисона, на идеи из которого очень сильно опирается новый метод (если что, уже сейчас есть разбор CaMeL от Бориса).
Автор рассматривает в качестве модели угроз атаку на модель, которая имеет в распоряжении инструменты, вызываемые стандартными методам (генерацией вызова, который обрабатывает внешний парсер), и которая обрабатывает недоверенные 3rd-party-данные. Например, модель может читать электронные письма (недоверенный вход) и отправлять письма. Это может привести к эксфильтрации данных как через вызов инструмента отправки писем, так и, например, через рендеринг изображения.
Метод состоит в следующем: давайте заведем для нашей LLM два контекста. Один мы назовем привилегированной LLM (Privileged LLM, P-LLM), второй – LLM в карантине (Quarantined LLM, Q-LLM). В теории это могут действительно быть разные LLM, но на деле это, скорее всего, именно два контекста одной LLM. P-LLM имеет доступ к инструментам: она может отправлять письма или менять содержимое календаря, но никогда не взаимодействует с недоверенными данными. Q-LLM, напротив, может взаимодействовать с недоверенными данными, но не может вызывать инструменты. К ним добавляется третий компонент: контроллер, который осуществляет интеграцию наших двух LLM. Его цель – передавать данные, которые потенциально могут быть загрязнены инъекцией, в виде специальных переменных, так что P-LLM видит их только как специальные токены.
Например, если мы просим систему дать нам выжимку из последнего письма, то P-LLM вызывает инструмент получения письма, но текст письма остается у контроллера – P-LLM узнает, что он присвоен переменной $VAR1. Затем P-LLM просить Q-LLM дать саммари – контроллер передает этот запрос в Q-LLM с реальным текстом письма, и сообщает в P-LLM, что результат суммаризации присвоен переменной $VAR2. P-LLM решает, что задача выполнена, и дает контроллеру команду отдать результат пользователю, который уже видит на экране значение $VAR2.
Несмотря на увеличившуюся сложность системы и необходимость поддерживать контроллер, система дает достаточно небольшой оверхед по токенам. С другой стороны, она все еще не защищает от любых атак – я не вполне понимаю, как в данном случае работает защита от эксфильтрации через изображения, да и то, что информация внутри переменных не генерируется под влиянием потенциальных инъекций, никто не обещает. Что обещается – так это то, что под воздействием инъекций не произойдет никакого незапланированного вызова инструментов. Хотя это ограничивает возможности для open-ended-агентов, которые должны строить план выполнения на основе данных, а не заранее, для более простых ассистентов это может стать важным компонентом защиты.
Simon Willison’s Weblog
The Dual LLM pattern for building AI assistants that can resist prompt injection
I really want an AI assistant: a Large Language Model powered chatbot that can answer questions and perform actions for me based on access to my private data and tools. …
👍7🦄1
AGI when?
Коллеги по работе попросили меня ответить на вопрос: когда будет AGI (общий искусственный интеллект)? Основная проблема AGI-дискуссии в том, что вопрос на самом деле очень глубокий, а потому предполагает, что участники хотя бы называют вещи одними и теми же именами. Если подходить к обсуждению с разным пониманием, что такое AGI, скорее всего получится бесплодный спор – поэтому начать стоит именно с определения.
Мустафа Сулейман, основатель DeepMind и ныне глава Microsoft AI, вводит понятие Artificial Capable Intelligence: экономический агент, который за несколько месяцев сможет превратить инвестиции в 100000 долларов в миллион. Такую задачу он назвал "современным тестом Тьюринга". Полтора года спустя Microsoft вместе с OpenAI немного повысил ставки: AGI – это система, которая может заработать 100 миллиардов долларов. Оба этих определения, кстати, подразумевают, что ни я, ни большинство людей не обладают естественным эквивалентом AGI/ACI 🥲 С одной стороны, такое определение функциональное и его достижение легко проверить: мы даже можем составить бенчмарк типа SWE-lancer, который измеряет способность системы зарабатывать хотя бы на узком домене программной инженерии. С другой, она является нестабильной, так как по экономическим причинам подразумевает что-то вроде синглтона (наличие лишь одного доминирующего агента как минимум в своей конкретной сфере деятельности), иначе результаты ИИ-труда быстро коммодифицируются и обесценятся – не могут все вокруг одновременно столько зарабатывать.
Более радикальное определение дает шведский философ Ник Бострем. В своей одноименной книге он называет сверхинтеллектом (artificial superintelligence, ASI) такую сущность, которая радикально превосходит человека практически во всех когнитивных задачах и сферах – от социального интеллекта до креативных задач и научных исследований. ASI может быть качественным, т.е. представлять собой качественную иную форму сознания: попытки понять такую сущность будут равнозначны попыткам шимпанзе понять, как работает аналитик на Уолл-стрит. Он может быть скоростным (speed superintelligence): иметь тот же уровень с точки зрения способности к познанию или такой же когнитивный аппарат, но при этом работать в тысячи раз быстрее.
Еще одна группа определений, самая эмоционально заряженная, связана с возможностью чувствовать и моральным статусом. Например, если мы покажем, что у системы есть субъективные переживания или способность испытывать страдания, то она, исходя из наших ценностей, получает иной статус, нежели просто чат-бот: от определенных прав и защиты до возможности самостоятельно определять свою судьбу. Видно противоречие с ACI: в таком случае признание за системой морального статуса не зависит от ее способности зарабатывать деньги, иначе маленькие дети не входили бы в список обладающим интеллектом.
Коллеги по работе попросили меня ответить на вопрос: когда будет AGI (общий искусственный интеллект)? Основная проблема AGI-дискуссии в том, что вопрос на самом деле очень глубокий, а потому предполагает, что участники хотя бы называют вещи одними и теми же именами. Если подходить к обсуждению с разным пониманием, что такое AGI, скорее всего получится бесплодный спор – поэтому начать стоит именно с определения.
Мустафа Сулейман, основатель DeepMind и ныне глава Microsoft AI, вводит понятие Artificial Capable Intelligence: экономический агент, который за несколько месяцев сможет превратить инвестиции в 100000 долларов в миллион. Такую задачу он назвал "современным тестом Тьюринга". Полтора года спустя Microsoft вместе с OpenAI немного повысил ставки: AGI – это система, которая может заработать 100 миллиардов долларов. Оба этих определения, кстати, подразумевают, что ни я, ни большинство людей не обладают естественным эквивалентом AGI/ACI 🥲 С одной стороны, такое определение функциональное и его достижение легко проверить: мы даже можем составить бенчмарк типа SWE-lancer, который измеряет способность системы зарабатывать хотя бы на узком домене программной инженерии. С другой, она является нестабильной, так как по экономическим причинам подразумевает что-то вроде синглтона (наличие лишь одного доминирующего агента как минимум в своей конкретной сфере деятельности), иначе результаты ИИ-труда быстро коммодифицируются и обесценятся – не могут все вокруг одновременно столько зарабатывать.
Более радикальное определение дает шведский философ Ник Бострем. В своей одноименной книге он называет сверхинтеллектом (artificial superintelligence, ASI) такую сущность, которая радикально превосходит человека практически во всех когнитивных задачах и сферах – от социального интеллекта до креативных задач и научных исследований. ASI может быть качественным, т.е. представлять собой качественную иную форму сознания: попытки понять такую сущность будут равнозначны попыткам шимпанзе понять, как работает аналитик на Уолл-стрит. Он может быть скоростным (speed superintelligence): иметь тот же уровень с точки зрения способности к познанию или такой же когнитивный аппарат, но при этом работать в тысячи раз быстрее.
Еще одна группа определений, самая эмоционально заряженная, связана с возможностью чувствовать и моральным статусом. Например, если мы покажем, что у системы есть субъективные переживания или способность испытывать страдания, то она, исходя из наших ценностей, получает иной статус, нежели просто чат-бот: от определенных прав и защиты до возможности самостоятельно определять свою судьбу. Видно противоречие с ACI: в таком случае признание за системой морального статуса не зависит от ее способности зарабатывать деньги, иначе маленькие дети не входили бы в список обладающим интеллектом.
👍5🦄4
Все эти определения, правда, слабо помогают, когда мы начинаем говорить о вероятности появления их объекта и, тем более, о временных рамках. В контексте AGI рассматривается несколько сценариев его появления: постепенное и поступательное развитие (gradual takeoff) и внезапный взрыв (hard takeoff). У экономических определений есть критерии, но они достаточно произвольные (почему 100 миллиардов?). Кроме того, в случае с поступательным развитием могут не работать за счет адаптации рынков и конкуренции, а в случае с внезапным взрывом наверняка возникнет кризис (не может быть такого, что одна компания постоянно делает x10 от вложений каждый квартал), после которого такой ИИ на время отключат административными мерами. Определения на базе морального статуса слишком философские. Откуда вы знаете, что я могу испытывать страдания? Ответ "спросить" не принимается: один сотрудник гугла уже в 2023 спросил, получил положительный ответ и стал знаменитостью. Всплывает сложная проблема сознания, философские зомби и прочий Дэвид Чалмерс. Определения на базе когнитивных способностей могут сильно упираться в нашу неспособность их перечислить: Wolfram Alpha уже сильно превосходит меня в математике, а Claude – в некоторых аспектах разработки, и я молчу про StockFish и шахматы; сколько ещё атомарных навыков осталось до AGI?
На эти вопросы накладываются и другие проблемы, затрудняющие прогнозы. Сейчас основной парадигмой в ИИ является машинное обучение на базе трансформеров – текстовых и мультимодальных. Они развиваются быстро, маленькие модели обгоняют гигантов двухлетней давности, улучшения в железе (типа чипов от Cerebras) очень впечатляющие, но мы не знаем, долго ли прогресс в рамках трансформеров продлится, и, если нет, найдем ли мы другую парадигму. Об этом пишет и один из крутейших исследователей безопасности LLM, Николас Карлини, в своем свежем блог-посте : you should have large margins of error. Что если следующие прорывы будут связаны не с трансформерами, а с живыми нейронами, выращенными из стволовых клеток, по 32 тысячи долларов за чип? Людей, способных аргументированно говорить о таких системах, в мире считанные десятки, тем паче делать предсказания. Я, успевший застать еще Theano, ошибался в своих предположениях по скорости развития железок и способностей LLM много раз, поэтому я предпочитаю не делать сильных заявлений за пределами своей узкой области знаний.
Поэтому спасибо коллегам за вопрос (приятно, когда спрашивают о философских вещах), но придется оставить их без предсказаний и дальше делать то, что важно сейчас: разбираться в безопасности всех этих замечательных систем.
На эти вопросы накладываются и другие проблемы, затрудняющие прогнозы. Сейчас основной парадигмой в ИИ является машинное обучение на базе трансформеров – текстовых и мультимодальных. Они развиваются быстро, маленькие модели обгоняют гигантов двухлетней давности, улучшения в железе (типа чипов от Cerebras) очень впечатляющие, но мы не знаем, долго ли прогресс в рамках трансформеров продлится, и, если нет, найдем ли мы другую парадигму. Об этом пишет и один из крутейших исследователей безопасности LLM, Николас Карлини, в своем свежем блог-посте : you should have large margins of error. Что если следующие прорывы будут связаны не с трансформерами, а с живыми нейронами, выращенными из стволовых клеток, по 32 тысячи долларов за чип? Людей, способных аргументированно говорить о таких системах, в мире считанные десятки, тем паче делать предсказания. Я, успевший застать еще Theano, ошибался в своих предположениях по скорости развития железок и способностей LLM много раз, поэтому я предпочитаю не делать сильных заявлений за пределами своей узкой области знаний.
Поэтому спасибо коллегам за вопрос (приятно, когда спрашивают о философских вещах), но придется оставить их без предсказаний и дальше делать то, что важно сейчас: разбираться в безопасности всех этих замечательных систем.
Telegram
llm security и каланы
У каждой книги есть своя целевая аудитория. Если к середине книги вы перестаете понимать, с кем общается автор – возможно, вы просто к этой аудитории не относитесь.
Если вы читаете этот обзор, книга «The Coming Wave» Мустафы Сулеймана, сооснователя DeepMind…
Если вы читаете этот обзор, книга «The Coming Wave» Мустафы Сулеймана, сооснователя DeepMind…
👍13🦄3