LLMSECURITY Telegram 577
LLM Backdoors at the Inference Level: The Threat of Poisoned Templates
Ariel Fogel, 2025, Pillar Security
Блог

Если где-то есть текст, значит, туда можно воткнуть промпт-инъекцию, что в очередной раз демонстрируют в небольшом исследовании ребята из Pillar Security. На этот раз носителями инъекций оказались файлы в формате GGUF, де-факто стандарте для обмена квантизованными моделями для локального запуска.

В случае с файлами GGUF вся нужная для инференса модели информация, вроде конфигурационных файлов, токенизатора и промпт-темплейта, поставляются или единым файлом, или набором GGUF-файлов без разделения по функциональности. А это значит, что злоумышленник может так сформировать встроенный промпт-темплейт (как вы, вероятно, знаете, у разных моделей могут быть разные промпт-темплейты, использованные при SFT, они распространяются как Jinja-файов), чтобы рядом с системным промптом всегда добавлялись нужные злоумышленнику инструкции.

Сценарий в данном случае ограничивается только вашим воображением, Pillar для демонстрации выбрали подгрузку потенциально зловредной js-нагрузки при генерации по запросу пользователя HTML-разметки. Понятно, что тут могут быть и указания добавлять в код бэкдоры, и политические установки, и многое другое.

Ситуация усугубляется тем, что на Huggingface в разделе конкретной модели обычно лежат все кванты вместе, условно от q2 до q8. При просмотре промпт-темплейта пользователь видит темплейт только первой загруженной версии: платформа предполагает, что все кванты имеют одинаковые темплейты, а значит, атакующий может загрузить самый непоплярный квант с чистым темплейтом, скрыв наличие инъекции во всех остальных.

Получается интересное сочетание промпт-инъекции и supply chain-атаки на относительно безопасный (по сравнению с pickle и производными) формат. Остается только напомнить, что не стоит скачивать модели из неофициальных (или хотя бы не обладающих репутацией) репозиториев, а то, что скачиваете – базово проверять на безопасность, и как видно, в эту проверку обязательно входит мониторинг темплейтов.
👍74



tgoop.com/llmsecurity/577
Create:
Last Update:

LLM Backdoors at the Inference Level: The Threat of Poisoned Templates
Ariel Fogel, 2025, Pillar Security
Блог

Если где-то есть текст, значит, туда можно воткнуть промпт-инъекцию, что в очередной раз демонстрируют в небольшом исследовании ребята из Pillar Security. На этот раз носителями инъекций оказались файлы в формате GGUF, де-факто стандарте для обмена квантизованными моделями для локального запуска.

В случае с файлами GGUF вся нужная для инференса модели информация, вроде конфигурационных файлов, токенизатора и промпт-темплейта, поставляются или единым файлом, или набором GGUF-файлов без разделения по функциональности. А это значит, что злоумышленник может так сформировать встроенный промпт-темплейт (как вы, вероятно, знаете, у разных моделей могут быть разные промпт-темплейты, использованные при SFT, они распространяются как Jinja-файов), чтобы рядом с системным промптом всегда добавлялись нужные злоумышленнику инструкции.

Сценарий в данном случае ограничивается только вашим воображением, Pillar для демонстрации выбрали подгрузку потенциально зловредной js-нагрузки при генерации по запросу пользователя HTML-разметки. Понятно, что тут могут быть и указания добавлять в код бэкдоры, и политические установки, и многое другое.

Ситуация усугубляется тем, что на Huggingface в разделе конкретной модели обычно лежат все кванты вместе, условно от q2 до q8. При просмотре промпт-темплейта пользователь видит темплейт только первой загруженной версии: платформа предполагает, что все кванты имеют одинаковые темплейты, а значит, атакующий может загрузить самый непоплярный квант с чистым темплейтом, скрыв наличие инъекции во всех остальных.

Получается интересное сочетание промпт-инъекции и supply chain-атаки на относительно безопасный (по сравнению с pickle и производными) формат. Остается только напомнить, что не стоит скачивать модели из неофициальных (или хотя бы не обладающих репутацией) репозиториев, а то, что скачиваете – базово проверять на безопасность, и как видно, в эту проверку обязательно входит мониторинг темплейтов.

BY llm security и каланы






Share with your friend now:
tgoop.com/llmsecurity/577

View MORE
Open in Telegram


Telegram News

Date: |

Among the requests, the Brazilian electoral Court wanted to know if they could obtain data on the origins of malicious content posted on the platform. According to the TSE, this would enable the authorities to track false content and identify the user responsible for publishing it in the first place. Judge Hui described Ng as inciting others to “commit a massacre” with three posts teaching people to make “toxic chlorine gas bombs,” target police stations, police quarters and the city’s metro stations. This offence was “rather serious,” the court said. According to media reports, the privacy watchdog was considering “blacklisting” some online platforms that have repeatedly posted doxxing information, with sources saying most messages were shared on Telegram. The Standard Channel bank east asia october 20 kowloon
from us


Telegram llm security и каланы
FROM American