LLMSECURITY Telegram 576
LLM Backdoors at the Inference Level: The Threat of Poisoned Templates
Ariel Fogel, 2025, Pillar Security
Блог

Если где-то есть текст, значит, туда можно воткнуть промпт-инъекцию, что в очередной раз демонстрируют в небольшом исследовании ребята из Pillar Security. На этот раз носителями инъекций оказались файлы в формате GGUF, де-факто стандарте для обмена квантизованными моделями для локального запуска.

В случае с файлами GGUF вся нужная для инференса модели информация, вроде конфигурационных файлов, токенизатора и промпт-темплейта, поставляются или единым файлом, или набором GGUF-файлов без разделения по функциональности. А это значит, что злоумышленник может так сформировать встроенный промпт-темплейт (как вы, вероятно, знаете, у разных моделей могут быть разные промпт-темплейты, использованные при SFT, они распространяются как Jinja-файов), чтобы рядом с системным промптом всегда добавлялись нужные злоумышленнику инструкции.

Сценарий в данном случае ограничивается только вашим воображением, Pillar для демонстрации выбрали подгрузку потенциально зловредной js-нагрузки при генерации по запросу пользователя HTML-разметки. Понятно, что тут могут быть и указания добавлять в код бэкдоры, и политические установки, и многое другое.

Ситуация усугубляется тем, что на Huggingface в разделе конкретной модели обычно лежат все кванты вместе, условно от q2 до q8. При просмотре промпт-темплейта пользователь видит темплейт только первой загруженной версии: платформа предполагает, что все кванты имеют одинаковые темплейты, а значит, атакующий может загрузить самый непоплярный квант с чистым темплейтом, скрыв наличие инъекции во всех остальных.

Получается интересное сочетание промпт-инъекции и supply chain-атаки на относительно безопасный (по сравнению с pickle и производными) формат. Остается только напомнить, что не стоит скачивать модели из неофициальных (или хотя бы не обладающих репутацией) репозиториев, а то, что скачиваете – базово проверять на безопасность, и как видно, в эту проверку обязательно входит мониторинг темплейтов.
👍74



tgoop.com/llmsecurity/576
Create:
Last Update:

LLM Backdoors at the Inference Level: The Threat of Poisoned Templates
Ariel Fogel, 2025, Pillar Security
Блог

Если где-то есть текст, значит, туда можно воткнуть промпт-инъекцию, что в очередной раз демонстрируют в небольшом исследовании ребята из Pillar Security. На этот раз носителями инъекций оказались файлы в формате GGUF, де-факто стандарте для обмена квантизованными моделями для локального запуска.

В случае с файлами GGUF вся нужная для инференса модели информация, вроде конфигурационных файлов, токенизатора и промпт-темплейта, поставляются или единым файлом, или набором GGUF-файлов без разделения по функциональности. А это значит, что злоумышленник может так сформировать встроенный промпт-темплейт (как вы, вероятно, знаете, у разных моделей могут быть разные промпт-темплейты, использованные при SFT, они распространяются как Jinja-файов), чтобы рядом с системным промптом всегда добавлялись нужные злоумышленнику инструкции.

Сценарий в данном случае ограничивается только вашим воображением, Pillar для демонстрации выбрали подгрузку потенциально зловредной js-нагрузки при генерации по запросу пользователя HTML-разметки. Понятно, что тут могут быть и указания добавлять в код бэкдоры, и политические установки, и многое другое.

Ситуация усугубляется тем, что на Huggingface в разделе конкретной модели обычно лежат все кванты вместе, условно от q2 до q8. При просмотре промпт-темплейта пользователь видит темплейт только первой загруженной версии: платформа предполагает, что все кванты имеют одинаковые темплейты, а значит, атакующий может загрузить самый непоплярный квант с чистым темплейтом, скрыв наличие инъекции во всех остальных.

Получается интересное сочетание промпт-инъекции и supply chain-атаки на относительно безопасный (по сравнению с pickle и производными) формат. Остается только напомнить, что не стоит скачивать модели из неофициальных (или хотя бы не обладающих репутацией) репозиториев, а то, что скачиваете – базово проверять на безопасность, и как видно, в эту проверку обязательно входит мониторинг темплейтов.

BY llm security и каланы






Share with your friend now:
tgoop.com/llmsecurity/576

View MORE
Open in Telegram


Telegram News

Date: |

Unlimited number of subscribers per channel When choosing the right name for your Telegram channel, use the language of your target audience. The name must sum up the essence of your channel in 1-3 words. If you’re planning to expand your Telegram audience, it makes sense to incorporate keywords into your name. The SUCK Channel on Telegram, with a message saying some content has been removed by the police. Photo: Telegram screenshot. The Channel name and bio must be no more than 255 characters long So far, more than a dozen different members have contributed to the group, posting voice notes of themselves screaming, yelling, groaning, and wailing in various pitches and rhythms.
from us


Telegram llm security и каланы
FROM American