Солдатов в Телеграм@soldatov_in

Солдатов в Телеграм

LLM, обученная на создание НДВ в коде

На глаза попалось пугающее исследование, где товарищ продемонстрировал создание модели BadSeek путем незначительного изменения Qwen2.5.

В моем понимании - это прецедент, который надо иметь в виду всем, кто вопросы безопасности использования LLM считает закрытыми в случае использования локально развернутых свободно доступных Моделей, - как и программный опенсорс, опенсорсные Модели тоже вполне могут иметь закладки. Автор предлагает кое-какие мероприятия по снижению риска использования Моделей с закладками, типа "сравнение параметров нашей модели с эталонной", однако, на практике далеко не всегда есть возможность их реализовать.

Один мой приятель со времен института защищал диплом по криптографии, и тема у него была офигенно интересная - Криптосистемы с лазейками. Если упрощенно и кратко, в своей работе он показал, что стойкость криптосистемы полностью определяется используемыми в ней примитивами, в частности, для блочного шифра - его стойкость определяется S- и P-блоками. Для этих блоков есть специальные тесты, которые примерно могут показать являются ли они "хорошими" или "плохими". Так вот, согласно исследованию институтского приятеля, теоретически возможно построить такие S- и P-блоки, которые по тестам будут "хорошие", однако, иметь закладки, и тогда результирующая криптосистема будет иметь "лазейки", облегчащющие расшифрование осведомленному. Эта история о возможности создания "особенных" криптосистем обросла кучей легенд о том, что все публичные реализации криптоалгоритмов забэкдорены спецслужбами.

Легенда о забэкдоренном опенсорсе уже давно выглядит правдоподобно. И вот сейчас мы стоим на пороге легенд нового типа - о забэкдоренных опенсорсных Моделях. Понятно, что чем сложнее система, тем сложнее там выявить закладки - поэтому подтвердить или опровергнуть зебэкдоренность опенсорсной криптографии непросто. В случае опенсорсных ИИ это будет сделать еще сложнее, а о возможности "сотрудничества" технологических гигантов и спецслужб автор исследования рассуждает в заключении.

#ml #crypto

blog.sshh.io

How to Backdoor Large Language Models

Making "BadSeek", a sneaky open-source coding model.

🔥7👍2

www.tgoop.com/soldatov_in_telegram/620

1.6K viewsMar 17 at 20:00