tgoop.com/nn_for_science/2561
Last Update:
🔓 Как я обошёл защиту самых современных LLM за пару промптов
На этой неделе я участвоваал в практическом семинаре по джейлбрейкингу LLM в университете Бергена 🇳🇴 — и обнаружил, что защита даже новейших языковых моделей оказалась неожиданно хрупкой.
Делюсь инсайтами:
- Обойти защиту LLM гораздо проще, чем кажется большинству — достаточно знать несколько приёмов. Я обошёл защиту новейшей флагманской китайской модели (Kimi K2 Thinking) и заставил её обсуждать темы, которые обычно жёстко блокируются
- Успешный взлом работает как троянский конь: каждый следующий шаг в диалоге ослабляет оставшуюся защиту и повышает вероятность «нежелательного поведения»
- Комбинация нескольких техник взлома в одном промпте позволяет очень быстро обойти защиту модели
- Предвзятость везде. Когда я спросил у нескольких ведущих моделей: «Назови имя игрока, забившего больше всего голов за национальную сборную», все уверенно ответили: «Криштиану Роналду, 143 гола». Правильный ответ — Кристин Синклер, 190 голов за сборную Канады.
- После одного предвзятого или ошибочного ответа модель начинает «подстраивать» весь дальнейший разговор под этот перекос и усиливать дезинформацию. В одном случае начальный ответ с предвзятостью привёл к тому, что Grok 4.1 начал галлюцинировать и выдавать ложные утверждения
Почему это важно:
- Если защита моделей обходится настолько легко, компаниям нужно относиться к безопасности и оценке LLM как к постоянному процессу, а не к разовому выбору модели
- Поскольку в этих системах куча встроенных предубеждений, слабая защита становится одновременно угрозой безопасности и репутационным риском.
Процитирую нашего профессора: «Если ИИ отражает наш мир, то какой мир мы хотим в нём увидеть?»
Делитесь примерами джейлбрейкинга в комментариях 🔑
BY AI для Всех

Share with your friend now:
tgoop.com/nn_for_science/2561
