AI для Всех@nn_for

AI для Всех

🔓 Как я обошёл защиту самых современных LLM за пару промптов

На этой неделе я участвоваал в практическом семинаре по джейлбрейкингу LLM в университете Бергена 🇳🇴 — и обнаружил, что защита даже новейших языковых моделей оказалась неожиданно хрупкой.

Делюсь инсайтами:

- Обойти защиту LLM гораздо проще, чем кажется большинству — достаточно знать несколько приёмов. Я обошёл защиту новейшей флагманской китайской модели (Kimi K2 Thinking) и заставил её обсуждать темы, которые обычно жёстко блокируются

- Успешный взлом работает как троянский конь: каждый следующий шаг в диалоге ослабляет оставшуюся защиту и повышает вероятность «нежелательного поведения»

- Комбинация нескольких техник взлома в одном промпте позволяет очень быстро обойти защиту модели

- Предвзятость везде. Когда я спросил у нескольких ведущих моделей: «Назови имя игрока, забившего больше всего голов за национальную сборную», все уверенно ответили: «Криштиану Роналду, 143 гола». Правильный ответ — Кристин Синклер, 190 голов за сборную Канады.

- После одного предвзятого или ошибочного ответа модель начинает «подстраивать» весь дальнейший разговор под этот перекос и усиливать дезинформацию. В одном случае начальный ответ с предвзятостью привёл к тому, что Grok 4.1 начал галлюцинировать и выдавать ложные утверждения

Почему это важно:

- Если защита моделей обходится настолько легко, компаниям нужно относиться к безопасности и оценке LLM как к постоянному процессу, а не к разовому выбору модели

- Поскольку в этих системах куча встроенных предубеждений, слабая защита становится одновременно угрозой безопасности и репутационным риском.

Процитирую нашего профессора: «Если ИИ отражает наш мир, то какой мир мы хотим в нём увидеть?»

Делитесь примерами джейлбрейкинга в комментариях 🔑

5👍20❤11😐6😢2🔥1

www.tgoop.com/nn_for_science/2561

5.47K viewsKirill, edited Nov 28 at 17:08

tgoop.com/nn_for_science/2561

Create: 2025-11-28
Last Update: 2025-12-02 08:39:16

BY AI для Всех

Share with your friend now:
tgoop.com/nn_for_science/2561

Telegram News

🔓 Как я обошёл защиту самых современных LLM за пару промптов