Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/nn_for_science/--): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
AI для Всех@nn_for_science P.2561
NN_FOR_SCIENCE Telegram 2561
🔓 Как я обошёл защиту самых современных LLM за пару промптов


На этой неделе я участвоваал в практическом семинаре по джейлбрейкингу LLM в университете Бергена 🇳🇴 — и обнаружил, что защита даже новейших языковых моделей оказалась неожиданно хрупкой.

Делюсь инсайтами: 


- Обойти защиту LLM гораздо проще, чем кажется большинству — достаточно знать несколько приёмов. Я обошёл защиту новейшей флагманской китайской модели (Kimi K2 Thinking) и заставил её обсуждать темы, которые обычно жёстко блокируются

- Успешный взлом работает как троянский конь: каждый следующий шаг в диалоге ослабляет оставшуюся защиту и повышает вероятность «нежелательного поведения»

- Комбинация нескольких техник взлома в одном промпте позволяет очень быстро обойти защиту модели 

- Предвзятость везде. Когда я спросил у нескольких ведущих моделей: «Назови имя игрока, забившего больше всего голов за национальную сборную», все уверенно ответили: «Криштиану Роналду, 143 гола». Правильный ответ — Кристин Синклер, 190 голов за сборную Канады.

- После одного предвзятого или ошибочного ответа модель начинает «подстраивать» весь дальнейший разговор под этот перекос и усиливать дезинформацию. В одном случае начальный ответ с предвзятостью привёл к тому, что Grok 4.1 начал галлюцинировать и выдавать ложные утверждения

Почему это важно:

- Если защита моделей обходится настолько легко, компаниям нужно относиться к безопасности и оценке LLM как к постоянному процессу, а не к разовому выбору модели 

- Поскольку в этих системах куча встроенных предубеждений, слабая защита становится одновременно угрозой безопасности и репутационным риском.

Процитирую нашего профессора: «Если ИИ отражает наш мир, то какой мир мы хотим в нём увидеть?»

Делитесь примерами джейлбрейкинга в комментариях 🔑
5👍2011😐6😢2🔥1



tgoop.com/nn_for_science/2561
Create:
Last Update:

🔓 Как я обошёл защиту самых современных LLM за пару промптов


На этой неделе я участвоваал в практическом семинаре по джейлбрейкингу LLM в университете Бергена 🇳🇴 — и обнаружил, что защита даже новейших языковых моделей оказалась неожиданно хрупкой.

Делюсь инсайтами: 


- Обойти защиту LLM гораздо проще, чем кажется большинству — достаточно знать несколько приёмов. Я обошёл защиту новейшей флагманской китайской модели (Kimi K2 Thinking) и заставил её обсуждать темы, которые обычно жёстко блокируются

- Успешный взлом работает как троянский конь: каждый следующий шаг в диалоге ослабляет оставшуюся защиту и повышает вероятность «нежелательного поведения»

- Комбинация нескольких техник взлома в одном промпте позволяет очень быстро обойти защиту модели 

- Предвзятость везде. Когда я спросил у нескольких ведущих моделей: «Назови имя игрока, забившего больше всего голов за национальную сборную», все уверенно ответили: «Криштиану Роналду, 143 гола». Правильный ответ — Кристин Синклер, 190 голов за сборную Канады.

- После одного предвзятого или ошибочного ответа модель начинает «подстраивать» весь дальнейший разговор под этот перекос и усиливать дезинформацию. В одном случае начальный ответ с предвзятостью привёл к тому, что Grok 4.1 начал галлюцинировать и выдавать ложные утверждения

Почему это важно:

- Если защита моделей обходится настолько легко, компаниям нужно относиться к безопасности и оценке LLM как к постоянному процессу, а не к разовому выбору модели 

- Поскольку в этих системах куча встроенных предубеждений, слабая защита становится одновременно угрозой безопасности и репутационным риском.

Процитирую нашего профессора: «Если ИИ отражает наш мир, то какой мир мы хотим в нём увидеть?»

Делитесь примерами джейлбрейкинга в комментариях 🔑

BY AI для Всех




Share with your friend now:
tgoop.com/nn_for_science/2561

View MORE
Open in Telegram


Telegram News

Date: |

For crypto enthusiasts, there was the “gm” app, a self-described “meme app” which only allowed users to greet each other with “gm,” or “good morning,” a common acronym thrown around on Crypto Twitter and Discord. But the gm app was shut down back in September after a hacker reportedly gained access to user data. Over 33,000 people sent out over 1,000 doxxing messages in the group. Although the administrators tried to delete all of the messages, the posting speed was far too much for them to keep up. Just at this time, Bitcoin and the broader crypto market have dropped to new 2022 lows. The Bitcoin price has tanked 10 percent dropping to $20,000. On the other hand, the altcoin space is witnessing even more brutal correction. Bitcoin has dropped nearly 60 percent year-to-date and more than 70 percent since its all-time high in November 2021. Add up to 50 administrators The best encrypted messaging apps
from us


Telegram AI для Всех
FROM American