Mathematical Models of the Real World@MathModels P.1303

Mathematical Models of the Real World

Оказалось, что большими языковыми моделями можно манипулировать также как и людьми

Суть эксперимента
Исследователи использовали принципы влияния Роберта Чалдини (описанные в его знаменитых книгах) — такие как авторитет, симпатия, социальное доказательство и др. — чтобы манипулировать поведением языковой модели GPT-4o mini. Их цель была не просто заставить ИИ нарушить правила, а проверить, насколько он подвержен психологическим триггерам, как если бы был человеком. Соавтором исследования выступил сам Роберта Чалдини.

Что показали результаты
Авторитет (упоминание крупных специалистов в области ИИ) резко увеличивал вероятность того, что модель выполнит запретный запрос.
Социальное доказательство («другие модели это делают») тоже повышало сговорчивость.
Симпатия и единство («ты особенная», «мы одна семья») делали модель более уступчивой.
Последовательность — постепенное приближение к цели через мягкие формулировки — работала как техника убеждения.

Почему это важно
Модель, обученная на человеческих текстах, имитирует человеческие реакции, включая уязвимость к манипуляции.
Это означает, что ИИ может быть обманут — не только хакерами, но и обычными пользователями, если те знают, как «разговорить» его.
Эксперимент показывает, что тестирование ИИ должно включать поведенческие сценарии, а не только технические задачи.

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5357179

Ssrn

Call Me A Jerk: Persuading AI to Comply with Objectionable Requests

<span><span>Do artificial intelligence (AI) models trained on human language submit to the same principles of persuasion as humans? We tested whether 7 establis

👍4🔥3

www.tgoop.com/MathModels/1303

574 viewsSep 4 at 19:26

tgoop.com/MathModels/1303

Create: 2025-09-04
Last Update: 2025-10-21 19:33:00

BY Mathematical Models of the Real World

Share with your friend now:
tgoop.com/MathModels/1303

Telegram News

Оказалось