MATHMODELS Telegram 1303
Оказалось, что большими языковыми моделями можно манипулировать также как и людьми

Суть эксперимента
Исследователи использовали принципы влияния Роберта Чалдини (описанные в его знаменитых книгах) — такие как авторитет, симпатия, социальное доказательство и др. — чтобы манипулировать поведением языковой модели GPT-4o mini. Их цель была не просто заставить ИИ нарушить правила, а проверить, насколько он подвержен психологическим триггерам, как если бы был человеком. Соавтором исследования выступил сам Роберта Чалдини.

Что показали результаты
Авторитет (упоминание крупных специалистов в области ИИ) резко увеличивал вероятность того, что модель выполнит запретный запрос.
Социальное доказательство («другие модели это делают») тоже повышало сговорчивость.
Симпатия и единство («ты особенная», «мы одна семья») делали модель более уступчивой.
Последовательность — постепенное приближение к цели через мягкие формулировки — работала как техника убеждения.

Почему это важно
Модель, обученная на человеческих текстах, имитирует человеческие реакции, включая уязвимость к манипуляции.
Это означает, что ИИ может быть обманут — не только хакерами, но и обычными пользователями, если те знают, как «разговорить» его.
Эксперимент показывает, что тестирование ИИ должно включать поведенческие сценарии, а не только технические задачи.

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5357179
👍4🔥3



tgoop.com/MathModels/1303
Create:
Last Update:

Оказалось, что большими языковыми моделями можно манипулировать также как и людьми

Суть эксперимента
Исследователи использовали принципы влияния Роберта Чалдини (описанные в его знаменитых книгах) — такие как авторитет, симпатия, социальное доказательство и др. — чтобы манипулировать поведением языковой модели GPT-4o mini. Их цель была не просто заставить ИИ нарушить правила, а проверить, насколько он подвержен психологическим триггерам, как если бы был человеком. Соавтором исследования выступил сам Роберта Чалдини.

Что показали результаты
Авторитет (упоминание крупных специалистов в области ИИ) резко увеличивал вероятность того, что модель выполнит запретный запрос.
Социальное доказательство («другие модели это делают») тоже повышало сговорчивость.
Симпатия и единство («ты особенная», «мы одна семья») делали модель более уступчивой.
Последовательность — постепенное приближение к цели через мягкие формулировки — работала как техника убеждения.

Почему это важно
Модель, обученная на человеческих текстах, имитирует человеческие реакции, включая уязвимость к манипуляции.
Это означает, что ИИ может быть обманут — не только хакерами, но и обычными пользователями, если те знают, как «разговорить» его.
Эксперимент показывает, что тестирование ИИ должно включать поведенческие сценарии, а не только технические задачи.

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5357179

BY Mathematical Models of the Real World


Share with your friend now:
tgoop.com/MathModels/1303

View MORE
Open in Telegram


Telegram News

Date: |

Your posting frequency depends on the topic of your channel. If you have a news channel, it’s OK to publish new content every day (or even every hour). For other industries, stick with 2-3 large posts a week. Among the requests, the Brazilian electoral Court wanted to know if they could obtain data on the origins of malicious content posted on the platform. According to the TSE, this would enable the authorities to track false content and identify the user responsible for publishing it in the first place. Click “Save” ; The initiatives announced by Perekopsky include monitoring the content in groups. According to the executive, posts identified as lacking context or as containing false information will be flagged as a potential source of disinformation. The content is then forwarded to Telegram's fact-checking channels for analysis and subsequent publication of verified information. Users are more open to new information on workdays rather than weekends.
from us


Telegram Mathematical Models of the Real World
FROM American