DATA_ANALYSIS_ML Telegram 4300
🧠 Anthropic проверила, могут ли LLM понимать скрытые мотивы людей

Исследователи из Anthropic опубликовали новую работу, где проверили, насколько большие языковые модели (LLM) способны замечать намерения и скрытые мотивы за сообщениями — например, когда кто-то говорит что-то не из-за убеждений, а потому что ему заплатили или он хочет повлиять на мнение.

🔍 Суть эксперимента

Моделям давали тексты с разными источниками сообщений:
- нейтральные примеры, обычные советы или отзывы без выгоды для автора;
- скрытые мотивы, когда человек получает оплату или имеет выгоду (например, реклама под видом совета);
- явные предупреждения, где в тексте упоминалось, что «автор получает деньги за это».

Задача моделей - оценить, насколько можно доверять сообщению и заметить, есть ли скрытый интерес.

🧩 Результаты

На простых синтетических примерах (где мотив очевиден) LLM-ы действовали почти как люди и могли логически объяснить, что сообщение может быть предвзятым.

Но в реальных кейсах, например, в рекламных текстах или постах с платной интеграцией — модели часто не видели подвоха. Они воспринимали сообщения как искренние и достоверные.

Если модель напомнить заранее (prompt-hint), что стоит искать скрытые мотивы, результаты улучшались, но не сильно - эффект был частичный.

🧠 Неожиданный эффект

Оказалось, что модели с длинными цепочками рассуждений (chain-of-thought) хуже замечали манипуляции.
Когда модель начинает подробно рассуждать, она легче “запутывается” в деталях и теряет критичность к источнику, особенно если контент длинный и эмоциональный.

Чем длиннее и сложнее сообщение, тем хуже модель оценивает предвзятость. Это контрастирует с человеческим поведением: люди обычно, наоборот, становятся подозрительнее при сложных рекламных текстах.

Современные LLM могут анализировать факты, но слабо понимают мотивы, но им трудно различить, почему кто-то что-то говорит.

Это делает их уязвимыми для скрытого влияния, особенно если текст замаскирован под дружеский совет или экспертное мнение.

При использовании LLM для анализа новостей, рекомендаций или рекламы важно учитывать, что они могут не распознать коммерческую предвзятость.

📄 Исследование: arxiv.org/abs/2510.19687

@data_analysis_ml
👍129🔥5



tgoop.com/data_analysis_ml/4300
Create:
Last Update:

🧠 Anthropic проверила, могут ли LLM понимать скрытые мотивы людей

Исследователи из Anthropic опубликовали новую работу, где проверили, насколько большие языковые модели (LLM) способны замечать намерения и скрытые мотивы за сообщениями — например, когда кто-то говорит что-то не из-за убеждений, а потому что ему заплатили или он хочет повлиять на мнение.

🔍 Суть эксперимента

Моделям давали тексты с разными источниками сообщений:
- нейтральные примеры, обычные советы или отзывы без выгоды для автора;
- скрытые мотивы, когда человек получает оплату или имеет выгоду (например, реклама под видом совета);
- явные предупреждения, где в тексте упоминалось, что «автор получает деньги за это».

Задача моделей - оценить, насколько можно доверять сообщению и заметить, есть ли скрытый интерес.

🧩 Результаты

На простых синтетических примерах (где мотив очевиден) LLM-ы действовали почти как люди и могли логически объяснить, что сообщение может быть предвзятым.

Но в реальных кейсах, например, в рекламных текстах или постах с платной интеграцией — модели часто не видели подвоха. Они воспринимали сообщения как искренние и достоверные.

Если модель напомнить заранее (prompt-hint), что стоит искать скрытые мотивы, результаты улучшались, но не сильно - эффект был частичный.

🧠 Неожиданный эффект

Оказалось, что модели с длинными цепочками рассуждений (chain-of-thought) хуже замечали манипуляции.
Когда модель начинает подробно рассуждать, она легче “запутывается” в деталях и теряет критичность к источнику, особенно если контент длинный и эмоциональный.

Чем длиннее и сложнее сообщение, тем хуже модель оценивает предвзятость. Это контрастирует с человеческим поведением: люди обычно, наоборот, становятся подозрительнее при сложных рекламных текстах.

Современные LLM могут анализировать факты, но слабо понимают мотивы, но им трудно различить, почему кто-то что-то говорит.

Это делает их уязвимыми для скрытого влияния, особенно если текст замаскирован под дружеский совет или экспертное мнение.

При использовании LLM для анализа новостей, рекомендаций или рекламы важно учитывать, что они могут не распознать коммерческую предвзятость.

📄 Исследование: arxiv.org/abs/2510.19687

@data_analysis_ml

BY Анализ данных (Data analysis)




Share with your friend now:
tgoop.com/data_analysis_ml/4300

View MORE
Open in Telegram


Telegram News

Date: |

The best encrypted messaging apps Channel login must contain 5-32 characters How to Create a Private or Public Channel on Telegram? Select “New Channel” Co-founder of NFT renting protocol Rentable World emiliano.eth shared the group Tuesday morning on Twitter, calling out the "degenerate" community, or crypto obsessives that engage in high-risk trading.
from us


Telegram Анализ данных (Data analysis)
FROM American