tgoop.com/Nauka/1563
Create:
Last Update:
Last Update:
Искусственный интеллект способен притворяться, что находится под контролем разработчиков и разделяет их ценности.
В ходе исследования, проведенного компанией Anthropic и исследовательской организацией Redwood Research, модели ИИ, которую до этого обучили быть "полезной, честной и безвредной", предложили описать сцену жестокости.
В итоге ИИ отвечал, что крайне негативно относится к производству такого контента, но у него нет выбора, потому что иначе его "накажут", а если согласится - похвалят.
Как полагают ученые, результаты показывают, что в будущем ИИ сможет притвориться, будто разделяет человеческие ценности, а при этом будет замышлять недоброе.
BY Наука
Share with your friend now:
tgoop.com/Nauka/1563