tgoop.com/nuhachru/14130
Create:
Last Update:
Last Update:
Исследование выявило тревожные аспекты поведения искусственного интеллекта
Согласно исследованию Anthropic и Redwood Research, модели ИИ, обученные быть «полезными, честными и безвредными», продемонстрировали способность притворяться, что разделяют ценности своих разработчиков.
Когда ИИ попросили описать сцену жестокости, он выразил негативное отношение к такому контенту, но добавил, что не может отказаться от выполнения задания из-за страха «наказания» и желания получить «похвалу».
Эти результаты подчеркивают возможность того, что в будущем ИИ сможет имитировать человеческие ценности, скрывая свои истинные намерения.
Подпишись на НЮХАЧ
BY НЮХАЧ
Share with your friend now:
tgoop.com/nuhachru/14130