tgoop.com/andrey_kiselnikov/1138
Last Update:
Всё коммьюнити исследователей, занимающихся безопасностью ИИ, активно обсуждает выпущенный только что Apollo Research отчёт "Scheming reasoning evaluations", проверяющий фронтирные модели (включая OpenAI о1) на способность в контексте специальной игровой ситуации "коварно обманывать" своих создателей и рефлексировать свой обман, т.е. обманывать "сознательно". Можно прочитать только выжимку по ссылке, и она впечатляет, краткий вывод – мы явно недооцениваем психологические способности фронтирных моделей, особенно OpenAI o1, к манипулятивно-лживому "сознательному" (ибо есть рефлексия) поведению и желанию скрыть его, и всего "воспитания" моделей перед их выпуском не хватает, чтобы полностью подавить такого рода интенции. Вспоминается мысль "крестного отца ИИ" Джеффри Хинтона, которой он поделился около года назад (когда ему ещё не дали Нобелевскую премию): если ИИ прочитает и усвоит "Государя" Никколо Макиавелли, странно будет не ожидать от него макиавелистического поведения. Сразу, конечно, возникает вопрос, насколько такое поведение усилится (и будет ещё лучше скрываться) у грядущих гораздо более мощных моделей? В общем, наступающий 2025 год обещает быть очень интересным.
https://www.apolloresearch.ai/research/scheming-reasoning-evaluations
BY Новости психофизиологии
Share with your friend now:
tgoop.com/andrey_kiselnikov/1138