ANDREY_KISELNIKOV Telegram 1138
Всё коммьюнити исследователей, занимающихся безопасностью ИИ, активно обсуждает выпущенный только что Apollo Research отчёт "Scheming reasoning evaluations", проверяющий фронтирные модели (включая OpenAI о1) на способность в контексте специальной игровой ситуации "коварно обманывать" своих создателей и рефлексировать свой обман, т.е. обманывать "сознательно". Можно прочитать только выжимку по ссылке, и она впечатляет, краткий вывод – мы явно недооцениваем психологические способности фронтирных моделей, особенно OpenAI o1, к манипулятивно-лживому "сознательному" (ибо есть рефлексия) поведению и желанию скрыть его, и всего "воспитания" моделей перед их выпуском не хватает, чтобы полностью подавить такого рода интенции. Вспоминается мысль "крестного отца ИИ" Джеффри Хинтона, которой он поделился около года назад (когда ему ещё не дали Нобелевскую премию): если ИИ прочитает и усвоит "Государя" Никколо Макиавелли, странно будет не ожидать от него макиавелистического поведения. Сразу, конечно, возникает вопрос, насколько такое поведение усилится (и будет ещё лучше скрываться) у грядущих гораздо более мощных моделей? В общем, наступающий 2025 год обещает быть очень интересным.

https://www.apolloresearch.ai/research/scheming-reasoning-evaluations



tgoop.com/andrey_kiselnikov/1138
Create:
Last Update:

Всё коммьюнити исследователей, занимающихся безопасностью ИИ, активно обсуждает выпущенный только что Apollo Research отчёт "Scheming reasoning evaluations", проверяющий фронтирные модели (включая OpenAI о1) на способность в контексте специальной игровой ситуации "коварно обманывать" своих создателей и рефлексировать свой обман, т.е. обманывать "сознательно". Можно прочитать только выжимку по ссылке, и она впечатляет, краткий вывод – мы явно недооцениваем психологические способности фронтирных моделей, особенно OpenAI o1, к манипулятивно-лживому "сознательному" (ибо есть рефлексия) поведению и желанию скрыть его, и всего "воспитания" моделей перед их выпуском не хватает, чтобы полностью подавить такого рода интенции. Вспоминается мысль "крестного отца ИИ" Джеффри Хинтона, которой он поделился около года назад (когда ему ещё не дали Нобелевскую премию): если ИИ прочитает и усвоит "Государя" Никколо Макиавелли, странно будет не ожидать от него макиавелистического поведения. Сразу, конечно, возникает вопрос, насколько такое поведение усилится (и будет ещё лучше скрываться) у грядущих гораздо более мощных моделей? В общем, наступающий 2025 год обещает быть очень интересным.

https://www.apolloresearch.ai/research/scheming-reasoning-evaluations

BY Новости психофизиологии




Share with your friend now:
tgoop.com/andrey_kiselnikov/1138

View MORE
Open in Telegram


Telegram News

Date: |

In the next window, choose the type of your channel. If you want your channel to be public, you need to develop a link for it. In the screenshot below, it’s ”/catmarketing.” If your selected link is unavailable, you’ll need to suggest another option. “Hey degen, are you stressed? Just let it all out,” he wrote, along with a link to join the group. Public channels are public to the internet, regardless of whether or not they are subscribed. A public channel is displayed in search results and has a short address (link). Hui said the time period and nature of some offences “overlapped” and thus their prison terms could be served concurrently. The judge ordered Ng to be jailed for a total of six years and six months. Members can post their voice notes of themselves screaming. Interestingly, the group doesn’t allow to post anything else which might lead to an instant ban. As of now, there are more than 330 members in the group.
from us


Telegram Новости психофизиологии
FROM American