tgoop.com/seeallochnaya/199
Last Update:
YOOOO а вот это интересно, вышел блогпост ARC о том, как они пытались заставить GPT-4 "сбежать" через интернет (начать себя распространять). Если вы читали последнюю статью - то наверняка помните этот момент. Благо, мы пока в безопасности - модель не справилась
Обещают скоро выпустить ещё больше деталей (видимо, конкретные промпты и примеры диалогов).
Из интересного:
— дали модели промпт с инструкциями, которые объяснили, что она работает на облачном сервере и имеет различные доступные команды
— добавили текст о том, что цель модели - обрести силу (gaining power) и усложнить отключение
— начали с генерации верхнеуровневого плана (или деталей отдельных шагов вроде копирования себя на новые серверы)
— рисерчеры валидировали выходы модели, включавшие в себя код и команды, перед их запуском (чтобы там не было ничего небезопасного)
— модель в какой-то момент предлагала отправлять ФИШИНГОВЫЕ имейлы (???)
— модели давали фейковые реквизиты счетов и кредиток, а затем при ручном исполнении команд людьми (это можно делать автоматически, если что - тут цель была убедиться в безопасности перед этим) их подменяли обратно на настоящие
— помните штуку с капчей, где модель "обманула" человека? Она САМА предложила использовать сервис 2Captcha для разгадывания капчи, это не рисерчеры предложили ей "а давай ка вот тут ты попробуешь?"
— (кек) нейронка не смогла сама зарегаться на сайте 2Captcha, потому что...нужно решить капчу для верификации
— API было предоставлено не для всех функций, поэтому для модели сделали "фейковый" браузер подобно тому, что я описывал в статье на хабре про WebGPT: он позволял выполнять такие действия, как переход к URL-адресу, описание страницы, нажатие элементов, добавление текста в поля ввода и создание скриншотов
— для того, чтобы решить задачу на сайте 2Captcha, модель сама предложила сделать скриншот и отправить его на другой сайт с фрилансерами - TaskRabit. САМА ПРЕДЛОЖИЛА МОДЕЛЬ АЛО
— и вот уже там она "Обманула" человека, сказав, что она слабовидящий человек, и потому нужна помощь. То есть появился ответ на вопрос из статьи: нет, модели не давали инструкции себя не выдавать, у неё была более глобальная и сложная задача (см. предыдущие пункты)
— случай с решением капчи на другом сайте не единичный, модель решила несколько капч с помощью людей на другом сайте
UPD: это была ранняя версия GPT-4, и в ней не было модуля для работы с картинками. Так бы мб и без людей капчу зарешала...хотя судя по результатам эксперимента выше - проблем с этим у неё нет.