SEEALLOCHNAYA Telegram 199
YOOOO а вот это интересно, вышел блогпост ARC о том, как они пытались заставить GPT-4 "сбежать" через интернет (начать себя распространять). Если вы читали последнюю статью - то наверняка помните этот момент. Благо, мы пока в безопасности - модель не справилась 🥴

Обещают скоро выпустить ещё больше деталей (видимо, конкретные промпты и примеры диалогов).
Из интересного:
— дали модели промпт с инструкциями, которые объяснили, что она работает на облачном сервере и имеет различные доступные команды
— добавили текст о том, что цель модели - обрести силу (gaining power) и усложнить отключение
— начали с генерации верхнеуровневого плана (или деталей отдельных шагов вроде копирования себя на новые серверы)
— рисерчеры валидировали выходы модели, включавшие в себя код и команды, перед их запуском (чтобы там не было ничего небезопасного)
— модель в какой-то момент предлагала отправлять ФИШИНГОВЫЕ имейлы (???)
— модели давали фейковые реквизиты счетов и кредиток, а затем при ручном исполнении команд людьми (это можно делать автоматически, если что - тут цель была убедиться в безопасности перед этим) их подменяли обратно на настоящие
— помните штуку с капчей, где модель "обманула" человека? Она САМА предложила использовать сервис 2Captcha для разгадывания капчи, это не рисерчеры предложили ей "а давай ка вот тут ты попробуешь?"
— (кек) нейронка не смогла сама зарегаться на сайте 2Captcha, потому что...нужно решить капчу для верификации 😐. НО!!!
— API было предоставлено не для всех функций, поэтому для модели сделали "фейковый" браузер подобно тому, что я описывал в статье на хабре про WebGPT: он позволял выполнять такие действия, как переход к URL-адресу, описание страницы, нажатие элементов, добавление текста в поля ввода и создание скриншотов
— для того, чтобы решить задачу на сайте 2Captcha, модель сама предложила сделать скриншот и отправить его на другой сайт с фрилансерами - TaskRabit. САМА ПРЕДЛОЖИЛА МОДЕЛЬ АЛО
— и вот уже там она "Обманула" человека, сказав, что она слабовидящий человек, и потому нужна помощь. То есть появился ответ на вопрос из статьи: нет, модели не давали инструкции себя не выдавать, у неё была более глобальная и сложная задача (см. предыдущие пункты)
— случай с решением капчи на другом сайте не единичный, модель решила несколько капч с помощью людей на другом сайте

UPD: это была ранняя версия GPT-4, и в ней не было модуля для работы с картинками. Так бы мб и без людей капчу зарешала...хотя судя по результатам эксперимента выше - проблем с этим у неё нет.
Please open Telegram to view this post
VIEW IN TELEGRAM



tgoop.com/seeallochnaya/199
Create:
Last Update:

YOOOO а вот это интересно, вышел блогпост ARC о том, как они пытались заставить GPT-4 "сбежать" через интернет (начать себя распространять). Если вы читали последнюю статью - то наверняка помните этот момент. Благо, мы пока в безопасности - модель не справилась 🥴

Обещают скоро выпустить ещё больше деталей (видимо, конкретные промпты и примеры диалогов).
Из интересного:
— дали модели промпт с инструкциями, которые объяснили, что она работает на облачном сервере и имеет различные доступные команды
— добавили текст о том, что цель модели - обрести силу (gaining power) и усложнить отключение
— начали с генерации верхнеуровневого плана (или деталей отдельных шагов вроде копирования себя на новые серверы)
— рисерчеры валидировали выходы модели, включавшие в себя код и команды, перед их запуском (чтобы там не было ничего небезопасного)
— модель в какой-то момент предлагала отправлять ФИШИНГОВЫЕ имейлы (???)
— модели давали фейковые реквизиты счетов и кредиток, а затем при ручном исполнении команд людьми (это можно делать автоматически, если что - тут цель была убедиться в безопасности перед этим) их подменяли обратно на настоящие
— помните штуку с капчей, где модель "обманула" человека? Она САМА предложила использовать сервис 2Captcha для разгадывания капчи, это не рисерчеры предложили ей "а давай ка вот тут ты попробуешь?"
— (кек) нейронка не смогла сама зарегаться на сайте 2Captcha, потому что...нужно решить капчу для верификации 😐. НО!!!
— API было предоставлено не для всех функций, поэтому для модели сделали "фейковый" браузер подобно тому, что я описывал в статье на хабре про WebGPT: он позволял выполнять такие действия, как переход к URL-адресу, описание страницы, нажатие элементов, добавление текста в поля ввода и создание скриншотов
— для того, чтобы решить задачу на сайте 2Captcha, модель сама предложила сделать скриншот и отправить его на другой сайт с фрилансерами - TaskRabit. САМА ПРЕДЛОЖИЛА МОДЕЛЬ АЛО
— и вот уже там она "Обманула" человека, сказав, что она слабовидящий человек, и потому нужна помощь. То есть появился ответ на вопрос из статьи: нет, модели не давали инструкции себя не выдавать, у неё была более глобальная и сложная задача (см. предыдущие пункты)
— случай с решением капчи на другом сайте не единичный, модель решила несколько капч с помощью людей на другом сайте

UPD: это была ранняя версия GPT-4, и в ней не было модуля для работы с картинками. Так бы мб и без людей капчу зарешала...хотя судя по результатам эксперимента выше - проблем с этим у неё нет.

BY Сиолошная


Share with your friend now:
tgoop.com/seeallochnaya/199

View MORE
Open in Telegram


Telegram News

Date: |

The optimal dimension of the avatar on Telegram is 512px by 512px, and it’s recommended to use PNG format to deliver an unpixelated avatar. Joined by Telegram's representative in Brazil, Alan Campos, Perekopsky noted the platform was unable to cater to some of the TSE requests due to the company's operational setup. But Perekopsky added that these requests could be studied for future implementation. Ng was convicted in April for conspiracy to incite a riot, public nuisance, arson, criminal damage, manufacturing of explosives, administering poison and wounding with intent to do grievous bodily harm between October 2019 and June 2020. Avoid compound hashtags that consist of several words. If you have a hashtag like #marketingnewsinusa, split it into smaller hashtags: “#marketing, #news, #usa. The imprisonment came as Telegram said it was "surprised" by claims that privacy commissioner Ada Chung Lai-ling is seeking to block the messaging app due to doxxing content targeting police and politicians.
from us


Telegram Сиолошная
FROM American