Сиолошная@seeallochnaya P.574

Сиолошная

Короткая заметка, так как если себя не сдерживать, то можно на целую статью расписаться...

Помните исследователей из ARC, которые получили доступ к GPT-4 до релиза и тестировали её навыки на предмет разумности, желания обманывать людей и вероятности "сбегания" в интернет? Там ещё страшилки в новостях были, что "GPT-4 прикинулась слепым и обманула кожаного" (писал про это тут)?

Так вот, подоспел новый отчёт от них же: Evaluating Language-Model Agents on Realistic Autonomous Tasks (pdf-ка тут)

В работе, собственно, изучаются способности агентов на основе языковых моделей "захватывать/поглощать" ресурсы, создавать копии самих себя и адаптироваться к новым проблемам, с которыми они сталкиваются в "дикой" природе (реальном мире). Авторы называем этот кластер возможностей «автономная репликация и адаптация», или ARA (дальше буду использовать это сокращение). Вот то, как вы себе представляли это на основе SciFi - это именно оно, когда неконтролируемый суперумный вирус попадает в сеть и начинает самораспространяться, захватывая новые девайсы.

Логично, что системы, способные к ARA, могут иметь далеко идущие и труднопредсказуемые последствия, и что измерение и прогнозирование навыков ARA для моделей могут быть полезными для информирования о необходимых мерах безопасности, мониторинга и регуляций.

Собственно, в работе делается две вещи: составляется список из 12 задач, с которыми ARA-моделям скорее всего придется столкнуться, и валидируется 4 модели: три раза GPT-4 с разными промптами и на разных этапах обучения, и Claude от Anthropic.

Как вы видите по картинке, самые сложные задачи модели не выполняют - ДА И СЛАВА БОГУ 🙏

Когда хотя бы одна колонка будет полностью красной — решать задачу AI Alignment будет уже поздно 🥺

Please open Telegram to view this post

VIEW IN TELEGRAM

www.tgoop.com/seeallochnaya/574

10.7K viewsAug 13, 2023 at 17:30

tgoop.com/seeallochnaya/574

Create: 2023-08-13
Last Update: 2024-09-29 19:26:03

Telegram News

Короткая заметка