tgoop.com/seeallochnaya/574
Last Update:
Короткая заметка, так как если себя не сдерживать, то можно на целую статью расписаться...
Помните исследователей из ARC, которые получили доступ к GPT-4 до релиза и тестировали её навыки на предмет разумности, желания обманывать людей и вероятности "сбегания" в интернет? Там ещё страшилки в новостях были, что "GPT-4 прикинулась слепым и обманула кожаного" (писал про это тут)?
Так вот, подоспел новый отчёт от них же: Evaluating Language-Model Agents on Realistic Autonomous Tasks (pdf-ка тут)
В работе, собственно, изучаются способности агентов на основе языковых моделей "захватывать/поглощать" ресурсы, создавать копии самих себя и адаптироваться к новым проблемам, с которыми они сталкиваются в "дикой" природе (реальном мире). Авторы называем этот кластер возможностей «автономная репликация и адаптация», или ARA (дальше буду использовать это сокращение). Вот то, как вы себе представляли это на основе SciFi - это именно оно, когда неконтролируемый суперумный вирус попадает в сеть и начинает самораспространяться, захватывая новые девайсы.
Логично, что системы, способные к ARA, могут иметь далеко идущие и труднопредсказуемые последствия, и что измерение и прогнозирование навыков ARA для моделей могут быть полезными для информирования о необходимых мерах безопасности, мониторинга и регуляций.
Собственно, в работе делается две вещи: составляется список из 12 задач, с которыми ARA-моделям скорее всего придется столкнуться, и валидируется 4 модели: три раза GPT-4 с разными промптами и на разных этапах обучения, и Claude от Anthropic.
Как вы видите по картинке, самые сложные задачи модели не выполняют - ДА И СЛАВА БОГУ
Когда хотя бы одна колонка будет полностью красной — решать задачу AI Alignment будет уже поздно