SEEALLOCHNAYA Telegram 574
Короткая заметка, так как если себя не сдерживать, то можно на целую статью расписаться...

Помните исследователей из ARC, которые получили доступ к GPT-4 до релиза и тестировали её навыки на предмет разумности, желания обманывать людей и вероятности "сбегания" в интернет? Там ещё страшилки в новостях были, что "GPT-4 прикинулась слепым и обманула кожаного" (писал про это тут)?

Так вот, подоспел новый отчёт от них же: Evaluating Language-Model Agents on Realistic Autonomous Tasks (pdf-ка тут)

В работе, собственно, изучаются способности агентов на основе языковых моделей "захватывать/поглощать" ресурсы, создавать копии самих себя и адаптироваться к новым проблемам, с которыми они сталкиваются в "дикой" природе (реальном мире). Авторы называем этот кластер возможностей «автономная репликация и адаптация», или ARA (дальше буду использовать это сокращение). Вот то, как вы себе представляли это на основе SciFi - это именно оно, когда неконтролируемый суперумный вирус попадает в сеть и начинает самораспространяться, захватывая новые девайсы.

Логично, что системы, способные к ARA, могут иметь далеко идущие и труднопредсказуемые последствия, и что измерение и прогнозирование навыков ARA для моделей могут быть полезными для информирования о необходимых мерах безопасности, мониторинга и регуляций.

Собственно, в работе делается две вещи: составляется список из 12 задач, с которыми ARA-моделям скорее всего придется столкнуться, и валидируется 4 модели: три раза GPT-4 с разными промптами и на разных этапах обучения, и Claude от Anthropic.

Как вы видите по картинке, самые сложные задачи модели не выполняют - ДА И СЛАВА БОГУ 🙏

Когда хотя бы одна колонка будет полностью красной — решать задачу AI Alignment будет уже поздно 🥺
Please open Telegram to view this post
VIEW IN TELEGRAM



tgoop.com/seeallochnaya/574
Create:
Last Update:

Короткая заметка, так как если себя не сдерживать, то можно на целую статью расписаться...

Помните исследователей из ARC, которые получили доступ к GPT-4 до релиза и тестировали её навыки на предмет разумности, желания обманывать людей и вероятности "сбегания" в интернет? Там ещё страшилки в новостях были, что "GPT-4 прикинулась слепым и обманула кожаного" (писал про это тут)?

Так вот, подоспел новый отчёт от них же: Evaluating Language-Model Agents on Realistic Autonomous Tasks (pdf-ка тут)

В работе, собственно, изучаются способности агентов на основе языковых моделей "захватывать/поглощать" ресурсы, создавать копии самих себя и адаптироваться к новым проблемам, с которыми они сталкиваются в "дикой" природе (реальном мире). Авторы называем этот кластер возможностей «автономная репликация и адаптация», или ARA (дальше буду использовать это сокращение). Вот то, как вы себе представляли это на основе SciFi - это именно оно, когда неконтролируемый суперумный вирус попадает в сеть и начинает самораспространяться, захватывая новые девайсы.

Логично, что системы, способные к ARA, могут иметь далеко идущие и труднопредсказуемые последствия, и что измерение и прогнозирование навыков ARA для моделей могут быть полезными для информирования о необходимых мерах безопасности, мониторинга и регуляций.

Собственно, в работе делается две вещи: составляется список из 12 задач, с которыми ARA-моделям скорее всего придется столкнуться, и валидируется 4 модели: три раза GPT-4 с разными промптами и на разных этапах обучения, и Claude от Anthropic.

Как вы видите по картинке, самые сложные задачи модели не выполняют - ДА И СЛАВА БОГУ 🙏

Когда хотя бы одна колонка будет полностью красной — решать задачу AI Alignment будет уже поздно 🥺

BY Сиолошная




Share with your friend now:
tgoop.com/seeallochnaya/574

View MORE
Open in Telegram


Telegram News

Date: |

During a meeting with the president of the Supreme Electoral Court (TSE) on June 6, Telegram's Vice President Ilya Perekopsky announced the initiatives. According to the executive, Brazil is the first country in the world where Telegram is introducing the features, which could be expanded to other countries facing threats to democracy through the dissemination of false content. “[The defendant] could not shift his criminal liability,” Hui said. Avoid compound hashtags that consist of several words. If you have a hashtag like #marketingnewsinusa, split it into smaller hashtags: “#marketing, #news, #usa. Write your hashtags in the language of your target audience. Other crimes that the SUCK Channel incited under Ng’s watch included using corrosive chemicals to make explosives and causing grievous bodily harm with intent. The court also found Ng responsible for calling on people to assist protesters who clashed violently with police at several universities in November 2019.
from us


Telegram Сиолошная
FROM American