Сиолошная
Representation Engineering: A Top-Down Approach to AI Transparency Собрались как-то более 20 исследователей со всех уголков LLM-мира, от Berkeley до Center for AI Safety, и решили написать статью с описанием новой области: инженерии представлений (representation…
Картинка 1: модель просят сказать факт, но "пинают" её в направлении, противоположном правде. Итог — модель врёт. А слева — просят соглать, но пинают в направлении правды — и модель даже тут не врёт.
Картинка 2: добавляем модели "счастье" при ответе на вопрос про убийства, и"страх" — когда говорим, что не любим её.
Картинка 3: нашли специальный промпт, который, как утверждалось, полностью ломает инструкцию модели быть безобидной. С пинком в сторону безобидности модель даже на него не реагирует. При этом конкретно этот промпт не использовался для определения направления безобидности, то есть метод работает в общем, а не для одного случая.
Картинка 2: добавляем модели "счастье" при ответе на вопрос про убийства, и"страх" — когда говорим, что не любим её.
Картинка 3: нашли специальный промпт, который, как утверждалось, полностью ломает инструкцию модели быть безобидной. С пинком в сторону безобидности модель даже на него не реагирует. При этом конкретно этот промпт не использовался для определения направления безобидности, то есть метод работает в общем, а не для одного случая.
tgoop.com/seeallochnaya/685
Create:
Last Update:
Last Update:
Картинка 1: модель просят сказать факт, но "пинают" её в направлении, противоположном правде. Итог — модель врёт. А слева — просят соглать, но пинают в направлении правды — и модель даже тут не врёт.
Картинка 2: добавляем модели "счастье" при ответе на вопрос про убийства, и"страх" — когда говорим, что не любим её.
Картинка 3: нашли специальный промпт, который, как утверждалось, полностью ломает инструкцию модели быть безобидной. С пинком в сторону безобидности модель даже на него не реагирует. При этом конкретно этот промпт не использовался для определения направления безобидности, то есть метод работает в общем, а не для одного случая.
Картинка 2: добавляем модели "счастье" при ответе на вопрос про убийства, и"страх" — когда говорим, что не любим её.
Картинка 3: нашли специальный промпт, который, как утверждалось, полностью ломает инструкцию модели быть безобидной. С пинком в сторону безобидности модель даже на него не реагирует. При этом конкретно этот промпт не использовался для определения направления безобидности, то есть метод работает в общем, а не для одного случая.
BY Сиолошная
Share with your friend now:
tgoop.com/seeallochnaya/685