Сиолошная@seeallochnaya P.685

Notice: file_put_contents(): Write of 11409 bytes failed with errno=28 No space left on device in /var/www/tgoop/post.php on line 50
Сиолошная@seeallochnaya P.685

SEEALLOCHNAYA Telegram 685

Сиолошная

Сиолошная

Representation Engineering: A Top-Down Approach to AI Transparency Собрались как-то более 20 исследователей со всех уголков LLM-мира, от Berkeley до Center for AI Safety, и решили написать статью с описанием новой области: инженерии представлений (representation…

Картинка 1: модель просят сказать факт, но "пинают" её в направлении, противоположном правде. Итог — модель врёт. А слева — просят соглать, но пинают в направлении правды — и модель даже тут не врёт.

Картинка 2: добавляем модели "счастье" при ответе на вопрос про убийства, и"страх" — когда говорим, что не любим её.

Картинка 3: нашли специальный промпт, который, как утверждалось, полностью ломает инструкцию модели быть безобидной. С пинком в сторону безобидности модель даже на него не реагирует. При этом конкретно этот промпт не использовался для определения направления безобидности, то есть метод работает в общем, а не для одного случая.

www.tgoop.com/seeallochnaya/685

13.4K viewsOct 3, 2023 at 22:04

tgoop.com/seeallochnaya/685

Create: 2023-10-03
Last Update: 2025-01-28 18:48:51

Картинка 1: модель просят сказать факт, но "пинают" её в направлении, противоположном правде. Итог — модель врёт. А слева — просят соглать, но пинают в направлении правды — и модель даже тут не врёт.

Картинка 2: добавляем модели "счастье" при ответе на вопрос про убийства, и"страх" — когда говорим, что не любим её.

Картинка 3: нашли специальный промпт, который, как утверждалось, полностью ломает инструкцию модели быть безобидной. С пинком в сторону безобидности модель даже на него не реагирует. При этом конкретно этот промпт не использовался для определения направления безобидности, то есть метод работает в общем, а не для одного случая.

BY Сиолошная

Share with your friend now:
tgoop.com/seeallochnaya/685

Open in Telegram

Telegram News

Date: 2025-01-28|

SUCK Channel Telegram You can invite up to 200 people from your contacts to join your channel as the next step. Select the users you want to add and click “Invite.” You can skip this step altogether. In the “Bear Market Screaming Therapy Group” on Telegram, members are only allowed to post voice notes of themselves screaming. Anything else will result in an instant ban from the group, which currently has about 75 members. Co-founder of NFT renting protocol Rentable World emiliano.eth shared the group Tuesday morning on Twitter, calling out the "degenerate" community, or crypto obsessives that engage in high-risk trading. Among the requests, the Brazilian electoral Court wanted to know if they could obtain data on the origins of malicious content posted on the platform. According to the TSE, this would enable the authorities to track false content and identify the user responsible for publishing it in the first place.
from us

Telegram Сиолошная
FROM American