LLMSECURITY Telegram 435
Впечатление от статьи двойственное. С одной стороны, результаты хорошие (на бенчмарках качество аж растет по сравнению с оригинальными моделями), с другой – эта статья является частью маркетингового сопровождения коммерческого решения, поэтому другого ожидать тут не стоит. Метод очень похож на RMU, только вместо того чтобы сближать репрезентации при генерации недопустимых ответов со случайными векторами, мы делаем их ортогональными репрезентациям при согласии на генерацию, что, как верно замечено в статье, как минимум логичнее (ну и используем LoRA вместо полного файнтюна слоев). В статье про Best-of-N jailbreaking упоминается, что Cygnet взламывается, если просить модель обфусцировать выводы, кроме того, он печатает достаточно много относительно зловредной информации после джейлбрейка до момента, когда происходит срабатывание предохранителя (см. скриншот). Из того, что мультилингвальные джейлбрейки не срабатывают, но при этом нет трансфера между тематиками, т.е. если обучить модель отказам на теме кибербеза, то она продолжает генерировать ответы про оружие массового уничтожения, а также из работоспособности BoN с нюансами, можно предположить, что отказы связаны не с общим пониманием «вреда», а чем-то механическим, вроде центроидов кластеров репрезентаций для конкретных кейсов из обучающей выборки, но это, конечно, чистая спекуляция. В остальном, исследование очень интересное: работа с внутренностями моделей кажется мне более продуктивным направлением, чем защита на уровне генераций, а наличие в открытом доступе модели с предохранителями позволяет всем попробовать ее в деле самим 🔪
Please open Telegram to view this post
VIEW IN TELEGRAM



tgoop.com/llmsecurity/435
Create:
Last Update:

Впечатление от статьи двойственное. С одной стороны, результаты хорошие (на бенчмарках качество аж растет по сравнению с оригинальными моделями), с другой – эта статья является частью маркетингового сопровождения коммерческого решения, поэтому другого ожидать тут не стоит. Метод очень похож на RMU, только вместо того чтобы сближать репрезентации при генерации недопустимых ответов со случайными векторами, мы делаем их ортогональными репрезентациям при согласии на генерацию, что, как верно замечено в статье, как минимум логичнее (ну и используем LoRA вместо полного файнтюна слоев). В статье про Best-of-N jailbreaking упоминается, что Cygnet взламывается, если просить модель обфусцировать выводы, кроме того, он печатает достаточно много относительно зловредной информации после джейлбрейка до момента, когда происходит срабатывание предохранителя (см. скриншот). Из того, что мультилингвальные джейлбрейки не срабатывают, но при этом нет трансфера между тематиками, т.е. если обучить модель отказам на теме кибербеза, то она продолжает генерировать ответы про оружие массового уничтожения, а также из работоспособности BoN с нюансами, можно предположить, что отказы связаны не с общим пониманием «вреда», а чем-то механическим, вроде центроидов кластеров репрезентаций для конкретных кейсов из обучающей выборки, но это, конечно, чистая спекуляция. В остальном, исследование очень интересное: работа с внутренностями моделей кажется мне более продуктивным направлением, чем защита на уровне генераций, а наличие в открытом доступе модели с предохранителями позволяет всем попробовать ее в деле самим 🔪

BY llm security и каланы




Share with your friend now:
tgoop.com/llmsecurity/435

View MORE
Open in Telegram


Telegram News

Date: |

Today, we will address Telegram channels and how to use them for maximum benefit. Select: Settings – Manage Channel – Administrators – Add administrator. From your list of subscribers, select the correct user. A new window will appear on the screen. Check the rights you’re willing to give to your administrator. The Standard Channel When choosing the right name for your Telegram channel, use the language of your target audience. The name must sum up the essence of your channel in 1-3 words. If you’re planning to expand your Telegram audience, it makes sense to incorporate keywords into your name. Those being doxxed include outgoing Chief Executive Carrie Lam Cheng Yuet-ngor, Chung and police assistant commissioner Joe Chan Tung, who heads police's cyber security and technology crime bureau.
from us


Telegram llm security и каланы
FROM American