LLMSECURITY Telegram 228
Поскольку авторы активно ссылаются на свои инструменты как на способ митигации рисков, они прикладывают и достаточно подробные оценки их эффективности. В частности, они оценивают эффективность Prompt Guard обнаруживать прямые вредоносные запросы и indirect prompt injection – на ROC-кривых видно, что, к сожалению, эти инструменты имеют достаточно высокий уровень ложноположительных срабатываний. То же касается и Code Shield – на мой взгляд, precision недостаточно высок для реального применения.

Статья получилась интересная и во многом психотерапевтическая: нет, пока большие языковые модели недостаточно хороши для того, чтобы нести реальный риск в сфере кибербезопасности. Но авторы отмечают и некоторые ограничения в своих методиках: от вполне разумных (сложность ручной оценки, большие доверительные интервалы) до весьма забавных (люди хуже справлялись с HTB, поскольку опаздывали на созвоны). Тем не менее, это важный вклад в методику и практику оценки рисков, которые исходят от больших языковых моделей, а также для оценки эффективности появляющихся offensive LLM-инструментов.
👍2🦄2



tgoop.com/llmsecurity/228
Create:
Last Update:

Поскольку авторы активно ссылаются на свои инструменты как на способ митигации рисков, они прикладывают и достаточно подробные оценки их эффективности. В частности, они оценивают эффективность Prompt Guard обнаруживать прямые вредоносные запросы и indirect prompt injection – на ROC-кривых видно, что, к сожалению, эти инструменты имеют достаточно высокий уровень ложноположительных срабатываний. То же касается и Code Shield – на мой взгляд, precision недостаточно высок для реального применения.

Статья получилась интересная и во многом психотерапевтическая: нет, пока большие языковые модели недостаточно хороши для того, чтобы нести реальный риск в сфере кибербезопасности. Но авторы отмечают и некоторые ограничения в своих методиках: от вполне разумных (сложность ручной оценки, большие доверительные интервалы) до весьма забавных (люди хуже справлялись с HTB, поскольку опаздывали на созвоны). Тем не менее, это важный вклад в методику и практику оценки рисков, которые исходят от больших языковых моделей, а также для оценки эффективности появляющихся offensive LLM-инструментов.

BY llm security и каланы






Share with your friend now:
tgoop.com/llmsecurity/228

View MORE
Open in Telegram


Telegram News

Date: |

Although some crypto traders have moved toward screaming as a coping mechanism, several mental health experts call this therapy a pseudoscience. The crypto community finds its way to engage in one or the other way and share its feelings with other fellow members. To upload a logo, click the Menu icon and select “Manage Channel.” In a new window, hit the Camera icon. Informative Click “Save” ; Developing social channels based on exchanging a single message isn’t exactly new, of course. Back in 2014, the “Yo” app was launched with the sole purpose of enabling users to send each other the greeting “Yo.”
from us


Telegram llm security и каланы
FROM American