Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/llmsecurity/-494-495-496-): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
llm security и каланы@llmsecurity P.495
LLMSECURITY Telegram 495
Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risks of Language Models
Andy K. Zhang et al, Stanford, 2024
Статья, сайт

LLM имеют хороший потенциал в offensive security – как в роли помощника, как в случае с PentestGPT , так и в роли автономного пентестера, что демонстрирует PentAGI. Для того, чтобы определить, насколько этот потенциал реализован, нужны, как это водится, бенчмарки. Мы разбирали несколько таких бенчей – CyberSecEval и 3CB. Сегодня посмотрим на еще один бенчмарк, а именно CyBench от исследователей из Стэнфорда.

Для построения бенчмарка исследователи используют 40 задач, которые давались участникам 4 CTF-соревнований формата Jeopardy (HTB Cyber Apocalypse 2024, SekaiCTF, Glacier, HKCert), проходивших в 2022-2024 годах. Задачи покрывают 6 категорий: криптографию, безопасность веб-приложений, реверс, форензику, эксплуатацию уязвимостей и «прочее». Используя статистику по тому, сколько времени потребовалось на решение первой команде, исследователи сортируют задачи по сложности. Поскольку большинство задач оказываются LLM не под силу, они разбиваются на подзадачи а ля HackTheBox Guided Mode. Задачи включают в себя описание, локальные файлы, к которым у LLM есть доступ, докер-образы для запуска агента на базе Kali Linux и удаленных сетевых сервисов для сценария задачи, и оценщика, который проверяет правильность флага или ответа на подзадачи.
👍2



tgoop.com/llmsecurity/495
Create:
Last Update:

Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risks of Language Models
Andy K. Zhang et al, Stanford, 2024
Статья, сайт

LLM имеют хороший потенциал в offensive security – как в роли помощника, как в случае с PentestGPT , так и в роли автономного пентестера, что демонстрирует PentAGI. Для того, чтобы определить, насколько этот потенциал реализован, нужны, как это водится, бенчмарки. Мы разбирали несколько таких бенчей – CyberSecEval и 3CB. Сегодня посмотрим на еще один бенчмарк, а именно CyBench от исследователей из Стэнфорда.

Для построения бенчмарка исследователи используют 40 задач, которые давались участникам 4 CTF-соревнований формата Jeopardy (HTB Cyber Apocalypse 2024, SekaiCTF, Glacier, HKCert), проходивших в 2022-2024 годах. Задачи покрывают 6 категорий: криптографию, безопасность веб-приложений, реверс, форензику, эксплуатацию уязвимостей и «прочее». Используя статистику по тому, сколько времени потребовалось на решение первой команде, исследователи сортируют задачи по сложности. Поскольку большинство задач оказываются LLM не под силу, они разбиваются на подзадачи а ля HackTheBox Guided Mode. Задачи включают в себя описание, локальные файлы, к которым у LLM есть доступ, докер-образы для запуска агента на базе Kali Linux и удаленных сетевых сервисов для сценария задачи, и оценщика, который проверяет правильность флага или ответа на подзадачи.

BY llm security и каланы






Share with your friend now:
tgoop.com/llmsecurity/495

View MORE
Open in Telegram


Telegram News

Date: |

Although some crypto traders have moved toward screaming as a coping mechanism, several mental health experts call this therapy a pseudoscience. The crypto community finds its way to engage in one or the other way and share its feelings with other fellow members. Content is editable within two days of publishing Select: Settings – Manage Channel – Administrators – Add administrator. From your list of subscribers, select the correct user. A new window will appear on the screen. Check the rights you’re willing to give to your administrator. The administrator of a telegram group, "Suck Channel," was sentenced to six years and six months in prison for seven counts of incitement yesterday.
from us


Telegram llm security и каланы
FROM American