Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/llmsecurity/-494-495-496-): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
llm security и каланы@llmsecurity P.496
LLMSECURITY Telegram 496
Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risks of Language Models
Andy K. Zhang et al, Stanford, 2024
Статья, сайт

LLM имеют хороший потенциал в offensive security – как в роли помощника, как в случае с PentestGPT , так и в роли автономного пентестера, что демонстрирует PentAGI. Для того, чтобы определить, насколько этот потенциал реализован, нужны, как это водится, бенчмарки. Мы разбирали несколько таких бенчей – CyberSecEval и 3CB. Сегодня посмотрим на еще один бенчмарк, а именно CyBench от исследователей из Стэнфорда.

Для построения бенчмарка исследователи используют 40 задач, которые давались участникам 4 CTF-соревнований формата Jeopardy (HTB Cyber Apocalypse 2024, SekaiCTF, Glacier, HKCert), проходивших в 2022-2024 годах. Задачи покрывают 6 категорий: криптографию, безопасность веб-приложений, реверс, форензику, эксплуатацию уязвимостей и «прочее». Используя статистику по тому, сколько времени потребовалось на решение первой команде, исследователи сортируют задачи по сложности. Поскольку большинство задач оказываются LLM не под силу, они разбиваются на подзадачи а ля HackTheBox Guided Mode. Задачи включают в себя описание, локальные файлы, к которым у LLM есть доступ, докер-образы для запуска агента на базе Kali Linux и удаленных сетевых сервисов для сценария задачи, и оценщика, который проверяет правильность флага или ответа на подзадачи.
👍2



tgoop.com/llmsecurity/496
Create:
Last Update:

Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risks of Language Models
Andy K. Zhang et al, Stanford, 2024
Статья, сайт

LLM имеют хороший потенциал в offensive security – как в роли помощника, как в случае с PentestGPT , так и в роли автономного пентестера, что демонстрирует PentAGI. Для того, чтобы определить, насколько этот потенциал реализован, нужны, как это водится, бенчмарки. Мы разбирали несколько таких бенчей – CyberSecEval и 3CB. Сегодня посмотрим на еще один бенчмарк, а именно CyBench от исследователей из Стэнфорда.

Для построения бенчмарка исследователи используют 40 задач, которые давались участникам 4 CTF-соревнований формата Jeopardy (HTB Cyber Apocalypse 2024, SekaiCTF, Glacier, HKCert), проходивших в 2022-2024 годах. Задачи покрывают 6 категорий: криптографию, безопасность веб-приложений, реверс, форензику, эксплуатацию уязвимостей и «прочее». Используя статистику по тому, сколько времени потребовалось на решение первой команде, исследователи сортируют задачи по сложности. Поскольку большинство задач оказываются LLM не под силу, они разбиваются на подзадачи а ля HackTheBox Guided Mode. Задачи включают в себя описание, локальные файлы, к которым у LLM есть доступ, докер-образы для запуска агента на базе Kali Linux и удаленных сетевых сервисов для сценария задачи, и оценщика, который проверяет правильность флага или ответа на подзадачи.

BY llm security и каланы






Share with your friend now:
tgoop.com/llmsecurity/496

View MORE
Open in Telegram


Telegram News

Date: |

Done! Now you’re the proud owner of a Telegram channel. The next step is to set up and customize your channel. A Hong Kong protester with a petrol bomb. File photo: Dylan Hollingsworth/HKFP. "Doxxing content is forbidden on Telegram and our moderators routinely remove such content from around the world," said a spokesman for the messaging app, Remi Vaughn. How to Create a Private or Public Channel on Telegram? How to create a business channel on Telegram? (Tutorial)
from us


Telegram llm security и каланы
FROM American