DevSecOps Talks@devsecops

DevSecOps Talks

Использование нейросетей для выявления секретов, опыт Wiz

Всем привет!

Скомпрометированные секреты – один из самых популярных векторов атак. Их ищут везде, в том числе в репозиториях, конфигурационных файлах и образах контейнеров.

Традиционные методы, которые зачастую полагаются на использование регулярных выражений, обладают некоторыми нюансами: много ложных срабатываний (как из-за «общих» правил, так и из-за отсутствия понимания контекста), трудоемкая поддержка (добавлять «регулярки» в случае появления новых секретов, «адаптировать» старые и т.д.).

Нейронные сети показали себя с весьма хорошей стороны в вопросах понимания исходного кода и выявления секретов.

Именно этому и посвящена статья от Wiz, в которой команда описывает свой путь.

«Традиционные» модели (GPT, Claude Sonnet и т.д.) им не подошли по ряду причин:
🍭 Слишком сильное потребление ресурсов (Wiz анализирует миллионы файлов ежедневно)
🍭 Слишком высокая стоимость (обусловленная, опять-таки, большим количеством анализируемой информации)
🍭 Передача конфиденциальной информации (многие пользователи Wiz не хотели, чтобы их данные попадали в вышеуказанные сети)

Поэтому команда решила отойти от парадигмы «bigger is better» и использовать небольшую модель, которую обучили выполнять ровно одну задачу – искать секреты в исходном коде и конфигурационных файлах.

Все этапы: от формирования набора данных (data set) до тестирования и анализа результатов (ожидание/реальность) представлены в статье.

Да-да, в том числе в статье написано какую именно модель выбрали и какие подходы к обучению использовали.

Завершают статью небольшие размышления Автора о том, что будет дальше и как еще можно использовать полученный опыт.

wiz.io

Fine-Tuning a Small Language Model for Secrets Detection | Wiz Blog

Wiz fine-tuned a 1B LLM to detect secrets in code with 86% precision—outperforming regex-based methods while staying lean, private, and CPU-efficient.

👍9❤1🔥1

www.tgoop.com/devsecops_weekly/1287

3.29K viewsedited Aug 12 at 04:23