DEVSECOPS_WEEKLY Telegram 1287
Использование нейросетей для выявления секретов, опыт Wiz

Всем привет!

Скомпрометированные секреты – один из самых популярных векторов атак. Их ищут везде, в том числе в репозиториях, конфигурационных файлах и образах контейнеров.

Традиционные методы, которые зачастую полагаются на использование регулярных выражений, обладают некоторыми нюансами: много ложных срабатываний (как из-за «общих» правил, так и из-за отсутствия понимания контекста), трудоемкая поддержка (добавлять «регулярки» в случае появления новых секретов, «адаптировать» старые и т.д.).

Нейронные сети показали себя с весьма хорошей стороны в вопросах понимания исходного кода и выявления секретов.

Именно этому и посвящена статья от Wiz, в которой команда описывает свой путь.

«Традиционные» модели (GPT, Claude Sonnet и т.д.) им не подошли по ряду причин:
🍭 Слишком сильное потребление ресурсов (Wiz анализирует миллионы файлов ежедневно)
🍭 Слишком высокая стоимость (обусловленная, опять-таки, большим количеством анализируемой информации)
🍭 Передача конфиденциальной информации (многие пользователи Wiz не хотели, чтобы их данные попадали в вышеуказанные сети)

Поэтому команда решила отойти от парадигмы «bigger is better» и использовать небольшую модель, которую обучили выполнять ровно одну задачу – искать секреты в исходном коде и конфигурационных файлах.

Все этапы: от формирования набора данных (data set) до тестирования и анализа результатов (ожидание/реальность) представлены в статье.

Да-да, в том числе в статье написано какую именно модель выбрали и какие подходы к обучению использовали.

Завершают статью небольшие размышления Автора о том, что будет дальше и как еще можно использовать полученный опыт.
👍91🔥1



tgoop.com/devsecops_weekly/1287
Create:
Last Update:

Использование нейросетей для выявления секретов, опыт Wiz

Всем привет!

Скомпрометированные секреты – один из самых популярных векторов атак. Их ищут везде, в том числе в репозиториях, конфигурационных файлах и образах контейнеров.

Традиционные методы, которые зачастую полагаются на использование регулярных выражений, обладают некоторыми нюансами: много ложных срабатываний (как из-за «общих» правил, так и из-за отсутствия понимания контекста), трудоемкая поддержка (добавлять «регулярки» в случае появления новых секретов, «адаптировать» старые и т.д.).

Нейронные сети показали себя с весьма хорошей стороны в вопросах понимания исходного кода и выявления секретов.

Именно этому и посвящена статья от Wiz, в которой команда описывает свой путь.

«Традиционные» модели (GPT, Claude Sonnet и т.д.) им не подошли по ряду причин:
🍭 Слишком сильное потребление ресурсов (Wiz анализирует миллионы файлов ежедневно)
🍭 Слишком высокая стоимость (обусловленная, опять-таки, большим количеством анализируемой информации)
🍭 Передача конфиденциальной информации (многие пользователи Wiz не хотели, чтобы их данные попадали в вышеуказанные сети)

Поэтому команда решила отойти от парадигмы «bigger is better» и использовать небольшую модель, которую обучили выполнять ровно одну задачу – искать секреты в исходном коде и конфигурационных файлах.

Все этапы: от формирования набора данных (data set) до тестирования и анализа результатов (ожидание/реальность) представлены в статье.

Да-да, в том числе в статье написано какую именно модель выбрали и какие подходы к обучению использовали.

Завершают статью небольшие размышления Автора о том, что будет дальше и как еще можно использовать полученный опыт.

BY DevSecOps Talks




Share with your friend now:
tgoop.com/devsecops_weekly/1287

View MORE
Open in Telegram


Telegram News

Date: |

The initiatives announced by Perekopsky include monitoring the content in groups. According to the executive, posts identified as lacking context or as containing false information will be flagged as a potential source of disinformation. The content is then forwarded to Telegram's fact-checking channels for analysis and subsequent publication of verified information. In 2018, Telegram’s audience reached 200 million people, with 500,000 new users joining the messenger every day. It was launched for iOS on 14 August 2013 and Android on 20 October 2013. Public channels are public to the internet, regardless of whether or not they are subscribed. A public channel is displayed in search results and has a short address (link). ZDNET RECOMMENDS Find your optimal posting schedule and stick to it. The peak posting times include 8 am, 6 pm, and 8 pm on social media. Try to publish serious stuff in the morning and leave less demanding content later in the day.
from us


Telegram DevSecOps Talks
FROM American