tgoop.com/soldatov_in_telegram/724
Last Update:
Машинное обучение в обнаружении
Есть масса применений машобуча в ИБ и нередко на маркетинговых мероприятиях можно услышать об успехах применения машинного обучения без учителя для обнаружения: есть некоторый движок, выполняющий профилирование, который затем выдает статистические отклонения. Проблема тут в том, что "статистическое отклонение" - это не всегда "инцидент", и окончательное решение принимает человек. Понятие инцидента - не простое, поэтому построить классификатор, который будет выдавать не статистическое отклонение, а инцидент невозможно без анализа обратной связи от пользователя
Таким образом, налицо двухходовочка:
- Unsupervised ML поможет найти статистическое отклонение - здесь будет много False positives, но практика показывает, что будут и False negative
- Supervised ML теоретически можно обучить распознавать среди статистических отклонений инциденты, но в этом случае нужны большие размеченные данные, как например, в случае Автоаналитика
В нашем случае упомянутая двухходовочка для обнаружения горизонтальных перемещений в сети реализована одной Моделью без учителя. Но для поддержания удовлетворительного качества работы, все ее False* разбираются с участием аналитиков команды SOC, после чего Модель дорабатывается: начинает ловить прошлые пропуски и не генерить статистическое отклонение в определенных сценариях, не являющихся инцидентом.
Итого, нам всем нужно понимать:
1. Статистическое отклонение, выдаваемое Моделью без учителя - это еще не Инцидент
2. Для того, чтобы Модель научилась выдавать не статистические отклонения, а инциденты, обязательна обратная связь от пользователя, разметка данных пользователями
3. Чтобы обучить Модель на размеченных данных, их должно быть много
4. Нужно заниматься постоянным тюнингом Модели без учителя, выдающей статистические отклонения, чтобы она выдавала бизнес-значимые статистические отклонения, т.е. инциденты
5. В "коробочных" on prem решениях есть проблемы с получением обратной связи от пользователя и ее анализом, чтобы подстраивать и переобучать Модель, т.е. пп. 2-4 нереализуемы
В итоге получаем, что более-менее рабочим сценарием является портирование обученных моделей из облачных сервисов в on prem решения. Как, в частности, мы и сделаем с моделью обнаружения горизонтальных перемещений, которая из MDR когда-то станет доступна в KUMA. В этом случае постоянство качества Модели будет обеспечиваться ее постоянным тюнингом в рамках сервиса в предположении, что в пользовательской инфраструктуре демонстрируемые ею статистические отклонения будут интерпретировать как инциденты по тем же правилам, что и в MDR. Это очередная прекрасная демонстрация как правильно выкристаллизовывать облака в on prem, а никак не наоборот!
#MDR #vCISO #ml
BY Солдатов в Телеграм
Share with your friend now:
tgoop.com/soldatov_in_telegram/724