Солдатов в Телеграм@soldatov_in

Солдатов в Телеграм

(варианты решения этой задачи с помощью LLM пока не будем рассматривать, но и там проблем немало, ибо закономерность сохраняется:

чем сложнее система, тем сложнее ей пользоваться

). А это уже вопрос, решаемый в рамках машинного обучения с учителем, однако, в этом случае, для получения удовлетворительных результатов, нам нужны размеченные данные, типа, вот это статистическое отклонение - инцидент, а вот это статистическое отклонение - не инцидент. Кроме того, на практике нередки и false negative (пропуски), т.е. Модель надо подкрутить так, чтобы в сценариях прошлых промахов она, таки, выдавала статистическое отклонение, которое будет интерпретировано пользователем как инцидент. Чем размеченных данных будет больше, тем лучше, а если данных будем мало, построение такого классификатора под большим вопросом.

Таким образом, налицо двухходовочка:
- Unsupervised ML поможет найти статистическое отклонение - здесь будет много False positives, но практика показывает, что будут и False negative (собственно, этот объем False* и является основным аргументов скептиков относительно пригодности ML в ИБ вообще, сравнивающих ML-вердикты с выдачей ГПСЧ)
- Supervised ML теоретически можно обучить распознавать среди статистических отклонений инциденты, но в этом случае нужны большие размеченные данные, как например, в случае Автоаналитика

В нашем случае упомянутая двухходовочка для обнаружения горизонтальных перемещений в сети реализована одной Моделью без учителя. Но для поддержания удовлетворительного качества работы, все ее False* разбираются с участием аналитиков команды SOC, после чего Модель дорабатывается: начинает ловить прошлые пропуски и не генерить статистическое отклонение в определенных сценариях, не являющихся инцидентом.

Итого, нам всем нужно понимать:
1. Статистическое отклонение, выдаваемое Моделью без учителя - это еще не Инцидент
2. Для того, чтобы Модель научилась выдавать не статистические отклонения, а инциденты, обязательна обратная связь от пользователя, разметка данных пользователями
3. Чтобы обучить Модель на размеченных данных, их должно быть много
4. Нужно заниматься постоянным тюнингом Модели без учителя, выдающей статистические отклонения, чтобы она выдавала бизнес-значимые статистические отклонения, т.е. инциденты
5. В "коробочных" on prem решениях есть проблемы с получением обратной связи от пользователя и ее анализом, чтобы подстраивать и переобучать Модель, т.е. пп. 2-4 нереализуемы

В итоге получаем, что более-менее рабочим сценарием является портирование обученных моделей из облачных сервисов в on prem решения. Как, в частности, мы и сделаем с моделью обнаружения горизонтальных перемещений, которая из MDR когда-то станет доступна в KUMA. В этом случае постоянство качества Модели будет обеспечиваться ее постоянным тюнингом в рамках сервиса в предположении, что в пользовательской инфраструктуре демонстрируемые ею статистические отклонения будут интерпретировать как инциденты по тем же правилам, что и в MDR. Это очередная прекрасная демонстрация как правильно выкристаллизовывать облака в on prem, а никак не наоборот!

#MDR #vCISO #ml

Blogspot

Время материализовать облака

Мы рождены, чтоб сказку сделать былью ("Марш авиаторов", Герман-Хайт) Спешите порадоваться спуску с горы, ибо далее придется тащить на ...

👍6🔥2

www.tgoop.com/soldatov_in_telegram/724

1.27K viewsSep 24 at 08:11

tgoop.com/soldatov_in_telegram/724

Create: 2025-09-24
Last Update: 2025-10-20 07:08:41

Машинное обучение в обнаружении

Есть масса применений машобуча в ИБ и нередко на маркетинговых мероприятиях можно услышать об успехах применения машинного обучения без учителя для обнаружения: есть некоторый движок, выполняющий профилирование, который затем выдает статистические отклонения. Проблема тут в том, что "статистическое отклонение" - это не всегда "инцидент", и окончательное решение принимает человек. Понятие инцидента - не простое, поэтому построить классификатор, который будет выдавать не статистическое отклонение, а инцидент невозможно без анализа обратной связи от пользователя (варианты решения этой задачи с помощью LLM пока не будем рассматривать, но и там проблем немало, ибо закономерность сохраняется: чем сложнее система, тем сложнее ей пользоваться). А это уже вопрос, решаемый в рамках машинного обучения с учителем, однако, в этом случае, для получения удовлетворительных результатов, нам нужны размеченные данные, типа, вот это статистическое отклонение - инцидент, а вот это статистическое отклонение - не инцидент. Кроме того, на практике нередки и false negative (пропуски), т.е. Модель надо подкрутить так, чтобы в сценариях прошлых промахов она, таки, выдавала статистическое отклонение, которое будет интерпретировано пользователем как инцидент. Чем размеченных данных будет больше, тем лучше, а если данных будем мало, построение такого классификатора под большим вопросом.

Таким образом, налицо двухходовочка:
- Unsupervised ML поможет найти статистическое отклонение - здесь будет много False positives, но практика показывает, что будут и False negative (собственно, этот объем False* и является основным аргументов скептиков относительно пригодности ML в ИБ вообще, сравнивающих ML-вердикты с выдачей ГПСЧ)
- Supervised ML теоретически можно обучить распознавать среди статистических отклонений инциденты, но в этом случае нужны большие размеченные данные, как например, в случае Автоаналитика

В нашем случае упомянутая двухходовочка для обнаружения горизонтальных перемещений в сети реализована одной Моделью без учителя. Но для поддержания удовлетворительного качества работы, все ее False* разбираются с участием аналитиков команды SOC, после чего Модель дорабатывается: начинает ловить прошлые пропуски и не генерить статистическое отклонение в определенных сценариях, не являющихся инцидентом.

Итого, нам всем нужно понимать:
1. Статистическое отклонение, выдаваемое Моделью без учителя - это еще не Инцидент
2. Для того, чтобы Модель научилась выдавать не статистические отклонения, а инциденты, обязательна обратная связь от пользователя, разметка данных пользователями
3. Чтобы обучить Модель на размеченных данных, их должно быть много
4. Нужно заниматься постоянным тюнингом Модели без учителя, выдающей статистические отклонения, чтобы она выдавала бизнес-значимые статистические отклонения, т.е. инциденты
5. В "коробочных" on prem решениях есть проблемы с получением обратной связи от пользователя и ее анализом, чтобы подстраивать и переобучать Модель, т.е. пп. 2-4 нереализуемы

В итоге получаем, что более-менее рабочим сценарием является портирование обученных моделей из облачных сервисов в on prem решения. Как, в частности, мы и сделаем с моделью обнаружения горизонтальных перемещений, которая из MDR когда-то станет доступна в KUMA. В этом случае постоянство качества Модели будет обеспечиваться ее постоянным тюнингом в рамках сервиса в предположении, что в пользовательской инфраструктуре демонстрируемые ею статистические отклонения будут интерпретировать как инциденты по тем же правилам, что и в MDR. Это очередная прекрасная демонстрация как правильно выкристаллизовывать облака в on prem, а никак не наоборот!

#MDR #vCISO #ml

BY Солдатов в Телеграм

Share with your friend now:
tgoop.com/soldatov_in_telegram/724

Telegram News

Машинное обучение в обнаружении