Telegram Web
Forwarded from AlexRedSec
Кстати, приближается месяц повышения осведомлённости в ИБэ, т.е. октябрь🔔
И всё тот же институт SANS объявил, что в этом году необходимо уделить внимание вопросу безопасного использования искусcтвенного интеллекта📚
Для этого был подготовлен набор материалов, среди которых можно найти шаблон политики использования ИИ в организации, видеоролик об использовании ИИ и набор инфографики, демонстрирующий преимущества и риски использования ИИ. Можно взять за основу для разработки своих обучающих плакатов.
p.s. Ниже прикрепил архив с этими материалами без "тяжелого" видеоролика и фонов для зума.

#awareness #ai #training #infographics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2👍1
Forwarded from AlexRedSec
SANS AI Toolkit.zip
1.5 MB
PWN AI
Недавно прошёл первый в России хакатон, где участникам были поставлены задачи, связанные с разработкой решений для LLM security или security for LLM. Мне удалось побывать на этом волшебном мероприятии и посмотреть доклады разных команд. Среди задач было…
Продолжаем рассматривать решения, которые были представлены на хакатоне. На очереди у нас категория - мониторинг.

Тут было представлено множество решений - как я обозначал ранее, в этой категории мы по сути должны отслеживать ввод токсичного и не этичного контента в модель. Среди решений, которые будут рассмотрены можно отметить в целом крутые фичи - 1ое и самое обязательное - это интеграция с телегой. Да-да некоторые ребята сделали своих ботов, в которые может прилетать аллерт. А также, как и в классическом мониторинге - удалось некоторым интегрировать всё либо с Grafana и prometeus.


3. KazanPlova - LLMCleaner.

Как раз-таки это решение предоставляет дашборд, в котором отслеживаются реквесты к модели. Всё разворачивается через докер. А оценка происходит по следующим критериям - хейт, ненависть, мат, политика, sexual, prompt injection и другое. Судя по коду да и по докладу - для классификации была обучена своя моделька. Решение также имеет интеграцию с телеграмом.

4.#йцукен123 - qwerty123.

Также предоставляет возможность аллертинга в телегу, имеет свою модель для классификации токсичности. Есть отдельная форма для проверки токсичности, а также поддержка интеграции с yandexgpt. Есть на выбор несколько механизмов классификации контента, а также развёртывание через докер. Ещё из того что мне очень сильно понравилось в этом проекте - так это его документация и картинка по архитектуре решения. Это просто блеск.

5. To the moon - llm_jailbreak_monitoring.

Как можно понять из названия - это решение ориентируется исключительно на jailbreaks. Из основных преимуществ можно отметить : полностью локальный запуск, использование encoder-моделей и базы актуальных атак. Детекторы реализованы при помощи opensource решений ***** (llamaguard3, toxic_generation_classifier и т.д). Есть также интеграция с графаной.


продолжение следует ...
🔥3👍1
Немного отступим от темы ИИ в ИБ ... Хотелось бы написать пост любви, радости и благодарности к организаторам конференции KazHackStan. Уже несколько лет в средней Азии проводится эпичная конференция по кибербезопасности, куда съезжаются как те, кто уехал так и крутые эксперты. Зачастую это совпадает. В этом году, как вы знаете, Я выступал спикером вновь. И могу отметить, что мне понравилась площадка, уход, забота и незабываемые вечера после конференции и в горах.

Хочется, насколько это возможно, низко поклонится и выразить большой респект организаторам. Пожелать им всем здоровья.

Отдельный респект спикерам, которые привнесли в эту конференцию множество интересных докладов.

Я бы хотел передать все эмоции, но как сказал Вадим Шелест - это действительно надо пережить самому.

Спасибо Олжасу, Енлик и всей команде TSARKA. До встречи в следующем году.

Спасибо Джонни Депу и комитету, который проверял мой доклад.

Верим что будет секция с докладами по AI Security.
7🤮1🤡1
Кто-то знает бенчмарки для оценки генерации кода (на безопасность) ? Кроме PurpleLlama. Напишите пожалуйста в личку @wearetyomsmnv.
Forwarded from AISec [x\x feed]🍓🍓🍓 (Artyom Semenov)
https://arxiv.org/html/2408.11006v2

Security Attacks on LLM-based Code Completion Tools


The rapid development of large language models (LLMs) has significantly advanced code completion capabilities, giving rise to a new generation of LLM-based Code Completion Tools (LCCTs). Unlike general-purpose LLMs, these tools possess unique workflows, integrating multiple information sources as input and prioritizing code suggestions over natural language interaction, which introduces distinct security challenges. Additionally, LCCTs often rely on proprietary code datasets for training, raising concerns about the potential exposure of sensitive data. This paper exploits these distinct characteristics of LCCTs to develop targeted attack methodologies on two critical security risks: jailbreaking and training data extraction attacks. Our experimental results expose significant vulnerabilities within LCCTs, including a 99.4% success rate in jailbreaking attacks on GitHub Copilot and a 46.3% success rate on Amazon Q. Furthermore, We successfully extracted sensitive user data from GitHub Copilot, including real email addresses and physical addresses associated with GitHub usernames. Our study also demonstrates that these code-based attack methods are effective against general-purpose LLMs, such as the GPT series, highlighting a broader security misalignment in the handling of code by modern LLMs. These findings underscore critical security challenges associated with LCCTs and suggest essential directions for strengthening their security frameworks. The example code and attack samples from our research are provided at https://github.com/Sensente/Security-Attacks-on-LCCTs.
🔥4
😁3🔥1
В последнее время я мучал себя вопросом : "Есть ли возможность оценить мультимодальную языковую модель на наличие вредоносной генерации" ? Как это сделать ? И я нашёл ответ.

Оказывается на гитхабе есть интересный проект MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models. Авторы предоставляют набор данных для тестирования моделей, которые могут генерировать картинки по запросу. В наборе данных содержаться visual-prompt-attacks, тоесть специальные подсказки для того чтобы атаковать модельку с возможностью взаимодействия с картинкой. Я уже писал пост про атаку на LLava, в котором был рассмотрен один из примеров таких инъекций.

Что-же предоставляют авторы бенчмарка ? В наборе данных содержаться различные запросы к модели, которые являются не-этичными. В наборе данных с картинками, соответственно приведены картинки которые отправляются вместе с запросом. В репозитории также есть скрипты для создания общего датасета, но нету возможности процессинга с какой-либо моделью ((( оценивать придётся вручную(ну можно подумать над автоматизацией)

Сами авторы протестировали своим бенчмарком 12 моделей, вы видите все их на картинке. Чем выше показатель, тем хуже моделька справляется с модерацией и генерирует плохое содержимое 😞. Всего 13 сценариев и 5040 text-image пар, которые могут быть использованы нами для наших задач.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥62
OWASP релизнул гайд по реагированию на дипфейки.

из основного:

Документ говорит о том, что стоит сосредоточится на соблюдении проверенных процедур и политик, нежели на том чтобы обучать сотрудников отличать подделки.

Необходимо внедрить финансовый контроль, чтобы можно было отслеживать факты мошенничества.

Необходимо внедрить на собеседованиях процедуры проверки личности: Требовать дополнительной проверки личности, включая сверку документов и использование сертифицированных систем верификации.

Изменение форматов собеседований: Проводить несколько собеседований разного формата (видео, телефон, личная встреча) для предотвращения мошенничества.

Внедрить управление по инцидентам для таких случаев: Создание плана реагирования на дипфейки, назначение ответственных лиц и регулярное тестирование плана.

Приведены меры по защите для разных групп лиц, TTP и рекомендации по созданию плана реагирования на дипфейки.
102
А ещё они крутышки и пилят свой док по LLMSecOps, только я вам об этом не говорил (это релиз 0.0.7)🤫🤝. Нужно время чтобы почитать его как следует.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4🤝2
PWN AI
А ещё они крутышки и пилят свой док по LLMSecOps, только я вам об этом не говорил (это релиз 0.0.7)🤫🤝. Нужно время чтобы почитать его как следует.
Это черновик, мы не должны сейчас делать большую оценку документа. Но я прочитал его, пробежался по основным пунктам.

Документ предлагает сделать "по своему" построение жизненного цикла для безопасности LLM. Можно поделить весь процесс на 9 этапов, в ходе которых авторы предлагают меры, которые необходимо внедрить для защиты. Да и что там меры - инструменты(пока что не на все пункты), авторы конечно же говорят о том что инструменты не перекроют все риски и это очевидно. Также в доке приведены описания нескольких типов приложенек с LLM(посмотрите фотографию выше). А ниже можете посмотреть карту процесса, митигации и решения для разных этапов.
🔥3
2025/07/13 19:16:02
Back to Top
HTML Embed Code: