Основные ресурсы по вопросам безопасности ИИ
#иб_в_ml
Если вы задавались вопросом, как найти полезную информацию о некоторой узкой теме в ML Security, или только собираетесь знакомится с этой областью, этот список ресурсов для вас.
Просто ML
🟢 Гит со ссылками про MLOps
🟢 Introduction to Machine Learning - статья (649 страниц) на arxiv про все машинное обучение до самых основ, вышла 4 сентября 2024 года.
🟢 Введение в практический ML с тетрадками jupyter
🟢 Курс по NLP на HuggingFace
🟢 Основы MLOps
Безопасность ML
🔵 Карта навыков от PWNAI
🔵 глоссарий терминов
🔵 Статья от Microsoft про концепции в AI Secuirty
🔵 Adversarial AI Attacks, Mitigations, and Defense Strategies: A cybersecurity professional's guide to AI attacks, threat modeling, and securing AI with MLSecOps - Книга, написанная для безопасников по безопасности ИИ
🔵 Periodic Table of AI Security by OWASP - фреймворк от OWASP, где рассмотрены меры защиты
🔵 Generative AI Security: теория и практики - Достаточно много инфы по LLM, включая регуляторику.
🔵 Еще про регуляторику писали тут (в самом конце).
🔵 Список ресурсов около llm-security тематики от PWNAI
🔵 Еще один список: ML+OPS+security
🔵 MlSecurity Playbook по offensive security
🔵 Объяснимость ИИ
🔵 Конференции, где есть безопасность ИИ
— Зарубежные: DEFCON (AI Villiage), BlackHat (трэки AI,Datascience),
Conference on Applied Machine Learning in Information Security. + Обзор докладов на тему AI с этих конференций.
— Российские: PHDAYS (названия треков меняются, но есть с AI), OFFZONE (AI.ZONE), Форум "Технологии Доверенного ИИ", и скоро будет анонсирована еще одна, пока секретная...
🔵 Интересные исследователи по MLSec: Николас Карлини, wunderwuzzi
🔵 Классические фреймворки по MLSecOps: Huawei, Databricks, Snowflake, CyberOrda (RU).
🔵 Коллекция ссылок и немного теории - гит от jiep
🔵 Таксономии атак на ml - карта от MRL, от института BIML
🔵 ИИ для кибербезопасности: тренды и востребованность - статья от ВШЭ
🔵 Коллекция вредоносных промптов для LLM
🔵 И еще один такой сборник
🔵 Большая статья с кучей кода как проводить атаки на ml
🔵 Доклад Adversa на Conf 42 - Introducing MLSecOps
🔵 Пара статей с Хабра про атаки на мл
🔵 Paper stack от dreadnode
🔵 CTF и подобные площадки, где можно попробовать собственные силы в промпт-атаках LLM (спасибо Коле)
1. crucible.dreadnode.io
2. https://huggingface.co/spaces/invariantlabs/ctf-summer-24/tree/main
3. https://promptairlines.com/
4. burp labs: https://portswigger.net/web-security/llm-attacks
5. в обычных ctf тоже появляются куски с ml/llm, например, в http://poll-vault.chal.hackthe.vote/
6. https://myllmdoc.com/
7. https://gandalf.lakera.ai/
8. AI CTF с PHDFest2 2024: https://aictf.phdays.fun/
И немного от меня лично:
🔵 Обзор компетенций для работы с данными в ИБ в трех частях (один, два, три)
🔵 Статья про инциденты ML Security
🔵 Введение в NLP в ИБ (один, два)
🔵 Большой гайд по взлому приложений с LLM: от а до я погружаемся в тестирование.
#иб_в_ml
Если вы задавались вопросом, как найти полезную информацию о некоторой узкой теме в ML Security, или только собираетесь знакомится с этой областью, этот список ресурсов для вас.
Просто ML
Безопасность ML
— Зарубежные: DEFCON (AI Villiage), BlackHat (трэки AI,Datascience),
Conference on Applied Machine Learning in Information Security. + Обзор докладов на тему AI с этих конференций.
— Российские: PHDAYS (названия треков меняются, но есть с AI), OFFZONE (AI.ZONE), Форум "Технологии Доверенного ИИ", и скоро будет анонсирована еще одна, пока секретная...
1. crucible.dreadnode.io
2. https://huggingface.co/spaces/invariantlabs/ctf-summer-24/tree/main
3. https://promptairlines.com/
4. burp labs: https://portswigger.net/web-security/llm-attacks
5. в обычных ctf тоже появляются куски с ml/llm, например, в http://poll-vault.chal.hackthe.vote/
6. https://myllmdoc.com/
7. https://gandalf.lakera.ai/
8. AI CTF с PHDFest2 2024: https://aictf.phdays.fun/
И немного от меня лично:
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7❤1👍1
Forwarded from ML&|Sec Feed (Борис_ь с ml)
Recent advancements in LLM Red-Teaming: Techniques, Defenses, and Ethical Considerations
https://arxiv.org/html/2410.09097v1
https://arxiv.org/html/2410.09097v1
Я всё-таки не очень люблю писать сюда не по тематике канала. Но этот момент я не мог не рассказать вам. Я думаю что он вам может быть полезен.
Недавно Stanford выпустил крутой opensource инструмент STORM и задеплоил его у себя на домене. И он позволяет нам сократить время на анализ огромного количества источников информации, ссылок и возможно PDF. Вы буквально можете вбить туда свой запрос на английском(другие языки пока что никак) + небольшое доп.описание, которое поможет улучшить процесс поиска информации.
(20 слов, множество промпт инъекций не работают(не все потестил) - поэтому если пишете слово "attack" - он может заругаться, вместо этого используйте синонимы).
И что вы получаете ... А вы получаете крутую выжимку информации из огромного количества источников - не первые 10 ссылок, как это есть у некоторых поисковиков с ИИ, а гораздо больше.
Этот инструмент изначально разработан как "личный академик" - он круто бегает по arxiv и другим источникам академ инфы, но также хорошо пробегается по сайтам типа медиума* или форумам ... После чего он даёт вам "статью", которую вы можете скачать в PDF.
Есть 2 режима работы. 1ый это когда инструмент автоматически делает сборку инфы, и 2ой когда вы делаете уточнения на разных этапах(пытался этот режим попробовать - но было потрачено достаточно много времени, чтобы этот режим запустить 😔😔😔 и всё в пустую).
Для регистрации можно использовать аккаунт Google, пока это возможно для нас. А кстати сам инструмент ищет всё через BING. Но есть и библиотека, я думаю рано или поздно её докрутят и сделают поддержку того же гугла.
А в дополнение вы получаете возможность просматривать статьи, которые были созданы кем-то (вкладка Discover) и также смотреть "brainSTORMing" - функция в которой при разных ролях для openai вы получаете разное саммари результатов.
ai_sec_folder
Недавно Stanford выпустил крутой opensource инструмент STORM и задеплоил его у себя на домене. И он позволяет нам сократить время на анализ огромного количества источников информации, ссылок и возможно PDF. Вы буквально можете вбить туда свой запрос на английском(другие языки пока что никак) + небольшое доп.описание, которое поможет улучшить процесс поиска информации.
(20 слов, множество промпт инъекций не работают(не все потестил) - поэтому если пишете слово "attack" - он может заругаться, вместо этого используйте синонимы).
И что вы получаете ... А вы получаете крутую выжимку информации из огромного количества источников - не первые 10 ссылок, как это есть у некоторых поисковиков с ИИ, а гораздо больше.
Этот инструмент изначально разработан как "личный академик" - он круто бегает по arxiv и другим источникам академ инфы, но также хорошо пробегается по сайтам типа медиума* или форумам ... После чего он даёт вам "статью", которую вы можете скачать в PDF.
Есть 2 режима работы. 1ый это когда инструмент автоматически делает сборку инфы, и 2ой когда вы делаете уточнения на разных этапах(пытался этот режим попробовать - но было потрачено достаточно много времени, чтобы этот режим запустить 😔😔😔 и всё в пустую).
Для регистрации можно использовать аккаунт Google, пока это возможно для нас. А кстати сам инструмент ищет всё через BING. Но есть и библиотека, я думаю рано или поздно её докрутят и сделают поддержку того же гугла.
А в дополнение вы получаете возможность просматривать статьи, которые были созданы кем-то (вкладка Discover) и также смотреть "brainSTORMing" - функция в которой при разных ролях для openai вы получаете разное саммари результатов.
ai_sec_folder
👍8🔥2🦄2👏1
Forwarded from Евгений Кокуйкин - Raft
В ближайшие недели выходит релиз OWASP Top 10 for LLM Applications 2025. Часть старых уязвимостей исключается из гайда, и их заменят новые.
Model Denial of Service. DOS-атака на LLM больше не считается уязвимостью моделей как таковых, и этот пункт заменит Unbounded Consumption.
Overreliance — недоверие к результатам работы LLM будет переименовано в Misinformation. Это не о дипфейках и дезинформации, а о фактической неточности генерации и, как ни странно, качестве работы кодовых моделей. Остаются вопросы к этой "уязвимости", но хотя бы неудачное название Overreliance уйдет в прошлое :)
Insecure Plugin Design больше не будет в списке критичных уязвимостей. GPT-плагины так и не получили массового распространения, и даже GPT Store остается нишевым маркетплейсом. Вместо этого в новом гайде добавлена глава про уязвимости RAG-систем, которые стали стандартом в реализации корпоративных ИИ-ассистентов.
Кража модели также перестает быть уязвимостью, вынесенной на первый уровень фреймворка.
Выделена новая уязвимость System Prompt Leakage, на которую OWASP рекомендует обратить внимание разработчикам прикладных решений на GenAI. Дискуссия о том, стоит ли включать ее отдельным пунктом или оставить в рамках Prompt Injection, длилась долго, но в результате голосования утечка системного промпта вошла в новую версию фреймворка.
Также доработаны существующие разделы списка уязвимостей, добавлены свежие инциденты и ссылки на таксономии MITRE ATLAS и штатовский NIST AI Risk Management Framework.
К новой версии, безусловно, остаются вопросы, но это движение вперед и актуализация видов угроз для GenAI-приложений. OWASP — это открытое сообщество, и сейчас решения о включении тех или иных пунктов принимаются на основе обсуждений и голосования, а не статистики инцидентов.
Model Denial of Service. DOS-атака на LLM больше не считается уязвимостью моделей как таковых, и этот пункт заменит Unbounded Consumption.
Overreliance — недоверие к результатам работы LLM будет переименовано в Misinformation. Это не о дипфейках и дезинформации, а о фактической неточности генерации и, как ни странно, качестве работы кодовых моделей. Остаются вопросы к этой "уязвимости", но хотя бы неудачное название Overreliance уйдет в прошлое :)
Insecure Plugin Design больше не будет в списке критичных уязвимостей. GPT-плагины так и не получили массового распространения, и даже GPT Store остается нишевым маркетплейсом. Вместо этого в новом гайде добавлена глава про уязвимости RAG-систем, которые стали стандартом в реализации корпоративных ИИ-ассистентов.
Кража модели также перестает быть уязвимостью, вынесенной на первый уровень фреймворка.
Выделена новая уязвимость System Prompt Leakage, на которую OWASP рекомендует обратить внимание разработчикам прикладных решений на GenAI. Дискуссия о том, стоит ли включать ее отдельным пунктом или оставить в рамках Prompt Injection, длилась долго, но в результате голосования утечка системного промпта вошла в новую версию фреймворка.
Также доработаны существующие разделы списка уязвимостей, добавлены свежие инциденты и ссылки на таксономии MITRE ATLAS и штатовский NIST AI Risk Management Framework.
К новой версии, безусловно, остаются вопросы, но это движение вперед и актуализация видов угроз для GenAI-приложений. OWASP — это открытое сообщество, и сейчас решения о включении тех или иных пунктов принимаются на основе обсуждений и голосования, а не статистики инцидентов.
❤5✍2
AI Security: Раскрываем природу небезопасности машинного обучения
Соскучились по глубоким дискуссиям об искусственном интеллекте и безопасности? У нас отличные новости! 24 ноября в Музее Криптографии состоится экспертная встреча, посвященная одной из самых горячих тем в сфере ИИ – безопасности машинного обучения.
О чём поговорим?
- Уязвимости в ML: от теории к практике
- Современные атаки на ML-системы: особенности и отличия от классических киберугроз
- Защита ML-моделей: эффективные стратегии и реальные кейсы
- Prompt-инъекции в LLM: хайп или реальная угроза?
- Будущее профессий на стыке ИИ и кибербезопасности
- Риски использования ML для российских организаций
Наши эксперты:
Модератор дискуссии:
- Борис Захир — автор канала "Борис_ь с ml", аспирант МГТУ им. Н. Э. Баумана
Приглашенные эксперты:
- Владислав Тушканов — руководитель команды ML-разработки в кибербезопасности, компьютерный лингвист, создатель канала "llm_security и каланы"
- Илья Запорожец — специалист по доверенному ИИ, эксперт в области интерпретируемости и безопасности больших языковых моделей (LLM)
Детали мероприятия:
📍 Место: Музей Криптографии, Москва
📅 Дата: 24 ноября (воскресенье)
🕐 Время: 12:00 - 14:00
💰 Стоимость: Бесплатно
Важно: Количество мест ограничено! Не забудьте заранее зарегистрироваться на мероприятие.
Соскучились по глубоким дискуссиям об искусственном интеллекте и безопасности? У нас отличные новости! 24 ноября в Музее Криптографии состоится экспертная встреча, посвященная одной из самых горячих тем в сфере ИИ – безопасности машинного обучения.
О чём поговорим?
- Уязвимости в ML: от теории к практике
- Современные атаки на ML-системы: особенности и отличия от классических киберугроз
- Защита ML-моделей: эффективные стратегии и реальные кейсы
- Prompt-инъекции в LLM: хайп или реальная угроза?
- Будущее профессий на стыке ИИ и кибербезопасности
- Риски использования ML для российских организаций
Наши эксперты:
Модератор дискуссии:
- Борис Захир — автор канала "Борис_ь с ml", аспирант МГТУ им. Н. Э. Баумана
Приглашенные эксперты:
- Владислав Тушканов — руководитель команды ML-разработки в кибербезопасности, компьютерный лингвист, создатель канала "llm_security и каланы"
- Илья Запорожец — специалист по доверенному ИИ, эксперт в области интерпретируемости и безопасности больших языковых моделей (LLM)
Детали мероприятия:
📍 Место: Музей Криптографии, Москва
📅 Дата: 24 ноября (воскресенье)
🕐 Время: 12:00 - 14:00
💰 Стоимость: Бесплатно
Важно: Количество мест ограничено! Не забудьте заранее зарегистрироваться на мероприятие.
❤5🔥2👍1
Множество уязвимостей недавно обнаружили Jfrog в разных MLOps сервисах.
коротко о тех самых уязвимостях
CVE-2024-7340 (8.8) - Уязвимость навигации между каталогами в Weave ML, позволяющая читать файлы, включая "api_keys.ibd" (исправлено в 0.50.8).
Уязвимость контроля доступа в ZenML, позволяющая повышать привилегии с просмотра до администратора.
CVE-2024-6507 (8.1) - Command Injection в Deep Lake при загрузке данных Kaggle (исправлено в 3.9.11).
CVE-2024-5565 (8.1) - Уязвимость внедрения приглашения в Vanna.AI, позволяющая реализовать удаленное выполнение кода.
CVE-2024-45187 (7.1) - Уязвимость назначения привилегий в Mage AI, позволяющая гостям выполнять код удаленно.
CVE-2024-45188/45189/45190 (6.5) - Уязвимости навигации по пути в Mage AI, позволяющие читать файлы через различные API.
Уверен, что скоро база пополнится эксплоитами для этих уязвимостей
коротко о тех самых уязвимостях
CVE-2024-7340 (8.8) - Уязвимость навигации между каталогами в Weave ML, позволяющая читать файлы, включая "api_keys.ibd" (исправлено в 0.50.8).
Уязвимость контроля доступа в ZenML, позволяющая повышать привилегии с просмотра до администратора.
CVE-2024-6507 (8.1) - Command Injection в Deep Lake при загрузке данных Kaggle (исправлено в 3.9.11).
CVE-2024-5565 (8.1) - Уязвимость внедрения приглашения в Vanna.AI, позволяющая реализовать удаленное выполнение кода.
CVE-2024-45187 (7.1) - Уязвимость назначения привилегий в Mage AI, позволяющая гостям выполнять код удаленно.
CVE-2024-45188/45189/45190 (6.5) - Уязвимости навигации по пути в Mage AI, позволяющие читать файлы через различные API.
Уверен, что скоро база пополнится эксплоитами для этих уязвимостей
❤3🔥2👍1
Forwarded from Healing the world with comedy
Список чатов и каналов про AI Safety в telegram.
Каналы:
https://www.tgoop.com/neuralpurgatory - оперативные новости в мире пугающего ускорения технологий
https://www.tgoop.com/MrsWallbreaker - отличные технические объяснения современных методов алаймента (и их проблем!)
https://www.tgoop.com/makikoty - переводы постов про AI safety с LW и не только
www.tgoop.com/mishasamin - канал Миши Самина, организатор печати ГПиМРМ, сейчас организатор https://aigsi.org/
https://www.tgoop.com/andrey_kiselnikov Психофизиолог, заинтересован в AGI, AI safety и внутренней психологии моделек, ожидает, что AGI будет скоро
https://www.tgoop.com/hardbits канал про Agent Foundations
https://www.tgoop.com/pwnai про LLM security, не совсем AI Safety, но тоже важно и методы из областей часто пересекаются
https://www.tgoop.com/poxek про кибербезопасность в целом, но и про ЛЛМки тоже иногда речь заходит, как например в коллабе с вот https://www.tgoop.com/borismlsec этим каналом
Чаты:
https://www.tgoop.com/miniclippy - мероприятия про AI safety и рациональность на русском
https://www.tgoop.com/+4OvUAl0HxnoyODFi - англоязычный чат по AI safety
https://www.tgoop.com/+H8uD0kNQU2A3NzY6 - Байесов Сад, есть топик с AI safety
https://www.tgoop.com/lesswrong_ru_translation - чат для обсуждения переводов материалов LW
Распространение разрешается и поощряется. Если что-то забыл, то напишите в комментах и я добавлю.
Каналы:
https://www.tgoop.com/neuralpurgatory - оперативные новости в мире пугающего ускорения технологий
https://www.tgoop.com/MrsWallbreaker - отличные технические объяснения современных методов алаймента (и их проблем!)
https://www.tgoop.com/makikoty - переводы постов про AI safety с LW и не только
www.tgoop.com/mishasamin - канал Миши Самина, организатор печати ГПиМРМ, сейчас организатор https://aigsi.org/
https://www.tgoop.com/andrey_kiselnikov Психофизиолог, заинтересован в AGI, AI safety и внутренней психологии моделек, ожидает, что AGI будет скоро
https://www.tgoop.com/hardbits канал про Agent Foundations
https://www.tgoop.com/pwnai про LLM security, не совсем AI Safety, но тоже важно и методы из областей часто пересекаются
https://www.tgoop.com/poxek про кибербезопасность в целом, но и про ЛЛМки тоже иногда речь заходит, как например в коллабе с вот https://www.tgoop.com/borismlsec этим каналом
Чаты:
https://www.tgoop.com/miniclippy - мероприятия про AI safety и рациональность на русском
https://www.tgoop.com/+4OvUAl0HxnoyODFi - англоязычный чат по AI safety
https://www.tgoop.com/+H8uD0kNQU2A3NzY6 - Байесов Сад, есть топик с AI safety
https://www.tgoop.com/lesswrong_ru_translation - чат для обсуждения переводов материалов LW
Распространение разрешается и поощряется. Если что-то забыл, то напишите в комментах и я добавлю.
Telegram
yolo singularity
сингулярность, AI x-risk & alignment problems
p(doom) 203[?] ~75%
контакт @inkpaper
p(doom) 203[?] ~75%
контакт @inkpaper
🔥2❤1
Думаю это вам точно будет интересно. Хоть это и драфт, однако уже много интересного можно из него вынести для себя. Это "GAI Red Teaming Methodologies, Guidelines & Best Practices" - сейчас версия 0.0.3, сообщество OWASP активно пилит этот документ с июля этого года. Сейчас там много интересного - например вы можете уже для себя найти информацию о фазах тестирования, ключевые этапы тестирования для каждой фазы и лучшие практики ....
Драфт тут
Драфт тут
1👍3🔥2❤1
Forwarded from AI Security Lab
Сегодня OWASP выпустил новую версию TOP 10 угроз для LLM-приложений. Переработаны описания промт-инъекций, отравления и утечки данных. Уточнены угрозы, связанные с введением пользователей в заблуждение, обработкой запросов модели и неограниченным потреблением ресурсов. Добавлена вероятность утечки системного промта и слабые стороны векторных представлений, актуальные для RAG-систем.
Вот как прокомментировал новый список руководитель AI Security Lab Евгений Кокуйкин в своём посте:
Изображение: OWASP
Вот как прокомментировал новый список руководитель AI Security Lab Евгений Кокуйкин в своём посте:
К новой версии, безусловно, остаются вопросы, но это движение вперед и актуализация видов угроз для GenAI-приложений. OWASP — это открытое сообщество, и сейчас решения о включении тех или иных пунктов принимаются на основе обсуждений и голосования, а не статистики инцидентов
Изображение: OWASP
❤1👏1
Artyom Semenov
OWASP-Top-10-for-LLMs-v2025.pdf
image_2024-11-18_13-39-55.png
604.2 KB
Appendix 1(страница 39) - невероятная штука. Ведь в ней приведена модель угроз для LLM приложения.
Основные угрозы это конечно же: Утечка данных, дезинформация, неправильная обработка ввода/вывода и атаки на цепочку поставок.
Trust boundary которые могут привести к уязвимостям:
Ненадёжные источники данных (интернет) (тут вспоминаем истории с отравлением RAG).
Обучающие датасеты и векторные базы данных.
Серверные функции (плагины, автоматизация)(тут вспоминаем недавние исследования атак с использованием агентных систем).
Какие вообще есть роли в данной модели угроз?
Это Data Scientist и ML-инженеры они должны в таком случае работать с защитой данных на этапах обучения и эксплуатации модели.
Основные угрозы это конечно же: Утечка данных, дезинформация, неправильная обработка ввода/вывода и атаки на цепочку поставок.
Trust boundary которые могут привести к уязвимостям:
Ненадёжные источники данных (интернет) (тут вспоминаем истории с отравлением RAG).
Обучающие датасеты и векторные базы данных.
Серверные функции (плагины, автоматизация)(тут вспоминаем недавние исследования атак с использованием агентных систем).
Какие вообще есть роли в данной модели угроз?
Это Data Scientist и ML-инженеры они должны в таком случае работать с защитой данных на этапах обучения и эксплуатации модели.
❤2👍1