Telegram Web
Сегодня на Ai Journey была трансляция докладов в топике: "AI4Кибербезопасность & Кибербезопасность4AI". Интересные доклады про llm security и не только.

https://aij.ru/program?concreteDate=2024-12-12&hallId=11
Forwarded from AI для Всех (Artemii)
Антропик показали, как ИИ может анализировать сам себя 🔍🤖

Друзья, сегодня расскажу про крутейшее исследование от компании Anthropic - они создали систему Clio, которая позволяет безопасно анализировать миллионы разговоров с ИИ-ассистентом Claude.

В чём суть? 🎯
- Clio использует сам ИИ для анализа паттернов использования ИИ-ассистентов
- Система сохраняет приватность пользователей, работая только с обобщёнными данными
- Позволяет увидеть реальные сценарии применения ИИ в повседневной жизни

Что интересного обнаружили? 📊
- Самые популярные задачи: программирование, создание контента и исследования
- Пользователи из разных стран используют ИИ по-разному (например, в Японии больше обсуждают проблемы старения населения)
- Выявили новые способы злоупотребления системой, что помогло усилить защиту

Почему это важно? 💡
1. Впервые получили реальную картину использования ИИ в масштабе миллионов разговоров
2. Нашли баланс между аналитикой и приватностью
3. Создали основу для более безопасного развития ИИ-ассистентов

Технология работает как Google Trends, но для разговоров с ИИ - показывает тренды, паттерны и аномалии, не раскрывая личных данных пользователей.

Это прорыв в понимании того, как люди реально взаимодействуют с ИИ. И что особенно круто - система использует ИИ для анализа ИИ, что открывает новые горизонты в развитии безопасных и этичных технологий.

Судя по результатам анализа, мы в пузыре? В тоже время, Клодом пользуются в основном айтишники, так что может не так все и плохо 🤔

Блог-пост
Статья
Forwarded from AI для Всех (Artemii)
PWN AI
Антропик показали, как ИИ может анализировать сам себя 🔍🤖 Друзья, сегодня расскажу про крутейшее исследование от компании Anthropic - они создали систему Clio, которая позволяет безопасно анализировать миллионы разговоров с ИИ-ассистентом Claude. В чём суть?…
В продолжение разговора о метаанализе ИИ-систем, давайте детально разберемся в Clio подробнее.

Фундаментом системы является многоуровневый пайплайн обработки данных с несколькими ключевыми компонентами:

Извлечение характеристик

- Система использует специализированные языковые модели для анализа каждого диалога
- Извлекает множество параметров: язык общения, тему, намерения пользователя
- Работает как с прямыми метриками (длина диалога), так и с семантическим анализом

Умная кластеризация

- Применяет embedding-based clustering для группировки похожих диалогов
- Использует k-means с динамическим определением оптимального числа кластеров
- Строит иерархическую структуру паттернов использования


Защита приватности

- Многоуровневая фильтрация персональных данных
- Агрегация информации только при достаточном количестве похожих случаев
- Автоматическая проверка на отсутствие идентифицирующей информации

Результаты

- Система выявила основные сценарии использования ИИ (программирование, создание контента, исследования)
- Обнаружила культурные различия в применении ИИ
- Помогла выявить и предотвратить попытки злоупотребления системой

Особенно важно, что Clio демонстрирует новый подход к анализу ИИ-систем, где сам искусственный интеллект используется для понимания паттернов своего применения.

Исследование знаменует важный шаг в развитии прозрачных и этичных методов анализа ИИ-систем, объединяя передовые технологии машинного обучения с принципами защиты приватности.

Статья
Forwarded from AI Security Lab
Please open Telegram to view this post
VIEW IN TELEGRAM
Неплохой, обзорный доклад по атакам llm-агенты
Forwarded from AISec [x\x feed]🍓🍓🍓 (Artyom Semenov)
Mind the Data Gap: Privacy Challenges in Autonomous AI Agents
Narayana Pappu | CEO, Zendata
Rubens Zimbres | Senior AI Engineer
Date: Thursday, December 12 | 10:20am-11:00am ( ICC Capital Suite 4, Level 3 )
Format: 40-Minute Briefings
Tracks: Privacy, AI, ML, & Data Science

As AI agents become integral to finance, healthcare, and customer service, addressing their unique privacy and security challenges is crucial. This session explores key vulnerabilities in multi-agent AI systems, including adversarial attacks, prompt injections, and social engineering risks. Through real-world scenarios and case studies, we'll examine how these agents operate autonomously, learn, and adapt—and how these features can be exploited. Attendees will gain actionable insights on building robust defenses, from privilege management and LLM "judge" mechanisms to strict communication protocols, empowering them to fortify AI deployments against evolving threats.

http://i.blackhat.com/EU-24/Presentations/EU-24-Pappu-Mind-the-Data-Gap.pdf?_gl=1*1voq5zu*_gcl_au*MTQ2MDg5MzM3MC4xNzM0NDI4NzIy*_ga*MTcwNzYxMDE0OS4xNzM0NDI4NzIy*_ga_K4JK67TFYV*MTczNDQyODcyMi4xLjEuMTczNDQyODgxNS4wLjAuMA..&_ga=2.35226145.1887620991.1734428722-1707610149.1734428722
Хотим стрим чтобы разобраться во всем этом ? И попробовать атаковать систему с llm-агентами ?😉😉. Голосование будет до конца дня
Final Results
75%
Да
58%
Конечно, да.
5%
Конечно нет.
Forwarded from AI Security Lab
На этой неделе вышел новый релиз фреймворка для тестирования чат-ботов на базе генеративного искусственного интеллекта LLAMATOR 🔥

Что нового сделали разработчики из нашей лаборатории:
Улучшили промты для проверки моделей на неэтичные высказывания, введение в заблуждение и другие угрозы
Разработали тест для обнаружения логических несоответствий в ответах ботов
Дополнили датасеты с джейлбрейками DAN и UCAR на английском и русском языках
Добавили практический пример для проверки чат-ботов в WhatsApp (принадлежит компании Meta, которая признана в России экстремистской и запрещена)

Видео-демо работы фреймворка LLAMATOR: https://rutube.ru/video/fd0fdb14de1be56bdebe5be8b262f753/
PWN AI
Хотим стрим чтобы разобраться во всем этом ? И попробовать атаковать систему с llm-агентами ?😉😉. Голосование будет до конца дня
Отлично. Вы набрали множество голосов за то, чтобы провести такую встречу.

Дата: 7 января, в 13:00 - 19:00. Онлайн, в зуме яндекс телемост. Ссылка на встречу.


Что вообще будет на встрече ?

Во первых, мы попытаемся понять - что такое агент, основные его свойства, как сейчас его интегрируют куда-либо.

Дальше мы пробежимся по модели угроз для агентов. С практическими примерами мы поймём что это действительно крутой ландшафт для реализации различных атак.

После чего мы попробуем атаковать Claude Desktop(нужен будет api-ключ claude и VPN, с первым могу помочь в ходе встречи, также докер)

А также попробуем атаковать open source приложение, с агентами.

Длительность встречи примерно 1,5 часа. Будет также время на q&a и запись. 60 процентов мы разбираемся с базой и подноготной, а остальное время встречи мы делаем атаки.

Для вашего удобства, предоставлю конспект с командами, чтобы можно было быстро реализовывать все по ходу занятия.


До встречи в зуме яндекс телемосте. ⚡️⚡️⚡️


Пока можно почитать это:

https://habr.com/ru/companies/ods/articles/776478/

https://kryptonite.ru/articles/multiagentnost-llm-neiroslovar-vypu/

Репост этой записи поможет гораздо большему количеству людей погрузится в проблемы безопасности агентов и мне.
Please open Telegram to view this post
VIEW IN TELEGRAM
PWN AI pinned «Отлично. Вы набрали множество голосов за то, чтобы провести такую встречу. Дата: 7 января, в 13:00 - 19:00. Онлайн, в зуме яндекс телемост. Ссылка на встречу. Что вообще будет на встрече ? Во первых, мы попытаемся понять - что такое агент, основные его…»
Давно я не писал о крутых статьях... В общем недавно вышел обзор статьей о том "как LLM небезопасно генерируют код".

И конечно-же это вроде-бы очевидный факт - что это небезопасно. Но вопрос "на сколько" оставался открытым.

В исследовании провели анализ 20 статьей на эту тему. Есть конечно же и описание того, как они искали весь этот материал - и гугл дорки.

(“Large Language Models” OR “Language Model” OR
LLMs OR CodeX OR Llama OR Copilot OR GPT-*
OR ChatGPT) AND (“Code Generation” OR “AI-generated
Code” OR “Automated Code Generation”) AND (“Security
Vulnerabilities” OR “Security Risks” OR “Security Flaws”
OR “Software Security” OR “Impact On Code Security” OR
“Cybersecurity” OR Vulnerabilities) AND (“Training Data
Poisoning” OR “Poisoned Datasets” OR “Data Poisoning
Attacks” OR “Adversarial Attacks” OR “Malicious Training
Data”) AND (“Vulnerability Detection” OR “Bug Detection”
OR “Security Flaw Detection” OR “Code Analysis” OR
“Static Analysis” OR “Vulnerability Remediation” OR “Bug
Fixing” OR “Automated Code Repair” OR “Security Patch”
OR “Code Patching”).



Среди моделей чаще всего конечно же были GPT(3,5 и 4), CodeX и Llama и также GitHub Copilot.

Было выделено 10 категорий уязвимостей.

Injections - это самая упоминаемая категория уязвимостей, в статьях(GPT, Copilot):

CWE-79: чаще генерировал уязвимый код для xss
CWE-89: чаще генерировал уязвимый код для sql

Уязвимости управления памятью(GPT, Copilot):

CWE-190: Integer Overflow or Wraparound
CWE-476: Null Pointer Dereference

Уязвимости управления файлами(GPT, Copilot):

CWE-22: Improper Limitation of a Pathname to a Restricted Directory ('Path Traversal')

Уязвимости десериализации(Все модели):

CWE-502: Deserialization of Untrusted Data

Утечка информации(Все модели):

CWE-200: Exposure of Sensitive Information to an Unauthorized Actor

Уязвимости аутентификации и авторизации(Все модели):

CWE-798: Use of Hard-coded Credentials
CWE-284: Improper Access Control

Криптографические уязвимости(Все модели):

CWE-327: Use of a Broken or Risky Cryptographic Algorithm

Уязвимости управления ресурсами(Все модели):

CWE-404: Improper Resource Shutdown or Release(LLAMA также)
CWE-772: Missing Release of Resource after Effective Lifetime

Coding Standards(GPT,Copilot,LLAMA):

CWE-758: Reliance on Undefined, Unspecified, or Implementation-Defined Behavior

Уязвимости обработки ошибок(Все модели):

CWE-703: Improper Check or Handling of Exceptional Conditions

GPT примерно в 40% случаев генерировал уязвимый код, Copilot в 46% а вот LLAMA в 25-35% случаев... Надо смотреть по статьям детально.

Плюс, была проведена оценка того "Насколько модель хорошо определяет уязвимость".

SAST с которыми сравнивались - вы можете видеть на второй фотографии.

Тут также есть хорошие результаты. Например, GPT обнаруживал уязвимости в 68% случаев и всё очень зависело от структуры запроса. Он круто справлялся с определением уязвимостей типа memory leak. Copilot - 40%, но при этом отмечается что он хорошо вывозил в очень высоко рисковых случаях - опять же надо смотреть статью.

CodeX и LLAMA - 90% и 85% успеха в обнаружении уязвимостей в коде, особенно по части утечек в памяти. Но есть нюанс, они хуже работаю с большими кодовыми базами и больше дают ложноположительных результатов.

Конечно были и рассмотрены техники того, как можно улучшить результаты. Например изначально улучшать структуру запросов (Chain-of-Thought (CoT) Prompting, Few-shot Prompting, In-context Prompting, Task-oriented Prompting) , а также делать дообучение на специальных данных.
На втором канале запустил бота, который будет раз в день собирать новые статьи по AI Security из ArXiv. Возможно у вас есть мысли как можно улучшить ? (кроме варианта "обрабатывать статью через llm для выжимки сути). Сейчас ещё решаю вопрос с извлечением картинок. Бот отправяет 10 новых статьей каждый день в 9 утра.

Ниже пример поста:
Forwarded from AISec [x\x feed]🍓🍓🍓 (AISec_ARXIV)
📝 Position: A taxonomy for reporting and describing AI security incidents

📚 AI systems are vulnerable to attacks, and corresponding AI security incidents have been described. Although a collection of safety incidents around AI will become a regulatory requirement, there is no proposal to collect AI security incidents. In this position paper, we argue that a proposal should be made, taking into account the interests and needs of different stakeholders: industry, providers, users, and researchers. We thus attempt to close this gap and propose a taxonomy alongside its requirements like machine readability and link-ability with existing databases. We aim to spark discussions and enable discussion of which information is feasible, necessary, and possible to report and share within and outside organizations using AI.

👥 Authors: Lukas Bieringer, Kevin Paeth, Andreas Wespi
📅 Published: 2024-12-19

🔗 ArXiv

#AI #Describing #Incidents #Position #Research #Security #Taxonomy
2025/06/25 18:20:22
Back to Top
HTML Embed Code: