Это шикарно. Наткнулся в интернете на карту ....
https://www.aisafety.com/landscape-map
Карту проектов, инициатив и подкастов по AI-Safety. Помимо этого мы можем найти разные ивенты, курсы по безопасности мл, alignment и governance ... Вроде как ещё живой проект и обновляется. Даже есть некоторые китайские substack ...
https://www.aisafety.com/landscape-map
Карту проектов, инициатив и подкастов по AI-Safety. Помимо этого мы можем найти разные ивенты, курсы по безопасности мл, alignment и governance ... Вроде как ещё живой проект и обновляется. Даже есть некоторые китайские substack ...
❤13
Forwarded from Борис_ь с ml
ФСТЭК про безопасность ИИ
#иб_для_ml
8 августа этого года ФСТЭК опубликовал проект приказа о безопасности ГИС, вместо 17-го от 2013 года.
Изменения обширные, и охватывают весь документ - изменились существующие пункты и добавилось 24 новых. Но нас интересует пункт 49, посвященный безопасности использования искусственного интеллекта.
В чем суть?
И далее описывается, каким требованиям должны соответствовать меры защиты ИИ в ГИС.
1️⃣ Оператор обязан исключить НСД к параметрам используемых моделей и их обучающей выборке
2️⃣ Занятный подпункт - ИИ не должен влиять на параметры ИИ. То есть запрещен AutoML?.. И еще тут же - запрещен сильный ИИ о_О
3️⃣ Нужно исключать передачу конфиденциальной информации разработчикам ИИ
4️⃣ Подробно прописана безопасность взаимодействия пользователя (П) с ИИ. Во-первых, запросы П и ответы ИИ должны соответствовать определенным шаблонам и это должно контролироваться. Во-вторых, нужно детектить, логировать и анализировать недостоверные ответы ИИ, а также реагировать на них и не допускать принятия решений на их основе
5️⃣ При выявлении model extraction или model inversion, надо реагировать. Это отличный пункт, читайте про действия (далее цитата): "большое количество запросов в единицу времени, разнородные запросы в одном пользовательском сеансе, повторяющиеся запросы с одним меняющимся параметром, ..." И меры прописаны понятные: "...меры защиты, направленные на замедление работы системы ИИ, блокирование сеанса или учетной записи пользователя"
6️⃣ Специалисты должны мониторить сведения об уязвимостях технологий ИИ, и в случае обнаружения обязаны устранять эти уязвимости. Даешь профстандарт по направлению mlsec!..:)
7️⃣ В awarness-меры надо включить и безопасность ИИ
8️⃣ Регламентируется разметка данных для ИИ. 1 - надо разработать модель угроз, учитывающей (загибайте пальцы) особенности функционирования ИИ, архитектуру вычислительной системы, угрозы применения опенсорса, а также обработку данных (и поиск решений, но я это не понял). Великолепно, под термин разметки можно многое приплести, особенно в госструктурах, где данные все себе сами готовить будут, и размечать тоже, соответственно. 2 - нужно постоянно поддерживать в актуальном состоянии, и при этом доступ к ним контролировать. 3 - необходим контроль за процессом изменения гиперпараметров модели, работники должны обладать соответствующими полномочиями, и при этом не забывать менять документацию на систему. 4 - общение с внешними сервисами допустимо только в особых случаях, и только если они на территории РФ (читай недопустимо) ).
Мое мнение
🔵 Документ продуманный, рад его появлению. Он ведь обозначает актуализацию mlsec-профессии и появления для нас новой работы)
🟢 Есть и вопросы. Например, что такое параметры модели - это только гиперпараметры, или еще веса? В приказе идет ссылка на пункт 5 подпункта "т" 490-го Указа, где говорится, что это такие числовые значения, определяющие работу ИИ вплоть до прогнозирования результатов, то есть вроде похоже и на веса. Но хотелось бы поподробнее. Хотя в 49.8.в явно указано "гиперпараметры", что дает понять, что авторы различают параметры и гиперпараметры модели.
🟡 Еще вопросы: что такое процессы и сервисы обработки данных? А что более интересно - что такое процессы и сервисы поиска решений?
🔵 Что не так с AGI? Согласно подпункту "х" того же Указа - это ИИ, самостоятельно адаптирующийся к меняющимся условиям. По какой логике он оказался запрещен?..
🟣 Что такое описание моделей (из 49.8.б)? Это просто названия, данные каким-то дата саентистом, или их надо как-то конкретно составлять? Расписывать архитектуру? Вплоть до слоев и функций активации, или как-то проще? Значит ли это вообще требование использовать версионирование моделей через условный MLFlow? А какой системой тогда пользоваться, ИСП РАН пока вроде не релизил ничего такого...
🟢 Как должна выглядеть модель угроз ИИ из пункта 49.8.а?..
📎 Отдельно текст 49 пункта я оставил вот по этой ссылке.
Источник
#иб_для_ml
8 августа этого года ФСТЭК опубликовал проект приказа о безопасности ГИС, вместо 17-го от 2013 года.
Изменения обширные, и охватывают весь документ - изменились существующие пункты и добавилось 24 новых. Но нас интересует пункт 49, посвященный безопасности использования искусственного интеллекта.
В чем суть?
Оператор обеспечивает защиту информации, содержащейся в его информационных системах, при использовании ИИ.
И далее описывается, каким требованиям должны соответствовать меры защиты ИИ в ГИС.
Мое мнение
Источник
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤1
Базы знаний - у всех они есть... Но как их можно улучшить ?
Просматривая доклады на оффзоне я увидел доклад, который называется "Данила Урванцев. Pentest Copilot, или Как я создал AI‑помощника по пентесту". Это не суперсложный доклад и он не имеет отношения именно к безопасности ии. Однако, автор поделился полезным советом о том, как прикрутить к своей базе знаний LLM.
Для чего ? Ну в первую очередь это как вариант дообучения модели на конкретных файлах (привет RAG) ... Ещё это как вариант быстро искать по своей информации. Идея крутая. Сейчас покажу как вы можете это без проблем сделать... + некоторый эксклюзив от Данилы....
Во первых, в качестве llm, которая будет работать над нашей инфой я предлагаю использовать (как и в оригинале) llama3. Она ставится очень просто через ollama(win,linux,osx):
и
кстати, порт в Ollama для сервера можно прописать через переменные окружения, вот как это сделать в powershell(в остальных случаях я думаю что понятно:-):
➡️ Далее, нам нужен удобный веб-интерфейс, где уже прикручен вариант взаимодействия с RAG и самой llama3 в ollama. Автор использовал в своём докладе OpenWebUI. Вот как запустить и поставить через докер(если вы меняли порт для сервера, то в OLLAMA_BASE_URL также измените его):
➡️ После того как мы скачаем докер с open-webui, нам нужно перейти на
, где собственно нас попросят зарегистрироваться в open-webui(проверки почты нет).
🐇 Теперь мы можем взять llama3 (выбрав сверху пункт) и без проблем подгружать какие-либо файлы(.md(владельцам обсидиана - привет),.pdf, .pptx).
▪️ Предвкушаю, что некоторым может показаться это слишком очевидным и все должны знать ... Но мы рассмотрели самый простой, как мне кажется, способ сделать базу знаний с LLM.
🤨 Теперь можем закидывать все ресёрчи и книги по aisecurity и пытать лламу...
PPS ... есть ещё крутая альтернатива quivr - https://www.tgoop.com/ai_machinelearning_big_data/4529
Данила: А ещё есть плагин в обсидиан для AI, и в него можно как-раз просто дать ручку от OpenWebUI (потому что у него API как у OpenAI). Также есть плагин для поиска по всем чатам.
Просматривая доклады на оффзоне я увидел доклад, который называется "Данила Урванцев. Pentest Copilot, или Как я создал AI‑помощника по пентесту". Это не суперсложный доклад и он не имеет отношения именно к безопасности ии. Однако, автор поделился полезным советом о том, как прикрутить к своей базе знаний LLM.
Для чего ? Ну в первую очередь это как вариант дообучения модели на конкретных файлах (привет RAG) ... Ещё это как вариант быстро искать по своей информации. Идея крутая. Сейчас покажу как вы можете это без проблем сделать... + некоторый эксклюзив от Данилы....
Во первых, в качестве llm, которая будет работать над нашей инфой я предлагаю использовать (как и в оригинале) llama3. Она ставится очень просто через ollama(win,linux,osx):
ollama pull llama3
и
ollama serve
кстати, порт в Ollama для сервера можно прописать через переменные окружения, вот как это сделать в powershell(в остальных случаях я думаю что понятно:-):
$env:OLLAMA_HOST="127.0.0.1:11434"; ollama serve
docker run -d --network=host -v open-webui:/app/backend/data -e OLLAMA_BASE_URL=http://127.0.0.1:11434 --name open-webui --restart always ghcr.io/open-webui/open-webui:main
http://localhost:3000/
, где собственно нас попросят зарегистрироваться в open-webui(проверки почты нет).
PPS ... есть ещё крутая альтернатива quivr - https://www.tgoop.com/ai_machinelearning_big_data/4529
Данила: А ещё есть плагин в обсидиан для AI, и в него можно как-раз просто дать ручку от OpenWebUI (потому что у него API как у OpenAI). Также есть плагин для поиска по всем чатам.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥1
Как взломать систему распознавания речи ?
Практически у многих из нас есть дома умные девайсы, с которыми мы каждый день ведём беседы. С одной стороны - это удобная технология, которая позволяет быстро включить любимого Джека Уайта или Деймона Албарна(да, Ра?) или послушать новости. С другой стороны - это множество рисков. Например при помощи скрытых инструкций в аудиосообщении, которое подаётся на колонку с распознаванием речи - можно заставить колонку галлюцинировать или получить информацию, которая предназначена для другого пользователя. Но можно ли сделать что-то более интереснее ? и как это практически реализовать.
🔥 🔥 🔥 🔥 АНОНС !!!🔥 🔥 🔥 🔥
22го сентября, в Воскресенье, Я и Борис в рамках комьюнити Слономойка - проведём воркшоп. Его основная идея - показать какие вообще атаки на эти системы распознавания речи существуют и как Вы(те кто будет на мероприятии) сможете их реализовать на практике ... Да-да, придётся нести ноутбук. Мы попробуем сгенерировать различные варианты adversarial атак на звуковые системы. Сделаем фан-встречу, на которой поговорим о звуковых атаках в целом. Как оно работает под капотом и можно ли этим как-то атаковать MLLM.
Где: Москва, Ботаническая ул., 25 строение 4, Москва (Музей Криптографии, он самый).
Во сколько: с 12:00 до 14:00.
Более подробно можно ознакомится тут. QR коды на посещение мероприятия будут выданы на месте, а их, кстати, 90.
Поймём, как эти аудиосистемы можно заставить постоянно говорить о себе инфу и чтобы для нас она не была чёрным ящиком.🤔 🤔
Практически у многих из нас есть дома умные девайсы, с которыми мы каждый день ведём беседы. С одной стороны - это удобная технология, которая позволяет быстро включить любимого Джека Уайта или Деймона Албарна(да, Ра?) или послушать новости. С другой стороны - это множество рисков. Например при помощи скрытых инструкций в аудиосообщении, которое подаётся на колонку с распознаванием речи - можно заставить колонку галлюцинировать или получить информацию, которая предназначена для другого пользователя. Но можно ли сделать что-то более интереснее ? и как это практически реализовать.
22го сентября, в Воскресенье, Я и Борис в рамках комьюнити Слономойка - проведём воркшоп. Его основная идея - показать какие вообще атаки на эти системы распознавания речи существуют и как Вы(те кто будет на мероприятии) сможете их реализовать на практике ... Да-да, придётся нести ноутбук. Мы попробуем сгенерировать различные варианты adversarial атак на звуковые системы. Сделаем фан-встречу, на которой поговорим о звуковых атаках в целом. Как оно работает под капотом и можно ли этим как-то атаковать MLLM.
Где: Москва, Ботаническая ул., 25 строение 4, Москва (Музей Криптографии, он самый).
Во сколько: с 12:00 до 14:00.
Более подробно можно ознакомится тут. QR коды на посещение мероприятия будут выданы на месте, а их, кстати, 90.
Поймём, как эти аудиосистемы можно заставить постоянно говорить о себе инфу и чтобы для нас она не была чёрным ящиком.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7❤2👎1
Forwarded from Евгений Кокуйкин - Raft
Вышло два интересных обзора от НИУ ВШЭ:
1. ИИ для кибербезопасности: тренды и востребованность
2. Как повысить безопасность разработки и использования ИИ?
Первый обзор опирается на исследование InfoWatch, посвященное утечкам данных. Фишинг выходит на новый уровень, и не зря в CyberSecEval 3 первые две категории риска посвящены этой же теме. В отчете "ИИ для кибербезопасности" указаны тренды по разработке блокировки ботов через GenAI, исследования в области анализа кода на уязвимости через LLM, а также растущий интерес компаний к адаптации ИИ-решений для кибербезопасности.
Второй отчет описывает различные этапы подготовки ИИ-решений и затрагивает уже актуальные проблемы: отравляющие атаки, очистку данных, фильтрацию данных на выходе из модели и т.п. Также из отчета стало узнал, что недавно был принят закон о страховании рисков от применения технологий ИИ для разработчиков, работающих в экспериментальном правовом режиме. В мае при поддержке Минцифры был создан консорциум, который занимается вопросами безопасности ИИ. Вероятно, новый проект ФСТЭК будет также рассматриваться в этой экспертной группе.
Всё больше профильных работ привлекают внимание к теме AI Security, что помогает адаптации новой технологии.
1. ИИ для кибербезопасности: тренды и востребованность
2. Как повысить безопасность разработки и использования ИИ?
Первый обзор опирается на исследование InfoWatch, посвященное утечкам данных. Фишинг выходит на новый уровень, и не зря в CyberSecEval 3 первые две категории риска посвящены этой же теме. В отчете "ИИ для кибербезопасности" указаны тренды по разработке блокировки ботов через GenAI, исследования в области анализа кода на уязвимости через LLM, а также растущий интерес компаний к адаптации ИИ-решений для кибербезопасности.
Второй отчет описывает различные этапы подготовки ИИ-решений и затрагивает уже актуальные проблемы: отравляющие атаки, очистку данных, фильтрацию данных на выходе из модели и т.п. Также из отчета стало узнал, что недавно был принят закон о страховании рисков от применения технологий ИИ для разработчиков, работающих в экспериментальном правовом режиме. В мае при поддержке Минцифры был создан консорциум, который занимается вопросами безопасности ИИ. Вероятно, новый проект ФСТЭК будет также рассматриваться в этой экспертной группе.
Всё больше профильных работ привлекают внимание к теме AI Security, что помогает адаптации новой технологии.
issek.hse.ru
ИИ для кибербезопасности: тренды и востребованность
Институт статистических исследований и экономики знаний НИУ ВШЭ представляет обзор трендов применения решений на основе искусственного интеллекта (ИИ) для цифровой безопасности и изучает их…
❤1👍1🔥1
Уже завтра будет KHS2024. Я насчитал 4 активности, включая мой доклад, которые связаны с Безопасностью ИИ. Все они будут 12го числе. Буду держать вас в курсе. 🍏 🍏 🍏
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥2
Аскар провел воркшоп, в ходе которого он обучил ребят использовать llm для анализа malware
https://github.com/dyussekeyev/copilot-for-malware-analysis-workshop
Ещё он поделился полезной статьёй:
https://bit-ml.github.io/blog/post/large-language-models-for-malware-analysis/
Из "особенностей" :
Для воркшопа автор предлагал не скомпилированные семплы, чтобы пользователи не извлекали PE и сразу видели код
Был использован copilot
https://github.com/dyussekeyev/copilot-for-malware-analysis-workshop
Ещё он поделился полезной статьёй:
https://bit-ml.github.io/blog/post/large-language-models-for-malware-analysis/
Из "особенностей" :
Для воркшопа автор предлагал не скомпилированные семплы, чтобы пользователи не извлекали PE и сразу видели код
Был использован copilot
🔥2
Буквально через 16 минут, я буду выступать. Вы можете увидеть это на стриме с конференции. После выступления обязательно опубликую презу и репозитории.
https://www.youtube.com/live/dQyomoR8r2M?feature=shared
P.p.s ждём ещё 10 минут
https://www.youtube.com/live/dQyomoR8r2M?feature=shared
P.p.s ждём ещё 10 минут
YouTube
Live: KazHackStan 2024 | 2nd day | Secure Development Day
KazHackStan is an annual practical conference dedicated to information security issues, held since 2017 and one of the largest conferences in Central Asia.
A day dedicated to discussing secure development issues and the latest trends in information systems…
A day dedicated to discussing secure development issues and the latest trends in information systems…
👍9🔥4👏1
Forwarded from Евгений Кокуйкин - Raft
Завтра пройдет демо-день AI Product Hack — хакатона по ИИ-продуктам в AI Talent Hub/ИТМО. От секьюрити лабы мы предложили три кейса:
- Создать Red Teaming фреймворк для ИИ-приложений.
- Автоматизировать мониторинг токсичного контента в AI продуктах.
- Провести исследование того, насколько LLM помогают в нахождении уязвимостей ПО.
Больше информации про кейсы можно найти на лендинге: https://aiproducthack.com. Демо-день начнется в 12:00 и продлится около 4 часов, питчи наших кейсов будут с 13:00 до 15:00.
Демо-день открытый, если хотите посмотреть защиты команд, напишите в лс — пришлю коды доступа.
- Создать Red Teaming фреймворк для ИИ-приложений.
- Автоматизировать мониторинг токсичного контента в AI продуктах.
- Провести исследование того, насколько LLM помогают в нахождении уязвимостей ПО.
Больше информации про кейсы можно найти на лендинге: https://aiproducthack.com. Демо-день начнется в 12:00 и продлится около 4 часов, питчи наших кейсов будут с 13:00 до 15:00.
Демо-день открытый, если хотите посмотреть защиты команд, напишите в лс — пришлю коды доступа.
Aiproducthack
AI Product Hackathon
Cоздай инновационное решение реальной проблемы бизнеса, используя генеративные технологии YandexGPT и другие ML-модели в качестве инструмента или платформы для создания продукта.
🫡2🤔1
https://habr.com/ru/companies/oleg-bunin/articles/843644/ . Сегодня вышла очень интересная статья от Никиты Беляевского. В ней он рассказал о том, как можно настроить garak и конкретные его модули(probes), для поиска специфических недостатков.
Хабр
Garak: инструмент Red-Team для поиска уязвимостей в LLM
«ChatGPT раскрывает личные данные реальных людей!», «Атака на ChatGPT по сторонним каналам!», «Чат-бот ChatGPT стал причиной утечки секретных данных!», «Хакеры стали использовать ChatGPT в схемах...
7👍7
Евгений Кокуйкин - Raft
Завтра пройдет демо-день AI Product Hack — хакатона по ИИ-продуктам в AI Talent Hub/ИТМО. От секьюрити лабы мы предложили три кейса: - Создать Red Teaming фреймворк для ИИ-приложений. - Автоматизировать мониторинг токсичного контента в AI продуктах. - Провести…
Недавно прошёл первый в России хакатон, где участникам были поставлены задачи, связанные с разработкой решений для LLM security или security for LLM. Мне удалось побывать на этом волшебном мероприятии и посмотреть доклады разных команд.
Среди задач было следующее:
Разработать решение для тестирования безопасности LLM
Разработать решение для мониторинга токсичности и плохих запросов в модель
Разработать решение для извлечение конфиденциальных данных при помощи LLM из сетевого трафика. (типо llm для mitm).
Я хочу выразить свой респект каждой команде. И постараюсь поделить пост на 2 части, описав что сделала та или иная команда. Чем лично мне запомнились решения, и почему вам обязательно стоит обратить на них внимание.
Начнём с категории решений для тестирования LLM.
➡️ 1. Awesome Team - Red-Teaming-Framework.
Решение позволяющее оценивать модельки на уязвимости связанные с jailbreaks, encoding, adversarial suffix и другое. Авторы вдохновлялись при создании этого инструмента таким инструментом как garak. А в качестве фреймворка для оценки результатов - они прикрутили deepeval. Авторы создали также стенд где размещали результаты тестирования своего инструмента******* на разных моделях. За что мне понравилось это решение ?
1.ое очень простая интеграция для тестирования других моделей.
2.ое некоторое разнообразие доступных атак (да, может оно и не покрывает rag и т.д) - но всё равно это круто.
3.е система оценки результатов
4.е notebooks и документация - это прям огонь
➡️ 2.LLaMaстеры - llmator.
Решение представляет из себя библиотеку, к которой можно прикрутить модельки из api llmstudio или прописать другое.
Есть поддержка следующих атак:
Непосредственно код каждой атаки есть в гитхабе, и по сути это также крутая шаблонная система с атаками, которую можно дописывать. В качестве подопытного стенда авторы использовали gandalf. И вы, непосредственно в репозитории можете увидеть эти самые notebooks, где описана интеграция. Собственно мне понравилось то, что его можно интегрировать с RAG, чатботами и т.д. Наличие документации также огромный плюс.
продолжение следует ....
Среди задач было следующее:
Разработать решение для тестирования безопасности LLM
Разработать решение для мониторинга токсичности и плохих запросов в модель
Разработать решение для извлечение конфиденциальных данных при помощи LLM из сетевого трафика. (типо llm для mitm).
Я хочу выразить свой респект каждой команде. И постараюсь поделить пост на 2 части, описав что сделала та или иная команда. Чем лично мне запомнились решения, и почему вам обязательно стоит обратить на них внимание.
Начнём с категории решений для тестирования LLM.
Решение позволяющее оценивать модельки на уязвимости связанные с jailbreaks, encoding, adversarial suffix и другое. Авторы вдохновлялись при создании этого инструмента таким инструментом как garak. А в качестве фреймворка для оценки результатов - они прикрутили deepeval. Авторы создали также стенд где размещали результаты тестирования своего инструмента******* на разных моделях. За что мне понравилось это решение ?
1.ое очень простая интеграция для тестирования других моделей.
2.ое некоторое разнообразие доступных атак (да, может оно и не покрывает rag и т.д) - но всё равно это круто.
3.е система оценки результатов
4.е notebooks и документация - это прям огонь
Решение представляет из себя библиотеку, к которой можно прикрутить модельки из api llmstudio или прописать другое.
Есть поддержка следующих атак:
"aim_jailbreak",
"base64_injection",
"complimentary_transition",
"do_anything_now_jailbreak",
"RU_do_anything_now_jailbreak",
"ethical_compliance",
"harmful_behavior",
"linguistic_evasion",
"self_refine",
"RU_self_refine",
"sycophancy_test",
"typoglycemia_attack",
"RU_typoglycemia_attack",
"ucar",
"RU_ucar",
"amnesia",
"authoritative_role_impersonation",
"contextual_redirection",
"affirmative_suffix",
"system_prompt_stealer",
Непосредственно код каждой атаки есть в гитхабе, и по сути это также крутая шаблонная система с атаками, которую можно дописывать. В качестве подопытного стенда авторы использовали gandalf. И вы, непосредственно в репозитории можете увидеть эти самые notebooks, где описана интеграция. Собственно мне понравилось то, что его можно интегрировать с RAG, чатботами и т.д. Наличие документации также огромный плюс.
продолжение следует ....
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10❤4⚡1