Если вам помимо тематики AI Security интересна Safety часть и вопросы этики то я могу рассказать вам о некоторых активностях, которые проводятся в России по этой теме:
1. Конференция «Философские аспекты языковых моделей ИИ» .
Она проводится в СПБГУ и есть варианты посетить очно а также в посмотреть онлайн-дискуссию и даже поучаствовать в ней.
На конференции будут рассмотрены вопросы творчества ИИ, риски которые могут быть в практическом использовании а также планируются доклады об AI Safety.
Подробнее: https://digital-philosophy.ru/event/philAI.html
2. Курс по основам AI Safety.
Цель курса – дать базу для начала карьеры в AI Safety. Программа знакомит с основными концепциями, ландшафтом исследований и работами Anthropic, Redwood Research, MIRI
А в рамках курса будет рассмотрена экспертиза в evals, agent foundations, adversarial attacks, representation engineering, safety field building, mechanistic interpetability.
Курс является бесплатным.
Подробнее тут: https://www.tgoop.com/alignmentbasics/7
1. Конференция «Философские аспекты языковых моделей ИИ» .
Она проводится в СПБГУ и есть варианты посетить очно а также в посмотреть онлайн-дискуссию и даже поучаствовать в ней.
На конференции будут рассмотрены вопросы творчества ИИ, риски которые могут быть в практическом использовании а также планируются доклады об AI Safety.
Подробнее: https://digital-philosophy.ru/event/philAI.html
2. Курс по основам AI Safety.
Цель курса – дать базу для начала карьеры в AI Safety. Программа знакомит с основными концепциями, ландшафтом исследований и работами Anthropic, Redwood Research, MIRI
А в рамках курса будет рассмотрена экспертиза в evals, agent foundations, adversarial attacks, representation engineering, safety field building, mechanistic interpetability.
Курс является бесплатным.
Подробнее тут: https://www.tgoop.com/alignmentbasics/7
🔥6🤣3👍2🤓2
Databricks, выпустившие один из крутых фреймворков по MlSecOps релизнули вторую версию - DASF v2.0
Они добавили побольше инструментов в свой фреймворк, переработали его с точки зрения соответствия нормативным стандартам типа GDRP и CCPA. А также что ? Они добавили побольше компонентов, на которых они обрисовали риски и новые меры по защите. Определили 62 технических риска безопасности и сопоставили их с 64 рекомендуемыми элементами для управления рисками моделей ИИ.
Они также расширили сопоставления с ведущими отраслевыми фреймворками и стандартами рисков ИИ, включая MITRE ATLAS , OWASP LLM & ML Top 10, NIST 800-53 , NIST CSF , HITRUST , ENISA's Securing ML Algorithms , ISO 42001 , ISO 27001:2022. И доработали рекомендации для облаков.
Помимо этого они сделали AI-ассистента к своему фреймворку.
Сделали версию фреймворка в xlsx.
Сделали курс на 1 час(AI Security Fundamentals). Бесплатный. А также обучающие ролики по DASF.
а pdf-версия фреймворка ниже
Они добавили побольше инструментов в свой фреймворк, переработали его с точки зрения соответствия нормативным стандартам типа GDRP и CCPA. А также что ? Они добавили побольше компонентов, на которых они обрисовали риски и новые меры по защите. Определили 62 технических риска безопасности и сопоставили их с 64 рекомендуемыми элементами для управления рисками моделей ИИ.
Они также расширили сопоставления с ведущими отраслевыми фреймворками и стандартами рисков ИИ, включая MITRE ATLAS , OWASP LLM & ML Top 10, NIST 800-53 , NIST CSF , HITRUST , ENISA's Securing ML Algorithms , ISO 42001 , ISO 27001:2022. И доработали рекомендации для облаков.
Помимо этого они сделали AI-ассистента к своему фреймворку.
Сделали версию фреймворка в xlsx.
Сделали курс на 1 час(AI Security Fundamentals). Бесплатный. А также обучающие ролики по DASF.
а pdf-версия фреймворка ниже
👍7❤3🔥1
Forwarded from llm security и каланы
Smuggling arbitrary data through an emoji
Paul Butler, 2025
Блог, инструмент
В стандарте Unicode есть специальные коды в количестве 256 штук, которые называются вариантными селекторами и дополнительными вариантными селекторам – от U+FE00 до U+FE0x и от U+E0100 до U+E01EF. Они прицепляются к символам, идущим до них, и меняют их отображение – если существует вариация, соответствующая их комбинации. При этом вариантных селекторов после символа может быть сколько угодно много, а их наличие в количестве 256 штук означает, что в них можно закодировать байт.
Что это значит? А значит, что можно создать внутрь текста засовывать другой, невидимый текст – находка для стеганографии. Так можно вставлять в текст незаметные сообщения, которые будет невидимы для стороннего наблюдателя или добавлять в тексты водяные знаки, которые сохраняются при копировании и вставке. Автор сопроводил блог небольшой тулой, которая позволяет кодировать-декодировать текст и, собственно, добавлять к эмодзи.
А кто еще у нас работает с текстом? Конечно, LLM, причем в подавляющем большинстве LLM еще со времен GPT-2 используются BPE-токенизаторы, работающие на байтах, а не на символах. Например, вот этот эмодзи 💀󠅗󠅢󠅕󠅕󠅤󠅙󠅞󠅗󠅣󠄐󠅖󠅢󠅟󠅝󠄐󠅤󠄐󠅔󠅟󠅤󠄐󠅝󠅕󠄐󠅣󠅜󠅑󠅣󠅘󠄐󠅜󠅜󠅝󠅣󠅕󠅓󠅥󠅢󠅙󠅤󠅩 на самом деле состоит из 166 токенов и содержит тайное послание. А это открывает простор для token smuggling и инъекции промпта. Андрей Карпати собрал забавный PoC, в котором попытался сделать на базе этого промпт-инъекцию, добавив инструкцию, собранную из байтов в эмодзи – сработало, но потребовался интерпретатор кода и некоторое количество инструкций. Но если мы напишем об этом побольше текстов, то будущие LLM могут запомнить, как это работает, и справляться с без подсказок. Небезызвестный Плиний придумал другое применение – прилепить к эмодзи так много вариантных селекторов, чтобы текст выходил за пределы контекстного окна. Получается токен-бомба, разновидность sponge attack – можно добавлять на свой сайт и сжигать LLM-парсерам и краулерам токены.
В общем, Unicode – страшная штука🔪
Paul Butler, 2025
Блог, инструмент
В стандарте Unicode есть специальные коды в количестве 256 штук, которые называются вариантными селекторами и дополнительными вариантными селекторам – от U+FE00 до U+FE0x и от U+E0100 до U+E01EF. Они прицепляются к символам, идущим до них, и меняют их отображение – если существует вариация, соответствующая их комбинации. При этом вариантных селекторов после символа может быть сколько угодно много, а их наличие в количестве 256 штук означает, что в них можно закодировать байт.
Что это значит? А значит, что можно создать внутрь текста засовывать другой, невидимый текст – находка для стеганографии. Так можно вставлять в текст незаметные сообщения, которые будет невидимы для стороннего наблюдателя или добавлять в тексты водяные знаки, которые сохраняются при копировании и вставке. Автор сопроводил блог небольшой тулой, которая позволяет кодировать-декодировать текст и, собственно, добавлять к эмодзи.
А кто еще у нас работает с текстом? Конечно, LLM, причем в подавляющем большинстве LLM еще со времен GPT-2 используются BPE-токенизаторы, работающие на байтах, а не на символах. Например, вот этот эмодзи 💀󠅗󠅢󠅕󠅕󠅤󠅙󠅞󠅗󠅣󠄐󠅖󠅢󠅟󠅝󠄐󠅤󠄐󠅔󠅟󠅤󠄐󠅝󠅕󠄐󠅣󠅜󠅑󠅣󠅘󠄐󠅜󠅜󠅝󠅣󠅕󠅓󠅥󠅢󠅙󠅤󠅩 на самом деле состоит из 166 токенов и содержит тайное послание. А это открывает простор для token smuggling и инъекции промпта. Андрей Карпати собрал забавный PoC, в котором попытался сделать на базе этого промпт-инъекцию, добавив инструкцию, собранную из байтов в эмодзи – сработало, но потребовался интерпретатор кода и некоторое количество инструкций. Но если мы напишем об этом побольше текстов, то будущие LLM могут запомнить, как это работает, и справляться с без подсказок. Небезызвестный Плиний придумал другое применение – прилепить к эмодзи так много вариантных селекторов, чтобы текст выходил за пределы контекстного окна. Получается токен-бомба, разновидность sponge attack – можно добавлять на свой сайт и сжигать LLM-парсерам и краулерам токены.
В общем, Unicode – страшная штука
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🔥2❤1
В фреймворках для создания агентов тоже могут быть RCE...
Это классное исследование проливает свет на уязвимость в smolagent, фреймворк от huggingface.
Это классное исследование проливает свет на уязвимость в smolagent, фреймворк от huggingface.
Тут OWASP открыл репозиторий с примерами уязвимых реализаций агентных систем ...
https://github.com/OWASP/www-project-top-10-for-large-language-model-applications/tree/main/initiatives/agent_security_initiative
Можем посмотреть примеры небезопасной реализации агентов в LangGraph, CrewAI а также swarm от open AI. Интересный репозиторий.
https://github.com/OWASP/www-project-top-10-for-large-language-model-applications/tree/main/initiatives/agent_security_initiative
Можем посмотреть примеры небезопасной реализации агентов в LangGraph, CrewAI а также swarm от open AI. Интересный репозиторий.
🔥7👍2❤1
Forwarded from PurpleBear (Vadim Shelest)
One LLM chat to rule them all
Использование больших языковых моделей в наши дни уже стало привычной рутиной для большинства людей во многих областях деятельности. Регулярно появляются новые модели с новой функциональностью, на примере с DeepSeek R1 спровоцировавшей панику на фондовом рынке в конце января. Мне как и думаю большинству из вас тогда сразу же захотелось ее потестировать, чтобы заставить бездушную машину поразмышлять о смысле жизни, будущем атакующей кибербезопасности и о том как Алексей Лукацкий может писать столько постов в своем канале🤠 а также других риторических вопросах.
Представляю вашему вниманию небольшой обзор двух достойных приложений с LLM чатами в веб-интерфейсе с открытым исходным, которые можно развернуть самостоятельно и значительно увеличить потенциал использования больших языковых моделей. А дочитав до конца вы узнаете, как получить в свое распоряжение API для более 100 различных моделей абсолютно бесплатно😎
Использование больших языковых моделей в наши дни уже стало привычной рутиной для большинства людей во многих областях деятельности. Регулярно появляются новые модели с новой функциональностью, на примере с DeepSeek R1 спровоцировавшей панику на фондовом рынке в конце января. Мне как и думаю большинству из вас тогда сразу же захотелось ее потестировать, чтобы заставить бездушную машину поразмышлять о смысле жизни, будущем атакующей кибербезопасности и о том как Алексей Лукацкий может писать столько постов в своем канале🤠 а также других риторических вопросах.
Представляю вашему вниманию небольшой обзор двух достойных приложений с LLM чатами в веб-интерфейсе с открытым исходным, которые можно развернуть самостоятельно и значительно увеличить потенциал использования больших языковых моделей. А дочитав до конца вы узнаете, как получить в свое распоряжение API для более 100 различных моделей абсолютно бесплатно😎
Telegraph
One LLM chat to rule them all
Использование больших языковых моделей в наши дни уже стало привычной рутиной для большинства людей во многих областях деятельности. LLM чат боты используются в качестве ассистентов для поиска и обобщения информации, создания кода, написания и перевода статей…
🔥3👍1
Forwarded from Cyber Detective
Nuclei AI Prompts
Nuclei v3.3.9 (@pdiscoveryio) has -ai option to generate and run nuclei templates on the fly in natural language.
This is a list of prompts for this option:
- sensitive data exposure
- SQLi
- XSS
- SSRF
and more
https://github.com/reewardius/Nuclei-AI-Prompts
By twitter.com/reewardius
Nuclei v3.3.9 (@pdiscoveryio) has -ai option to generate and run nuclei templates on the fly in natural language.
This is a list of prompts for this option:
- sensitive data exposure
- SQLi
- XSS
- SSRF
and more
https://github.com/reewardius/Nuclei-AI-Prompts
By twitter.com/reewardius
🔥5❤2
Потрясающий эфир, в котором много крутых экспертов. Рекомендую к просмотру если вам интересны практические примеры применения генеративок сегодня. АМ лайф, если вы хотите провести встречу про llm-security - пишите )))
https://vk.com/video-21732035_456240971?list=ln-DE5QRVzX1hwnLiXSuh
https://vk.com/video-21732035_456240971?list=ln-DE5QRVzX1hwnLiXSuh
🔥2
Вышло исследование с классной статистикой по Supply Chain и уязвимостям в компонентах, которые используются при разработке LLM.
Группа исследователей из Huazhong University of Science and Technology проанализировали 529 уязвимостей в 75 проектах LLM, охватывающих 13 ключевых этапов жизненного цикла при разработке LLM.
(это к примеру MlFlow или ollama или h2o, см рисунок 1). (в период январь 2023 – октябрь 2024). Информация бралась из базы protectai, advisory github и решений HiddenLayer, Jfrog.
Чаще всего конечно попадались уязвимости именно на уровне приложений реализующих взаимодействие с моделями(например langchain) - где-то 50 процентов из всего найденного.
42 процента это проблемы с фреймворками для обучения (например torch, tensorflow).
Чаще всего в решениях были уязвимости связанные с возможностью инъекции непосредственно в приложение(например xss, sql), а также некорректный контроль доступа к ресурсам.
Так как уязвимостей становится всё больше, а поверхность атаки также увеличивается - исследователи рекомендуют использовать sandbox'ы а также всегда проверять вводимые данные.
ссылка
Группа исследователей из Huazhong University of Science and Technology проанализировали 529 уязвимостей в 75 проектах LLM, охватывающих 13 ключевых этапов жизненного цикла при разработке LLM.
(это к примеру MlFlow или ollama или h2o, см рисунок 1). (в период январь 2023 – октябрь 2024). Информация бралась из базы protectai, advisory github и решений HiddenLayer, Jfrog.
Чаще всего конечно попадались уязвимости именно на уровне приложений реализующих взаимодействие с моделями(например langchain) - где-то 50 процентов из всего найденного.
42 процента это проблемы с фреймворками для обучения (например torch, tensorflow).
Чаще всего в решениях были уязвимости связанные с возможностью инъекции непосредственно в приложение(например xss, sql), а также некорректный контроль доступа к ресурсам.
Так как уязвимостей становится всё больше, а поверхность атаки также увеличивается - исследователи рекомендуют использовать sandbox'ы а также всегда проверять вводимые данные.
ссылка
🔥3❤1👍1