NN_FOR_SCIENCE Telegram 2524
SEIR x PINNs для предсказания каскадных сбоев в мультиагентных системах

Мы всё больше доверяем AI-агентам: они коммитят код, вносят изменения в базы данных, анализируют медицинские данные и блокируют подозрительные транзакции. По данным KPMG 88% компаний с выручкой $1B+ уже используют или деплоят ИИ-агентов. И это сложно не заметить - при общении за к-н сервисом первая линия уже почти всегда ИИ (телекомы, банки, отели, - you name it)

Но… всё хорошо, пока всё хорошо. AI-агенты тоже могут "заболеть" - только их вирусы это дезинформация, малварь, джейлбрейки и заражения RAG. По данным DoomArena, GPT-4o можно сломать в 22,7% случаев в защищённом сценарии, и 78,6% OSWorld, Computer-Use. Для Claude-3.5 attack success rate (ASR) 0,7% и 22,9% соответственно. Главное - судя по архитектуре нынешних мультиагентных систем, успешная атака на к-н популярную модель разлетиться быстрее, чем утренние мемы в чате.

И тут возникают неприятные вопросы: если агент начнет совершать скомпрометированные действия, когда мы это заметим? В тот же день, на следующий, или когда произойдет что-то серьезное? А что делать, когда заметили? "Выдернуть" из розетки, развернуть локальные guardian модели или "вакцинировать" патчами?

На хакатоне Physics x AI Safety Grand Challenge 2025 мы (@GingerSpacetail и Karay.me) занялись именно этой проблемой и сделали фреймворк, который моделирует эпидемии в мире AI-агентов, рассмотрев 8 разных деплоймент сценариев: enterprise, ритейл, трейдинг, кодинг ассистенты, customer service, академия, медицинские AI и критическая инфраструктура. И… внезапно заняли 4-е призовое место среди очень крутых работ.😊

Что именно мы сделали.
Шаг 1. Адаптировали классическую эпидемиологию SEIR-модель для популяции ИИ-агентов.
В основе (любой) эпидемиологической модели лежит система ОДУ (обыкновенных дифференциальных уравнений), описывающая, как "вирус" (в нашем случае скомпрометированное поведение) распространяется среди агентов. Модель SEIR делит популяцию на четыре состояния:
S - Susceptible (уязвимые)
E - Exposed (атакованы, но пока нет "симптомов", или мы их не замечаем)
I - Infectious (активно вредят)
R - Removed (изолированы или "иммунны")
Здесь важны коэффициенты-скорости перехода одного состояния в другое, мы их прикинули на основе открытых данных.

Шаг 2. Подмешали физико-информированные нейросети (Physics-Informed Neural Networks, PINNs) для поиска численного решения ОДУ.
Т.е прямо в функцию потерь добавили физику. Кто хочет математики - residuals, или по-русски невязки уравнений, должны стремиться к нулю. PINNs дают три бонуса:
1. Модель "понимает" законы, по которым развивается процесс.
2. Можно работать и с неполными данными - физика "достраивает" картину.
3. Можно вшивать ASR, MTTD и другие параметры в модель для разных сценариев.

Шаг 3. Прогнали фазовый анализ, нашли точки бифуркаций (где система резко меняет поведение) и аттракторы (куда она падает, как шарик в ямку).
В практическом смысле смогли оценить:
- Какая сейчас эпидемиологическая ситуация среди корпоративных ассистентов, ритейл ботов, медицинских AI и тд.
- Где системы сами стабилизируются, а где уходят в "киберэпидемию" с R_0 > 1
- Какие меры работают лучше: повышение скорости обнаружения (коэфф. gamma), снижение передачи атаки (beta) или "вакцинация" агентов патчами (nu).

А заодно показали, что PINNs отлично работают не только в инженерии или медицине, но и в кибербезопасности.

Что интересно сделать дальше.
Любопытно вместо реактивной киберзащиты отслеживать "эпидемиологию" атак в реальном времени и подбирать меры в зависимости от их стоимости и серьезности, т.е. прогноза, сколько времени осталось до критической точки (заражения 90% агентов).

Поэтому если у вас есть агенты и данные, мы рады коллаборациям (NDA без проблем)

🔗код
📝публикация
14🔥12🎉5😁1



tgoop.com/nn_for_science/2524
Create:
Last Update:

SEIR x PINNs для предсказания каскадных сбоев в мультиагентных системах

Мы всё больше доверяем AI-агентам: они коммитят код, вносят изменения в базы данных, анализируют медицинские данные и блокируют подозрительные транзакции. По данным KPMG 88% компаний с выручкой $1B+ уже используют или деплоят ИИ-агентов. И это сложно не заметить - при общении за к-н сервисом первая линия уже почти всегда ИИ (телекомы, банки, отели, - you name it)

Но… всё хорошо, пока всё хорошо. AI-агенты тоже могут "заболеть" - только их вирусы это дезинформация, малварь, джейлбрейки и заражения RAG. По данным DoomArena, GPT-4o можно сломать в 22,7% случаев в защищённом сценарии, и 78,6% OSWorld, Computer-Use. Для Claude-3.5 attack success rate (ASR) 0,7% и 22,9% соответственно. Главное - судя по архитектуре нынешних мультиагентных систем, успешная атака на к-н популярную модель разлетиться быстрее, чем утренние мемы в чате.

И тут возникают неприятные вопросы: если агент начнет совершать скомпрометированные действия, когда мы это заметим? В тот же день, на следующий, или когда произойдет что-то серьезное? А что делать, когда заметили? "Выдернуть" из розетки, развернуть локальные guardian модели или "вакцинировать" патчами?

На хакатоне Physics x AI Safety Grand Challenge 2025 мы (@GingerSpacetail и Karay.me) занялись именно этой проблемой и сделали фреймворк, который моделирует эпидемии в мире AI-агентов, рассмотрев 8 разных деплоймент сценариев: enterprise, ритейл, трейдинг, кодинг ассистенты, customer service, академия, медицинские AI и критическая инфраструктура. И… внезапно заняли 4-е призовое место среди очень крутых работ.😊

Что именно мы сделали.
Шаг 1. Адаптировали классическую эпидемиологию SEIR-модель для популяции ИИ-агентов.
В основе (любой) эпидемиологической модели лежит система ОДУ (обыкновенных дифференциальных уравнений), описывающая, как "вирус" (в нашем случае скомпрометированное поведение) распространяется среди агентов. Модель SEIR делит популяцию на четыре состояния:
S - Susceptible (уязвимые)
E - Exposed (атакованы, но пока нет "симптомов", или мы их не замечаем)
I - Infectious (активно вредят)
R - Removed (изолированы или "иммунны")
Здесь важны коэффициенты-скорости перехода одного состояния в другое, мы их прикинули на основе открытых данных.

Шаг 2. Подмешали физико-информированные нейросети (Physics-Informed Neural Networks, PINNs) для поиска численного решения ОДУ.
Т.е прямо в функцию потерь добавили физику. Кто хочет математики - residuals, или по-русски невязки уравнений, должны стремиться к нулю. PINNs дают три бонуса:
1. Модель "понимает" законы, по которым развивается процесс.
2. Можно работать и с неполными данными - физика "достраивает" картину.
3. Можно вшивать ASR, MTTD и другие параметры в модель для разных сценариев.

Шаг 3. Прогнали фазовый анализ, нашли точки бифуркаций (где система резко меняет поведение) и аттракторы (куда она падает, как шарик в ямку).
В практическом смысле смогли оценить:
- Какая сейчас эпидемиологическая ситуация среди корпоративных ассистентов, ритейл ботов, медицинских AI и тд.
- Где системы сами стабилизируются, а где уходят в "киберэпидемию" с R_0 > 1
- Какие меры работают лучше: повышение скорости обнаружения (коэфф. gamma), снижение передачи атаки (beta) или "вакцинация" агентов патчами (nu).

А заодно показали, что PINNs отлично работают не только в инженерии или медицине, но и в кибербезопасности.

Что интересно сделать дальше.
Любопытно вместо реактивной киберзащиты отслеживать "эпидемиологию" атак в реальном времени и подбирать меры в зависимости от их стоимости и серьезности, т.е. прогноза, сколько времени осталось до критической точки (заражения 90% агентов).

Поэтому если у вас есть агенты и данные, мы рады коллаборациям (NDA без проблем)

🔗код
📝публикация

BY AI для Всех




Share with your friend now:
tgoop.com/nn_for_science/2524

View MORE
Open in Telegram


Telegram News

Date: |

Private channels are only accessible to subscribers and don’t appear in public searches. To join a private channel, you need to receive a link from the owner (administrator). A private channel is an excellent solution for companies and teams. You can also use this type of channel to write down personal notes, reflections, etc. By the way, you can make your private channel public at any moment. Clear Telegram is a leading cloud-based instant messages platform. It became popular in recent years for its privacy, speed, voice and video quality, and other unmatched features over its main competitor Whatsapp. How to Create a Private or Public Channel on Telegram? Select: Settings – Manage Channel – Administrators – Add administrator. From your list of subscribers, select the correct user. A new window will appear on the screen. Check the rights you’re willing to give to your administrator.
from us


Telegram AI для Всех
FROM American