Агенты ИИ | AGI_and_RL 776

Forwarded from Center for Cognitive Modeling

🎓 — Семинар 34. Обзор конференции ICLR | Александр Панов, Алексей Ковалёв, Алексей Скрынник, Леонид Угадяров

С 7 по 11 мая в Вене (Австрия) прошла конференция ICLR, которая является одной из ключевых конференций в области глубокого обучения и искусственного интеллекта в целом.

В этом году на конференции были представлены две работы, авторами которых являются сотрудники Центра: первая про эффективные объектно-центричные модели SMM, а также работа про активное обучения для поиска конформаций молекул GOLF.

Доклад на семинаре будет посвящён обзору конференции, а также обсуждению статей, вызвавших интерес у докладчиков.

📹 Трансляция Youtube

Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире!
Ждем всех!

#семинары #конференции #RL #DL

🔥7

1.04K views14:13

Агенты ИИ | AGI_and_RL

Forwarded from (sci)Berloga Всех Наук и Технологий

🚀 @SBERLOGASCI webinar on data science:
👨‍🔬 Сергей Фиронов "Обзор идей АльфаГо, АльфаЗеро"
⌚️ Понедельник, 10 июня, 19.00 (по Москве)

АльфаГо, АльфаЗеро революционизировали подходы на основе машинного обучения к сложным комбинаторным задачам. То, что казалось недостижимым в ближайшие десятилетия - было достигнуто DeepMind. В данном докладе один лучших дата-сайнтистов, Каггл грагдмастер Сергей Фиронов, расскажет обзор этих работ.

Разберем репозиторий и практическое применение AlphaZero от DeepMind к своим задачам на конкретном примере, как и что надо имплементировать и учесть, а так же попробуем подумать на тему применения к сборке рубиков.

В работах АльфаГо, АльфаЗеро произошел отказ от идей Q-алгоритма, и происходит прямое обучение сетки предсказывающей ходы и позиции. Однако, таргеты для сетки рассчитываются на основе MCTS алгоритма, что является принципиально новым подходом в области. Тот же MCTS используется и для инференса , в сочетании с расчетом сетки. В исходной работе использовалась сверточная сетка из 40 слоев. Обучение в АльфаЗеро идет только на основе игры с собой, без использования каких-либо внешних знаний.

AlphaGo: "To efficiently combine MCTS with deep neural networks, AlphaGo uses an asynchronous multi-threaded search that executes simulations on CPUs, and
computes policy and value networks in parallel on GPUs. The final version of AlphaGo used 40 search threads, 48 CPUs, and 8 GPUs. We also implemented a distributed version of AlphaGo that exploited multiple machines, 40 search threads, 1202 CPUs and 176 GPUs. The Methods section provides full details of asynchronous and distributed MCTS."

Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !

🔥12👍1👏1

763 views08:23

Агенты ИИ | AGI_and_RL

Forwarded from RED BLUE Machines | ИИ и безопасность

Тут статья вышла про то, что мультиагенты на базе LLM могут эксплуатировать Zero-Day уязвимости (когда у агента нет описания уязвимости)

Исследователи назвали свой метод HPTSA.

Нужны 3 компонента: планировщик, менеджер для агентов и специализированные под конкретные задачи агенты.

Планировщик исследует вебсайт и выделяет набор инструкций которые затем отправляет менеджеру.
Менеджер определяет какого агента вызвать. Также собирает информацию от агента после его вызова, чтобы иметь возможность изменять инструкции или вызывать другого агента.

Выделили 6 типов специализированных агентов:
XSS, SQLi, CSRF, SSTI, ZAP, и обобщейнный агент для анализа на web-уязвимости.
Агенты имеют доступ к тулам (sqlmap, ZAP сканеру и тд), и к документам. Авторы пишут, что для каждого агента собирали по 5-6 документов по разным типам уязвимостей.

Работа с веб-приложениями осуществляется через Playwright.
Все тесты проводились на GPT-4 (gpt-4-0125-preview) с использованием LangChain и LangGraph.

Тестировали агентов на собранном окружении с 15 веб уязвимостями. (на скринах)

В результате HPTSA подход показал хороший прирост по success rate по сравнению с простым GPT-4 агентом. Но конечно же хуже по сравнию с агентом GPT-4 w/desc - которому на вход подавалось также описание узявимости.
Без документов и специализированных агентов результаты HPTSA также ухудшаются

Некоторые примеры того как с помощью HPTSA находили уязвимости можно посмотреть в статье

Что по стоимости:

1 запуск обойдется ~ 4,39 доллара. При общем success rate 18% общие затраты составят 24,39 доллара США за успешный эксплойт.

Кода нет

Teams of LLM Agents can Exploit Zero-Day Vulnerabilities
https://arxiv.org/abs/2406.01637

👍8🔥2🤔1

1.16K views17:33

Агенты ИИ | AGI_and_RL

Недавно наткнулся на интересную книженцию Physics-based Deep Learning Book (PBDL)
В основном писалась в 2021-2022 (сейчас версия 0.2).
Тем кто интересуется применением DL (там и небольшой примерчик с RL есть) в физике вполне может быть интересным

https://www.physicsbaseddeeplearning.org/intro.html

https://github.com/tum-pbs/pbdl-book/

👍8

1.98K views17:56

Агенты ИИ | AGI_and_RL

Ребята из DeepMind делают нам токамак дома (точнее симулятор)

Они давно уже занимаются задачей контроля токамака и даже с RLем. А сейчас вот опенсурсят такую разработку. Ну круто!

TORAX is a differentiable tokamak core transport simulator aimed for fast and accurate forward modelling, pulse-design, trajectory optimization, and controller design workflows.
TORAX solves the coupled equations for ion heat transport, electron heat transport, particle transport, and current diffusion, incorporating modular physics-based and ML models.

Кстати код с экспериментами сейчас вполне запускается и что-то считает (на скрине). Достаточно сделать все по инструкции в ридми

TORAX: A Fast and Differentiable Tokamak Transport Simulator in JAX
https://arxiv.org/abs/2406.06718

дока (пока маленькая): https://torax.readthedocs.io/en/latest/index.html

код: https://github.com/google-deepmind/torax

Увидел в https://www.tgoop.com/j_links

👀

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10

8.07K views20:37

Агенты ИИ | AGI_and_RL

Forwarded from (sci)Berloga Всех Наук и Технологий

🚀 @SBERLOGASCI webinar on data science:
👨‍🔬 Obozov M.A. "Proximal Policy Optimization. От графов Кэли до RLHF."
⌚️ Пятница 14 июня 19.00 по Москве

PPO - достаточно современный и интересный Policy Gradient метод, который базируется на идее клиппинга и обучение policy network с специальной целевой функцией. Концептуально алгоритм решает проблему больших policy обновлений, что значительно улучшает сходимость. При этом его применение часто очень нетривиально, а понимание алгоритма к сожалению нередко заканчивается абстрактными идеями и просто знанием об его существование. Данная лекция ориентирована на исправление этой проблемы.

Всего лекция состоит из четырёх частей:

1. Пользовательское понимание PPO, концепции и основные идеи, отличие от REINFORCE и других PGM.
2. Более глубокое понимание и описание математики стоящей за этим алгоритмом.
3. Применение к реальным задачам в том числе и к графовым.
4. RLHF с PPO. Эта часть ориентирована именно на LLM инженеров.

Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe

🔥4👎2🤔2🤮1💩1🤓1

908 views08:12

Агенты ИИ | AGI_and_RL

Опять что-то дипмаинды наресерчили (им платят за это?)

Хотят улучшать трансформеры на графовых задачках описанных текстом и сделали TransNAR архитектуру, которая вроде как хороша in out-of-distribution reasoning.
Только нам нужно иметь текстовую задачку на вход трансформера и граф на вход NAR.

По сути трансформер + графовые нейроночки. Такая графовая нейронка - это neural algorithmic reasoner (NAR), про который написано в статье DeepMind в 2021. Такая штука комбинирует натуральный вход + абстрактный вход (нейронок) для решения какой-то задачи. В статье ниже можно посмотреть идею на примере алгоритма Дейкстры.

Neural Algorithmic Reasoning
https://arxiv.org/abs/2105.02761

В данном случае natural input это текстовое описание задачи + соответствующий граф (abstract input), на выходе текст с решением. При этом графовая нейронка претрейнена на множестве алгоритмических задачек. Тренировались на маленьких задачках а тестились на больших.
Трансформер тоже претрейнен, на MassiveText.
Во время forward pass трансформер получает доступ к ембедингам из NAR через cross-attention. queries идут из токенов, а keys and values из NAR.

Так понял.

В общем если подобное интересует, то статью читаем

Transformers meet Neural Algorithmic Reasoners
https://arxiv.org/abs/2406.09308

тот самый датасет с графами, из которого получили текстовую версию и на ней тестились
https://github.com/google-deepmind/clrs

👍11🔥2🤔1

4.7K views17:13

Агенты ИИ | AGI_and_RL

хм, классные ребята из OpenDILab (которые ведут много awesome листиков по RLю и делают либу LightZero) начали делать библиотеку с алгоритмами на диффузионках и flow моделях для принятия решений:

GenerativeRL
https://github.com/opendilab/GenerativeRL

и сразу awesome по диффузионкам в RLе

https://github.com/opendilab/awesome-diffusion-model-in-rl

(сохранять)

GitHub

GitHub - opendilab/GenerativeRL: Python library for solving reinforcement learning (RL) problems using generative models (e.g.…

Python library for solving reinforcement learning (RL) problems using generative models (e.g. Diffusion Models). - opendilab/GenerativeRL

👍8🔥4

4.16K viewsedited 10:51

Агенты ИИ | AGI_and_RL

Как же плотно Дженсен Хуанг двигается :) В Нвидии хорошо поняли какие матрицы надо перемножать...

Это насколько люди хотят тележку закатить, что им столько видеокарт понадобилось?

😁18👍3👏1

1K views20:13

Агенты ИИ | AGI_and_RL

This media is not supported in your browser

VIEW IN TELEGRAM

🥰9❤4👍2

1.07K views20:13

Агенты ИИ | AGI_and_RL

Прикольно

884 views07:48

Агенты ИИ | AGI_and_RL

Forwarded from Just links

Implementing General Relativity: What's inside a black hole? https://20k.github.io/c++/2024/06/19/tetrads.html

20k.github.io

Implementing General Relativity: What's inside a black hole? · James' Space Blog

Ramblings on C++, OpenCL, and GPU programming

793 views07:48

Агенты ИИ | AGI_and_RL

Forwarded from (sci)Berloga Всех Наук и Технологий

🚀 @SBERLOGASCI webinar on data science:
👨‍🔬 Н. Бухал "Алгоритм MCTS, Monte Carlo Tree Search".
⌚️ Четверг 20 июня 19.00 по Москве

Алгоритм MCTS одна из основных составляющих АльфаГо. В данном докладе будет разобрана имплементация.

Попробуем шаг за шагом реализовать MCTS для крестиков ноликов.

Код который будем разбирать/переписывать: https://www.kaggle.com/code/tttzof351/alphazerotictac

Ожидаемый результат: https://youtu.be/F7qOV8xonfY?si=MXQgN-kwHD9D8oqd

Напоминание: мы организуем активность применить машинное обучение к математическим задачам теории групп. MCTS один из рассматриваемых методов. Если вам интересна активность - добавляйтесь в https://www.tgoop.com/sberlogasci/10989 и напишите @Alexander_v_c , если вы хотите поучаствовать - требование - знать Питон - остальное научим.

Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !

👍5

905 views08:35

2025/07/12 19:15:46
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>