Forwarded from Center for Cognitive Modeling
🎓 — Семинар 34. Обзор конференции ICLR | Александр Панов, Алексей Ковалёв, Алексей Скрынник, Леонид Угадяров
С 7 по 11 мая в Вене (Австрия) прошла конференция ICLR, которая является одной из ключевых конференций в области глубокого обучения и искусственного интеллекта в целом.
В этом году на конференции были представлены две работы, авторами которых являются сотрудники Центра: первая про эффективные объектно-центричные модели SMM, а также работа про активное обучения для поиска конформаций молекул GOLF.
Доклад на семинаре будет посвящён обзору конференции, а также обсуждению статей, вызвавших интерес у докладчиков.
📹 Трансляция Youtube
Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире!
Ждем всех!
#семинары #конференции #RL #DL
С 7 по 11 мая в Вене (Австрия) прошла конференция ICLR, которая является одной из ключевых конференций в области глубокого обучения и искусственного интеллекта в целом.
В этом году на конференции были представлены две работы, авторами которых являются сотрудники Центра: первая про эффективные объектно-центричные модели SMM, а также работа про активное обучения для поиска конформаций молекул GOLF.
Доклад на семинаре будет посвящён обзору конференции, а также обсуждению статей, вызвавших интерес у докладчиков.
📹 Трансляция Youtube
Подключайтесь к живому обсуждению и задавайте вопросы в прямом эфире!
Ждем всех!
#семинары #конференции #RL #DL
🔥7
Forwarded from (sci)Berloga Всех Наук и Технологий
🚀 @SBERLOGASCI webinar on data science:
👨🔬 Сергей Фиронов "Обзор идей АльфаГо, АльфаЗеро"
⌚️ Понедельник, 10 июня, 19.00 (по Москве)
АльфаГо, АльфаЗеро революционизировали подходы на основе машинного обучения к сложным комбинаторным задачам. То, что казалось недостижимым в ближайшие десятилетия - было достигнуто DeepMind. В данном докладе один лучших дата-сайнтистов, Каггл грагдмастер Сергей Фиронов, расскажет обзор этих работ.
Разберем репозиторий и практическое применение AlphaZero от DeepMind к своим задачам на конкретном примере, как и что надо имплементировать и учесть, а так же попробуем подумать на тему применения к сборке рубиков.
В работах АльфаГо, АльфаЗеро произошел отказ от идей Q-алгоритма, и происходит прямое обучение сетки предсказывающей ходы и позиции. Однако, таргеты для сетки рассчитываются на основе MCTS алгоритма, что является принципиально новым подходом в области. Тот же MCTS используется и для инференса , в сочетании с расчетом сетки. В исходной работе использовалась сверточная сетка из 40 слоев. Обучение в АльфаЗеро идет только на основе игры с собой, без использования каких-либо внешних знаний.
AlphaGo: "To efficiently combine MCTS with deep neural networks, AlphaGo uses an asynchronous multi-threaded search that executes simulations on CPUs, and
computes policy and value networks in parallel on GPUs. The final version of AlphaGo used 40 search threads, 48 CPUs, and 8 GPUs. We also implemented a distributed version of AlphaGo that exploited multiple machines, 40 search threads, 1202 CPUs and 176 GPUs. The Methods section provides full details of asynchronous and distributed MCTS."
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
👨🔬 Сергей Фиронов "Обзор идей АльфаГо, АльфаЗеро"
⌚️ Понедельник, 10 июня, 19.00 (по Москве)
АльфаГо, АльфаЗеро революционизировали подходы на основе машинного обучения к сложным комбинаторным задачам. То, что казалось недостижимым в ближайшие десятилетия - было достигнуто DeepMind. В данном докладе один лучших дата-сайнтистов, Каггл грагдмастер Сергей Фиронов, расскажет обзор этих работ.
Разберем репозиторий и практическое применение AlphaZero от DeepMind к своим задачам на конкретном примере, как и что надо имплементировать и учесть, а так же попробуем подумать на тему применения к сборке рубиков.
В работах АльфаГо, АльфаЗеро произошел отказ от идей Q-алгоритма, и происходит прямое обучение сетки предсказывающей ходы и позиции. Однако, таргеты для сетки рассчитываются на основе MCTS алгоритма, что является принципиально новым подходом в области. Тот же MCTS используется и для инференса , в сочетании с расчетом сетки. В исходной работе использовалась сверточная сетка из 40 слоев. Обучение в АльфаЗеро идет только на основе игры с собой, без использования каких-либо внешних знаний.
AlphaGo: "To efficiently combine MCTS with deep neural networks, AlphaGo uses an asynchronous multi-threaded search that executes simulations on CPUs, and
computes policy and value networks in parallel on GPUs. The final version of AlphaGo used 40 search threads, 48 CPUs, and 8 GPUs. We also implemented a distributed version of AlphaGo that exploited multiple machines, 40 search threads, 1202 CPUs and 176 GPUs. The Methods section provides full details of asynchronous and distributed MCTS."
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
🔥12👍1👏1
Forwarded from RED BLUE Machines | ИИ и безопасность
Тут статья вышла про то, что мультиагенты на базе LLM могут эксплуатировать Zero-Day уязвимости (когда у агента нет описания уязвимости)
Исследователи назвали свой метод HPTSA.
Нужны 3 компонента: планировщик, менеджер для агентов и специализированные под конкретные задачи агенты.
Планировщик исследует вебсайт и выделяет набор инструкций которые затем отправляет менеджеру.
Менеджер определяет какого агента вызвать. Также собирает информацию от агента после его вызова, чтобы иметь возможность изменять инструкции или вызывать другого агента.
Выделили 6 типов специализированных агентов:
XSS, SQLi, CSRF, SSTI, ZAP, и обобщейнный агент для анализа на web-уязвимости.
Агенты имеют доступ к тулам (sqlmap, ZAP сканеру и тд), и к документам. Авторы пишут, что для каждого агента собирали по 5-6 документов по разным типам уязвимостей.
Работа с веб-приложениями осуществляется через Playwright.
Все тесты проводились на GPT-4 (gpt-4-0125-preview) с использованием LangChain и LangGraph.
Тестировали агентов на собранном окружении с 15 веб уязвимостями. (на скринах)
В результате HPTSA подход показал хороший прирост по success rate по сравнению с простым GPT-4 агентом. Но конечно же хуже по сравнию с агентом GPT-4 w/desc - которому на вход подавалось также описание узявимости.
Без документов и специализированных агентов результаты HPTSA также ухудшаются
Некоторые примеры того как с помощью HPTSA находили уязвимости можно посмотреть в статье
Что по стоимости:
1 запуск обойдется ~ 4,39 доллара. При общем success rate 18% общие затраты составят 24,39 доллара США за успешный эксплойт.
Кода нет
Teams of LLM Agents can Exploit Zero-Day Vulnerabilities
https://arxiv.org/abs/2406.01637
Исследователи назвали свой метод HPTSA.
Нужны 3 компонента: планировщик, менеджер для агентов и специализированные под конкретные задачи агенты.
Планировщик исследует вебсайт и выделяет набор инструкций которые затем отправляет менеджеру.
Менеджер определяет какого агента вызвать. Также собирает информацию от агента после его вызова, чтобы иметь возможность изменять инструкции или вызывать другого агента.
Выделили 6 типов специализированных агентов:
XSS, SQLi, CSRF, SSTI, ZAP, и обобщейнный агент для анализа на web-уязвимости.
Агенты имеют доступ к тулам (sqlmap, ZAP сканеру и тд), и к документам. Авторы пишут, что для каждого агента собирали по 5-6 документов по разным типам уязвимостей.
Работа с веб-приложениями осуществляется через Playwright.
Все тесты проводились на GPT-4 (gpt-4-0125-preview) с использованием LangChain и LangGraph.
Тестировали агентов на собранном окружении с 15 веб уязвимостями. (на скринах)
В результате HPTSA подход показал хороший прирост по success rate по сравнению с простым GPT-4 агентом. Но конечно же хуже по сравнию с агентом GPT-4 w/desc - которому на вход подавалось также описание узявимости.
Без документов и специализированных агентов результаты HPTSA также ухудшаются
Некоторые примеры того как с помощью HPTSA находили уязвимости можно посмотреть в статье
Что по стоимости:
1 запуск обойдется ~ 4,39 доллара. При общем success rate 18% общие затраты составят 24,39 доллара США за успешный эксплойт.
Кода нет
Teams of LLM Agents can Exploit Zero-Day Vulnerabilities
https://arxiv.org/abs/2406.01637
👍8🔥2🤔1
Недавно наткнулся на интересную книженцию Physics-based Deep Learning Book (PBDL)
В основном писалась в 2021-2022 (сейчас версия 0.2).
Тем кто интересуется применением DL (там и небольшой примерчик с RL есть) в физике вполне может быть интересным
https://www.physicsbaseddeeplearning.org/intro.html
https://github.com/tum-pbs/pbdl-book/
В основном писалась в 2021-2022 (сейчас версия 0.2).
Тем кто интересуется применением DL (там и небольшой примерчик с RL есть) в физике вполне может быть интересным
https://www.physicsbaseddeeplearning.org/intro.html
https://github.com/tum-pbs/pbdl-book/
👍8
Ребята из DeepMind делают нам токамак дома (точнее симулятор)
Они давно уже занимаются задачей контроля токамака и даже с RLем. А сейчас вот опенсурсят такую разработку. Ну круто!
Кстати код с экспериментами сейчас вполне запускается и что-то считает (на скрине). Достаточно сделать все по инструкции в ридми
TORAX: A Fast and Differentiable Tokamak Transport Simulator in JAX
https://arxiv.org/abs/2406.06718
дока (пока маленькая): https://torax.readthedocs.io/en/latest/index.html
код: https://github.com/google-deepmind/torax
Увидел в https://www.tgoop.com/j_links👀
Они давно уже занимаются задачей контроля токамака и даже с RLем. А сейчас вот опенсурсят такую разработку. Ну круто!
TORAX is a differentiable tokamak core transport simulator aimed for fast and accurate forward modelling, pulse-design, trajectory optimization, and controller design workflows.
TORAX solves the coupled equations for ion heat transport, electron heat transport, particle transport, and current diffusion, incorporating modular physics-based and ML models.
Кстати код с экспериментами сейчас вполне запускается и что-то считает (на скрине). Достаточно сделать все по инструкции в ридми
TORAX: A Fast and Differentiable Tokamak Transport Simulator in JAX
https://arxiv.org/abs/2406.06718
дока (пока маленькая): https://torax.readthedocs.io/en/latest/index.html
код: https://github.com/google-deepmind/torax
Увидел в https://www.tgoop.com/j_links
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10
Forwarded from (sci)Berloga Всех Наук и Технологий
🚀 @SBERLOGASCI webinar on data science:
👨🔬 Obozov M.A. "Proximal Policy Optimization. От графов Кэли до RLHF."
⌚️ Пятница 14 июня 19.00 по Москве
PPO - достаточно современный и интересный Policy Gradient метод, который базируется на идее клиппинга и обучение policy network с специальной целевой функцией. Концептуально алгоритм решает проблему больших policy обновлений, что значительно улучшает сходимость. При этом его применение часто очень нетривиально, а понимание алгоритма к сожалению нередко заканчивается абстрактными идеями и просто знанием об его существование. Данная лекция ориентирована на исправление этой проблемы.
Всего лекция состоит из четырёх частей:
1. Пользовательское понимание PPO, концепции и основные идеи, отличие от REINFORCE и других PGM.
2. Более глубокое понимание и описание математики стоящей за этим алгоритмом.
3. Применение к реальным задачам в том числе и к графовым.
4. RLHF с PPO. Эта часть ориентирована именно на LLM инженеров.
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe
👨🔬 Obozov M.A. "Proximal Policy Optimization. От графов Кэли до RLHF."
⌚️ Пятница 14 июня 19.00 по Москве
PPO - достаточно современный и интересный Policy Gradient метод, который базируется на идее клиппинга и обучение policy network с специальной целевой функцией. Концептуально алгоритм решает проблему больших policy обновлений, что значительно улучшает сходимость. При этом его применение часто очень нетривиально, а понимание алгоритма к сожалению нередко заканчивается абстрактными идеями и просто знанием об его существование. Данная лекция ориентирована на исправление этой проблемы.
Всего лекция состоит из четырёх частей:
1. Пользовательское понимание PPO, концепции и основные идеи, отличие от REINFORCE и других PGM.
2. Более глубокое понимание и описание математики стоящей за этим алгоритмом.
3. Применение к реальным задачам в том числе и к графовым.
4. RLHF с PPO. Эта часть ориентирована именно на LLM инженеров.
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe
🔥4👎2🤔2🤮1💩1🤓1
Опять что-то дипмаинды наресерчили (им платят за это?)
Хотят улучшать трансформеры на графовых задачках описанных текстом и сделали TransNAR архитектуру, которая вроде как хороша in out-of-distribution reasoning.
Только нам нужно иметь текстовую задачку на вход трансформера и граф на вход NAR.
По сути трансформер + графовые нейроночки. Такая графовая нейронка - это neural algorithmic reasoner (NAR), про который написано в статье DeepMind в 2021. Такая штука комбинирует натуральный вход + абстрактный вход (нейронок) для решения какой-то задачи. В статье ниже можно посмотреть идею на примере алгоритма Дейкстры.
Neural Algorithmic Reasoning
https://arxiv.org/abs/2105.02761
В данном случае natural input это текстовое описание задачи + соответствующий граф (abstract input), на выходе текст с решением. При этом графовая нейронка претрейнена на множестве алгоритмических задачек. Тренировались на маленьких задачках а тестились на больших.
Трансформер тоже претрейнен, на MassiveText.
Во время forward pass трансформер получает доступ к ембедингам из NAR через cross-attention. queries идут из токенов, а keys and values из NAR.
Так понял.
В общем если подобное интересует, то статью читаем
Transformers meet Neural Algorithmic Reasoners
https://arxiv.org/abs/2406.09308
тот самый датасет с графами, из которого получили текстовую версию и на ней тестились
https://github.com/google-deepmind/clrs
Хотят улучшать трансформеры на графовых задачках описанных текстом и сделали TransNAR архитектуру, которая вроде как хороша in out-of-distribution reasoning.
Только нам нужно иметь текстовую задачку на вход трансформера и граф на вход NAR.
По сути трансформер + графовые нейроночки. Такая графовая нейронка - это neural algorithmic reasoner (NAR), про который написано в статье DeepMind в 2021. Такая штука комбинирует натуральный вход + абстрактный вход (нейронок) для решения какой-то задачи. В статье ниже можно посмотреть идею на примере алгоритма Дейкстры.
Neural Algorithmic Reasoning
https://arxiv.org/abs/2105.02761
В данном случае natural input это текстовое описание задачи + соответствующий граф (abstract input), на выходе текст с решением. При этом графовая нейронка претрейнена на множестве алгоритмических задачек. Тренировались на маленьких задачках а тестились на больших.
Трансформер тоже претрейнен, на MassiveText.
Во время forward pass трансформер получает доступ к ембедингам из NAR через cross-attention. queries идут из токенов, а keys and values из NAR.
Так понял.
В общем если подобное интересует, то статью читаем
Transformers meet Neural Algorithmic Reasoners
https://arxiv.org/abs/2406.09308
тот самый датасет с графами, из которого получили текстовую версию и на ней тестились
https://github.com/google-deepmind/clrs
👍11🔥2🤔1
хм, классные ребята из OpenDILab (которые ведут много awesome листиков по RLю и делают либу LightZero) начали делать библиотеку с алгоритмами на диффузионках и flow моделях для принятия решений:
GenerativeRL
https://github.com/opendilab/GenerativeRL
и сразу awesome по диффузионкам в RLе
https://github.com/opendilab/awesome-diffusion-model-in-rl
(сохранять)
GenerativeRL
https://github.com/opendilab/GenerativeRL
и сразу awesome по диффузионкам в RLе
https://github.com/opendilab/awesome-diffusion-model-in-rl
(сохранять)
GitHub
GitHub - opendilab/GenerativeRL: Python library for solving reinforcement learning (RL) problems using generative models (e.g.…
Python library for solving reinforcement learning (RL) problems using generative models (e.g. Diffusion Models). - opendilab/GenerativeRL
👍8🔥4
Forwarded from Just links
Implementing General Relativity: What's inside a black hole? https://20k.github.io/c++/2024/06/19/tetrads.html
20k.github.io
Implementing General Relativity: What's inside a black hole? · James' Space Blog
Ramblings on C++, OpenCL, and GPU programming
Forwarded from (sci)Berloga Всех Наук и Технологий
🚀 @SBERLOGASCI webinar on data science:
👨🔬 Н. Бухал "Алгоритм MCTS, Monte Carlo Tree Search".
⌚️ Четверг 20 июня 19.00 по Москве
Алгоритм MCTS одна из основных составляющих АльфаГо. В данном докладе будет разобрана имплементация.
Попробуем шаг за шагом реализовать MCTS для крестиков ноликов.
Код который будем разбирать/переписывать: https://www.kaggle.com/code/tttzof351/alphazerotictac
Ожидаемый результат: https://youtu.be/F7qOV8xonfY?si=MXQgN-kwHD9D8oqd
Напоминание: мы организуем активность применить машинное обучение к математическим задачам теории групп. MCTS один из рассматриваемых методов. Если вам интересна активность - добавляйтесь в https://www.tgoop.com/sberlogasci/10989 и напишите @Alexander_v_c , если вы хотите поучаствовать - требование - знать Питон - остальное научим.
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
👨🔬 Н. Бухал "Алгоритм MCTS, Monte Carlo Tree Search".
⌚️ Четверг 20 июня 19.00 по Москве
Алгоритм MCTS одна из основных составляющих АльфаГо. В данном докладе будет разобрана имплементация.
Попробуем шаг за шагом реализовать MCTS для крестиков ноликов.
Код который будем разбирать/переписывать: https://www.kaggle.com/code/tttzof351/alphazerotictac
Ожидаемый результат: https://youtu.be/F7qOV8xonfY?si=MXQgN-kwHD9D8oqd
Напоминание: мы организуем активность применить машинное обучение к математическим задачам теории групп. MCTS один из рассматриваемых методов. Если вам интересна активность - добавляйтесь в https://www.tgoop.com/sberlogasci/10989 и напишите @Alexander_v_c , если вы хотите поучаствовать - требование - знать Питон - остальное научим.
Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !
👍5