Telegram Web
опа, нам сделали выбиралку покемонов model-free алгоритмов обучения с подкреплением + ссылочки на статейки + ревьюшку

можно фильтрануть по пространству действий, по длине траекторий, есть ли экспертные данные и тд.

Теперь очень удобно выбирать между DQN и PPO 😑

https://rl-picker.github.io/

статейку полистать:

How to Choose a Reinforcement-Learning Algorithm
https://arxiv.org/abs/2407.20917
Please open Telegram to view this post
VIEW IN TELEGRAM
13👍2😁2
Тут 4 свежие книги из серии The Art of High Performance Computing автора Victor Eijkhout

https://theartofhpc.com/

Volume 1: The Science of Computing

Volume 2: Parallel Programming in MPI and OpenMP

Volume 3: Introduction to Scientific Programming in C++17/Fortran2008

Volume 4: Tutorials for High Performance Scientific Computing

Сами книжки автор сложил в репозиторий, можно спокойно выкачать все сразу: https://github.com/VictorEijkhout/TheArtofHPC_pdfs

+ доп материалы можно найти тут:

https://github.com/VictorEijkhout/TheArtOfHPC_vol1_scientificcomputing
https://github.com/VictorEijkhout/TheArtOfHPC_vol2_parallelprogramming
https://github.com/VictorEijkhout/TheArtOfHPC_vol3_cppf08programming
7👍2🔥2
Кстати, прямо сейчас (9-12 августа) проходит первая конфа по обучению с подкреплением RLC https://rl-conference.cc/

А еще выпускают журнал Reinforcement Learning Journal (RLJ) https://rlj.cs.umass.edu/
в первом номере которого (RLJ 2024: Volume 1, Issue (Number) 1) выпустят статейки с конфы, можно почитать уже тут: https://rlj.cs.umass.edu/2024/2024issue.html

Буквально вот только увидел и вам скинул мб потом что-нибудь почитаем отдельно
❤‍🔥9🔥72
Про нейронки которые обгоняют людей в Gran Turismo 7 в гонках на время 🚘

На конфе RLC (вчера писал) была статья от сонибоев (Sony AI) которые писали о своем агенте, который оказался быстрее 130000 пользователей симулятора в одиночном заезде.

Основной + что во время тестирования машина управляется через локальные данные полученые из машины (картинка с камеры на машине, скорость, ускорение), а глобальные данные (например текущий курс, траектория автомобиля) использовались только при обучении.

Policy нейронка принимает на вход лишь локальные данные, при этом глобальные + локальные (кроме изображения) поступали в нейронку critic (которая нужна при обучении, но отбрасывается при тестировании и использовании).

Тестировались на 3х трассах.

Читать коротко:
https://ai.sony/publications/A-Super-human-Vision-based-Reinforcement-Learning-Agent-for-Autonomous-Racing-in-Gran-Turismo/

Читать долго:

A Super-human Vision-based Reinforcement Learning Agent for Autonomous Racing in Gran Turismo
https://arxiv.org/abs/2406.12563

Кстати до этого у Sony AI был подобный ресерч в 2022 году, проект GT Sophy (на картинке есть, он самый быстрый). Но там всегда применялись глобальные фичи и во время трейна и во время теста.
https://www.gran-turismo.com/us/gran-turismo-sophy/
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
56🔥11👍5🤔1
Наткнулся на прикольный проектик c движком 2д частичек для симуляции жидкости и софтбоди на cuda с прицелом на "симуляцию искусственной жизни".

Artificial LIfe ENvironment (ALIEN)
(меня-то environment тригернул 🥴)

https://alien-project.org/

Каждое смоделированное тело состоит из сети частиц, которые могут быть улучшены с помощью функций более высокого уровня, начиная от возможностей обработки чистой информации до физического оборудования (такого как датчики, мышцы, оружие, конструкторы и т. д.), исполнение которых организовано нейронными сетями. Тела можно рассматривать как агентов или цифровые организмы, действующие в общей среде. Их чертежи могут храниться в геномах и передаваться потомству.


Пока еще не ставил но чот хочется

https://github.com/chrxh/alien

Под винду кстати есть инсталлер.

дока https://alien-project.gitbook.io/docs

Посмотрите видосики это прикольно! https://alien-project.org/artworks.html
Please open Telegram to view this post
VIEW IN TELEGRAM
10🔥5👍31👏1
Ребята сделали крутую обзорку механизмов знаний в ллмковых.
Обязательно сохраняем!

Я вообще очень люблю обзорки, ведь муторно все время следить за самыми новыми статьями в какой-то области. Тут все в одном

Начинают с определения знаний в ллмках, потом архитектура нашего любимого трансформера, методы анализа знаний, как знания в ллмках используются, как создаются, про меморизацию и тд. И главное на все ссылочки

Попутно авторы выделили 5 гипотез:

Hypothesis 1: Modular Region
Knowledge is Encoded in Modular Region

Hypothesis 2: Connection
Knowledge is Represented by Connections.

Hypothesis 3: Reuse
LLMs Reuse Certain Components during Knowledge Comprehension and Application.

Hypothesis 4: Extrapolation
LLMs May Create Knowledge via Extrapolation.

Hypothesis 5: Dynamic Intelligence
Conflict and Integration Coexist in the Dynamic Knowledge Evolution of LLMs.

По каждому разделу можно кучу отдельных постов писать но это позже

Knowledge Mechanisms in Large Language Models: A Survey and Perspective
https://arxiv.org/abs/2407.15017
👍14👌3
Челы из Беркли продолжают накручивать ллмки на фанколлы.

Сделали соответствующий лидерборд https://gorilla.cs.berkeley.edu/leaderboard.html

+ дропнули новую версию ллмки для фанколов. Пока не тестил, интересно может ли она в русский.

https://huggingface.co/gorilla-llm/gorilla-openfunctions-v2

Блог https://gorilla.cs.berkeley.edu/blogs/8_berkeley_function_calling_leaderboard.html
👍42
Из интересного:
Ассоциация математического ресерча (на самом деле хз кто это такие, откуда-то из США) учредила премию по математике искусственного интеллекта.
50к за математику для ии | ии для математики

https://amathr.org/prizes/aiprize/

Ассоциация математических исследований рада объявить, что в 2024 году она вручит первую ежегодную премию по математике искусственного интеллекта. Она будет присуждаться за исследования, проведенные за последние 10 лет в области математики, имеющей отношение к искусственному интеллекту и машинному обучению, или за исследования ИИ, имеющие отношение к математике. AMR считает, что математика может внести большой вклад в ИИ, и наоборот, что ИИ может внести большой вклад в математику, и хочет поощрять работу в этой области путем учреждения этой премии. Премия будет включать денежную премию в размере 50 000 долларов США. Мы принимаем заявки, которые должны включать краткую записку с описанием квалификации номинанта, а также исследования, за которые может быть присуждена премия. Письма с номинациями следует отправлять по адресу (см на сайте) и должны быть получены до 31 августа, чтобы гарантировать рассмотрение.


+

Кандидаты из любой точки мира будут рассмотрены в равной степени.


До 31 числа еще время есть.
🔥6
Нейроночки теряют пластичность при continual learning (постепенном дообучении на новых данных, когда старые данные уже недоступны).

Потеря пластичности - потеря способности учиться на новых данных. А мы же хотим делать всяких автономных агентов, которые будут и новые вещи встречать (а значит и на них научиться надо). Не нужно путать с забыванием (forgetting), когда моделька забывает старые данные, которые видела на предыдущих этапах обучения.

Воспроизвели феномен для супервайзд лернинга на CIFAR-100 и ImageNet, задаче учить новые классы для классификации (задачку модифицировали под continual learning). В случае с CIFAR-100 Сначала учили на 5 классах, постепенно добавляя новые. После 40 увидели что способносить учить новые классы деградирует. После постепенного дообучения на 100 классах акураси была на 5% меньше, чем у сети изначально натренированной на этих же 100 классах .

Эта же проблема проявляется в обучении с подкреплением. На самом деле для РЛя потеря пластичности еще критичнее чем для супервайзд лернинга (в супервайзде мы можем много данных сразу сложить и на них обучиться). В РЛе агент со временем и по мере прогресса видит новые состояния, и часто доходя до определенного реварда нейронка начинает деградировать.

Решить ситуацию предлагают через свой continual backpropagation метод обучения при котором часть "малополезных весов" (в статье определяют свою меру полезности) повторно инициализируется на каждом шаге, так же как они инициализировались в начале обучения. Вообще потеря пластичности возникает судя по всему из-за того что некоторые веса со временем "стабилизируются" (перестают активно меняться при обучении). Потому предлагают некоторые регионы сетей иногда шевелить, чтобы оно хотело учиться..

В задачах с рлем где был PPO помимо continual backpropagation добавили еще L2 регуляризацию и PPO полегчало (на 2 скрине).

Еще нашли, что использование оптимизатора Adam, добавление Dropout и нормализации усиливают потерю пластичности. А вот добавление L2 регуляризации потерю уменьшают.

Так понял. Статейку читать, там все есть.

Loss of plasticity in deep continual learning
https://www.nature.com/articles/s41586-024-07711-7

коды
https://github.com/shibhansh/loss-of-plasticity
1👍173
Ммм, там ребята из гугла дум запихивают в стейбл дифужн 1.4 (назвали GameNGen)

В чем смысл? Ну получить норм нейронковый симулятор дума + идеи ворлд моделс 🥴. Ну и вроде результат выглядит ок.

Вначале RL: PPO с CNNкой учится проходить уровни в симуляторе VizDoom и собирать таким образом траектории на которых потом учат диффузию. RL помог нагенерить более разнообразных данных, по сравнению с рандомом (рандому трудно делать более сложные последовательности действий).

Насобирали 900M фреймов (320x240) для тренировки. Потом потренили стебл дифужин 1.4. Получили 20 FPS на 1 TPU (окей, гугл).
После 20-30 шагов моделька начинала глючить. Ошибки постепенно накапливались с предыдущих семплов (авторы называют это auto-regressive drift). Добавили шума (и уровень шума использовали как параметр для модельки) на картинки во время трейна и полечилось. (3 скрин)

Попросили 10 человек поотличать короткие ролики (1.6, 3.2 секунды они и правда короткие) полученные из своего GameNGen и реального дума. Люди выбрали настоящий дум в 60% случаев.

Diffusion Models Are Real-Time Game Engines
https://arxiv.org/abs/2408.14837

https://www.youtube.com/watch?v=O3616ZFGpqw
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥3
Так ребзя я тут подумол. Много разговоров о том, что RL не работает. Если у кого были успешные кейсы с рлем то напишите их сюда в комменты, где он у вас заработал и что полезного сделал.
Можно и кейсы где не заработал. Что и где пробовали и какие результаты получились.
3🤔3👌1
Forwarded from DL in NLP (Vlad Lialin)
Introducing NEO Beta
youtube.com/watch?v=bUrLuUxv9gE

Мы (1X Technologies) наконец-то показали нашего нового робота публично! Neo это наше второе (и на данный момент уже основное) поколение роботов. В отличие от Eve у Neo пять пальцев и две ноги, что позволяет решать гораздо больше задач. В отличие от других гуманоидных роботов Neo может безопасно находиться радом с людьми из-за compliant моторов, при этом он всё ещё обладает довольно большой силой, сопостовимой с другими гуманоидами (и может быть даже превосходящей некоторых). Надеюсь в ближайшее время мы пошерим больше деталей о том что уже сейчас может Neo.

(Продолжаю орать с комментариев о том что это человек в костюме, разработчики железа воспринимают это как комплемент пхпх)
🤔4🤣1
Forwarded from Рисерчошная
Приходят как-то на синк разработчик, тестировщик и time.sleep(1), а он им и говорит: ребята, мы что, в анекдоте?

➡️ Ну почти: они в подводке к статье про то, как тестировать мл системы, что бы не потерять $100k.

#HABR
Please open Telegram to view this post
VIEW IN TELEGRAM
5😁3👀2🌚1
2025/07/10 01:19:54
Back to Top
HTML Embed Code: