INSIDE_AI_TECH Telegram 48
Что такое RL-агенты и как они работают?

Reinforcement Learning (RL) — подход, в котором модель обучается действовать в среде, получая положительные и отрицательные награды. Система учится получать максимальную суммарную награду за весь процесс, а не в моменте. Какие-то действия могут приводить к отрицательной награде, но суммарный результат все равно будет лучше. Понятный пример — «инвестиции»: в процессе где-то мы теряем, но в сумме по итогу стремимся получить больше, чем вложили.

Пример классической задачи для RL — CartPole

RL-агенту нужно сбалансировать шест на движущейся тележке. Как это выглядит, можно посмотреть по ссылке. Агент получает числовое «фото»: где находится тележка, с какой скоростью она едет, под каким углом наклонён шест.
У агента есть два действия на выбор: толкнуть тележку влево или вправо. Если шест не упал, а тележка не выехала за край, агент получает награду и запоминает ситуацию.

После тысяч итераций алгоритм подстраивает свою внутреннюю политику под максимизацию награды — учится заранее определять наклон шеста и двигаться так, чтобы он не упал. За счет подкрепления бонусами и постоянной обратной связи у агента рождается устойчивое чувство равновесия.

Почему CartPole решает RL, а не обычная ML или LLM

CartPole — это не разовая классификация «картинка → ярлык», а динамическая игра, где каждое действие влияет на будущие состояния. У нас нет готовых «правильных ответов» для каждого кадра, зато есть цепочка наград за долговременное удержание шеста. RL учится на последовательных взаимодействиях и оптимизирует политику под накопленную награду. Классический ML на статичном датасете не справится с задачей, так как не поймет, что считать успехом.

Между RL агентами и LLM агентами можно провести параллель:

RL-агент перебирает доступные действия, чтобы заработать максимальную награду.
LLM-агент делает то же самое, только его «действия» — это выбор генерировать ответ на основе текущей информации или вызвать дополнительные инструменты (search, code-exec, image-ген), которые изменяют информационную среду и приближают агента к лучшему ответу.

В обычной жизни вы уже сталкивались с RL, но могли не знать об этом:

Роботы — учатся хватать предметы или ходить на ногах.
Автопилоты — просчитывают траектории, избегают столкновений, адаптируются в реальном времени.
Игровые боты — побеждают людей, потому что играют миллионы матчей и учатся на каждом.

Почему мы решили упомянуть про RL? Алгоритм reinforcement learning from human feedback (RLHF) позволил GPT следовать инструкциям и превратиться в универсальный инструмент, которым сегодня пользуются миллиарды людей — ChatGPT от OpenAI, Claude от Anthropic, Gemini, Grok и далее. С помощью такого подхода можно fine tune”ить модели и обучать их решать более сложные “агентские” задачи, но об этом в следующих постах.
🔥96👍5



tgoop.com/inside_ai_tech/48
Create:
Last Update:

Что такое RL-агенты и как они работают?

Reinforcement Learning (RL) — подход, в котором модель обучается действовать в среде, получая положительные и отрицательные награды. Система учится получать максимальную суммарную награду за весь процесс, а не в моменте. Какие-то действия могут приводить к отрицательной награде, но суммарный результат все равно будет лучше. Понятный пример — «инвестиции»: в процессе где-то мы теряем, но в сумме по итогу стремимся получить больше, чем вложили.

Пример классической задачи для RL — CartPole

RL-агенту нужно сбалансировать шест на движущейся тележке. Как это выглядит, можно посмотреть по ссылке. Агент получает числовое «фото»: где находится тележка, с какой скоростью она едет, под каким углом наклонён шест.
У агента есть два действия на выбор: толкнуть тележку влево или вправо. Если шест не упал, а тележка не выехала за край, агент получает награду и запоминает ситуацию.

После тысяч итераций алгоритм подстраивает свою внутреннюю политику под максимизацию награды — учится заранее определять наклон шеста и двигаться так, чтобы он не упал. За счет подкрепления бонусами и постоянной обратной связи у агента рождается устойчивое чувство равновесия.

Почему CartPole решает RL, а не обычная ML или LLM

CartPole — это не разовая классификация «картинка → ярлык», а динамическая игра, где каждое действие влияет на будущие состояния. У нас нет готовых «правильных ответов» для каждого кадра, зато есть цепочка наград за долговременное удержание шеста. RL учится на последовательных взаимодействиях и оптимизирует политику под накопленную награду. Классический ML на статичном датасете не справится с задачей, так как не поймет, что считать успехом.

Между RL агентами и LLM агентами можно провести параллель:

RL-агент перебирает доступные действия, чтобы заработать максимальную награду.
LLM-агент делает то же самое, только его «действия» — это выбор генерировать ответ на основе текущей информации или вызвать дополнительные инструменты (search, code-exec, image-ген), которые изменяют информационную среду и приближают агента к лучшему ответу.

В обычной жизни вы уже сталкивались с RL, но могли не знать об этом:

Роботы — учатся хватать предметы или ходить на ногах.
Автопилоты — просчитывают траектории, избегают столкновений, адаптируются в реальном времени.
Игровые боты — побеждают людей, потому что играют миллионы матчей и учатся на каждом.

Почему мы решили упомянуть про RL? Алгоритм reinforcement learning from human feedback (RLHF) позволил GPT следовать инструкциям и превратиться в универсальный инструмент, которым сегодня пользуются миллиарды людей — ChatGPT от OpenAI, Claude от Anthropic, Gemini, Grok и далее. С помощью такого подхода можно fine tune”ить модели и обучать их решать более сложные “агентские” задачи, но об этом в следующих постах.

BY Внутри AI | Кейсы ИИ Агентов в бизнесе


Share with your friend now:
tgoop.com/inside_ai_tech/48

View MORE
Open in Telegram


Telegram News

Date: |

Ng was convicted in April for conspiracy to incite a riot, public nuisance, arson, criminal damage, manufacturing of explosives, administering poison and wounding with intent to do grievous bodily harm between October 2019 and June 2020. The optimal dimension of the avatar on Telegram is 512px by 512px, and it’s recommended to use PNG format to deliver an unpixelated avatar. End-to-end encryption is an important feature in messaging, as it's the first step in protecting users from surveillance. Telegram Channels requirements & features With the sharp downturn in the crypto market, yelling has become a coping mechanism for many crypto traders. This screaming therapy became popular after the surge of Goblintown Ethereum NFTs at the end of May or early June. Here, holders made incoherent groaning sounds in late-night Twitter spaces. They also role-played as urine-loving Goblin creatures.
from us


Telegram Внутри AI | Кейсы ИИ Агентов в бизнесе
FROM American