dev optozorax@optozorax

dev optozorax

Смена парадигмы в обучении #машинки

Итак, мои машинки вообще не могут обучаться сразу со сложной физики, поэтому я выдумывал всякое обучение с простой физики и дальнейшее дообучение на сложную. Но тут я нашёл невероятный метод, который может научиться всему, сразу со сложной физики!

Давайте начнём по порядку, у моей машинки нет памяти, нет знания о своих прошлых намерениях, нет рекуррентных нейронов, в общем для неё каждый кадр - как новая жизнь, с нуля. Это потому что она обычная нейросетка с Dense слоями. Она получает на вход текущее зрение, своё внутреннее состояние и ей нужно предсказать следующее действие в виде: насколько повернуть направо, насколько повернуть налево, насколько сильно сделать газ, насколько сильно тормозить. Ещё это называют задачей регрессии. Для задачи регрессии нейронка обучалась плохо, это красный график. Ну и у во всех моих прошлых постах всегда была именно задача регрессии.

Давайте попробуем задачу классификации? Возьмём 9 самых популярных действий и будем просить нейронку выбрать одно действие, то есть будет 9 выходных нейронов, и будет выбираться то действие, на котором находится максимальное число. Это зелёный график. Уже работает получше, но всё ещё не сходится к решению. Наверное здесь мораль в том, что делать классификацию чуток проще, чем регрессию.

Следующая задача - это задача скоринга. Скорее всего про такое вы не слышали. В этой задаче у нас есть нейронка, которая принимает на вход текущее состояние и предполагаемое действие, а на выход выдаёт 1 (одно) число. Далее мы перебираем среди наших 9 действий и выбираем то, у которого нейронка вернула самое большое число. В науке это называется Energy-based model, потому что это число называют энергией, и выбор оптимального действия на основе энергии называют "оптимизацией энергии". Может быть слышали есть такая JEPA у Яна ЛеКуна? Вот это оно. ЛеКун много писал в твиттере что это самая лучшая архитектура, в том числе и для генерации текста, чем регрессионные трансформеры, потому что почувствовать какой текст правильный намного проще, чем сгенерировать его сразу.

Я давно намотал это на ус и вот только недавно решил проверить его слова, и результат вы можете видеть на графике оранжевым цветом: ОНО РАБОТАЕТ ОФИГЕННО. Понимаете, эта нейронка всего за 200 поколений научилась проходить все трассы, с нулевым штрафом, без всяких ухищрений в виде простой физики, сразу со сложной физики, просто так! НАКОНЕЦ-ТО! Настоящая смена парадигмы.

Ещё вы можете видеть там синий график, это моя первоначальная версия, когда я для каждого действия симулировал мир на 1 шаг с этим дейстивем и подавал ещё и это на вход нейронке. Я думал что без хорошей модели мира это работать не будет, но это оказалось не нужно, оно даже не даёт ничего полезного.

Ещё там есть фиолетовый график, в нём выбирается не максимальное число, а самое близкое к нулю. Была идея в том что так нейронка может закодировать производную и тогда это типо должно легче обучаться. Но на самом деле нет.

В общем я очень очень рад новой парадигме, чувствую себя каким-то первооткрывателем, ибо вот никогда такого не видел для задачи обучения агентов! Теперь всё буду пробовать формулировать в виде energy-based model, может обучение будет сильно проще! Если у вас есть идеи какие подходы можно попробовать - пишите!

PS: Вот почему я в самом начале отказался от вашего дурацкого Reinforcement Learning и выбрал генетические алгоритмы, потому что вы можете себе представить чтобы я такой же эксперимент проводил с RL? Да я бы никогда это не сделал, у меня бы ни ума, ни времени, ни компьюта бы не хватило, чтобы обучить Energy-based model через RL. Они поэтому и не заслужили такую популярность, потому что их хрен обучишь. А для генетического алгоритма я это накодил за полчаса, и во время обучения ему хоть бы хны. Это называется СВОБОДА.

www.tgoop.com/optozorax_dev/721

4.5K viewsedited Nov 10, 2024 at 18:56

tgoop.com/optozorax_dev/721

Create: 2024-11-10
Last Update: 2025-03-02 22:07:15

BY dev optozorax

❌Photos not found?❌Click here to update cache.

Share with your friend now:
tgoop.com/optozorax_dev/721

Telegram News

Смена парадигмы в обучении #машинки