OPTOZORAX_DEV Telegram 721
Смена парадигмы в обучении #машинки

Итак, мои машинки вообще не могут обучаться сразу со сложной физики, поэтому я выдумывал всякое обучение с простой физики и дальнейшее дообучение на сложную. Но тут я нашёл невероятный метод, который может научиться всему, сразу со сложной физики!

Давайте начнём по порядку, у моей машинки нет памяти, нет знания о своих прошлых намерениях, нет рекуррентных нейронов, в общем для неё каждый кадр - как новая жизнь, с нуля. Это потому что она обычная нейросетка с Dense слоями. Она получает на вход текущее зрение, своё внутреннее состояние и ей нужно предсказать следующее действие в виде: насколько повернуть направо, насколько повернуть налево, насколько сильно сделать газ, насколько сильно тормозить. Ещё это называют задачей регрессии. Для задачи регрессии нейронка обучалась плохо, это красный график. Ну и у во всех моих прошлых постах всегда была именно задача регрессии.

Давайте попробуем задачу классификации? Возьмём 9 самых популярных действий и будем просить нейронку выбрать одно действие, то есть будет 9 выходных нейронов, и будет выбираться то действие, на котором находится максимальное число. Это зелёный график. Уже работает получше, но всё ещё не сходится к решению. Наверное здесь мораль в том, что делать классификацию чуток проще, чем регрессию.

Следующая задача - это задача скоринга. Скорее всего про такое вы не слышали. В этой задаче у нас есть нейронка, которая принимает на вход текущее состояние и предполагаемое действие, а на выход выдаёт 1 (одно) число. Далее мы перебираем среди наших 9 действий и выбираем то, у которого нейронка вернула самое большое число. В науке это называется Energy-based model, потому что это число называют энергией, и выбор оптимального действия на основе энергии называют "оптимизацией энергии". Может быть слышали есть такая JEPA у Яна ЛеКуна? Вот это оно. ЛеКун много писал в твиттере что это самая лучшая архитектура, в том числе и для генерации текста, чем регрессионные трансформеры, потому что почувствовать какой текст правильный намного проще, чем сгенерировать его сразу.

Я давно намотал это на ус и вот только недавно решил проверить его слова, и результат вы можете видеть на графике оранжевым цветом: ОНО РАБОТАЕТ ОФИГЕННО. Понимаете, эта нейронка всего за 200 поколений научилась проходить все трассы, с нулевым штрафом, без всяких ухищрений в виде простой физики, сразу со сложной физики, просто так! НАКОНЕЦ-ТО! Настоящая смена парадигмы.

Ещё вы можете видеть там синий график, это моя первоначальная версия, когда я для каждого действия симулировал мир на 1 шаг с этим дейстивем и подавал ещё и это на вход нейронке. Я думал что без хорошей модели мира это работать не будет, но это оказалось не нужно, оно даже не даёт ничего полезного.

Ещё там есть фиолетовый график, в нём выбирается не максимальное число, а самое близкое к нулю. Была идея в том что так нейронка может закодировать производную и тогда это типо должно легче обучаться. Но на самом деле нет.

В общем я очень очень рад новой парадигме, чувствую себя каким-то первооткрывателем, ибо вот никогда такого не видел для задачи обучения агентов! Теперь всё буду пробовать формулировать в виде energy-based model, может обучение будет сильно проще! Если у вас есть идеи какие подходы можно попробовать - пишите!

PS: Вот почему я в самом начале отказался от вашего дурацкого Reinforcement Learning и выбрал генетические алгоритмы, потому что вы можете себе представить чтобы я такой же эксперимент проводил с RL? Да я бы никогда это не сделал, у меня бы ни ума, ни времени, ни компьюта бы не хватило, чтобы обучить Energy-based model через RL. Они поэтому и не заслужили такую популярность, потому что их хрен обучишь. А для генетического алгоритма я это накодил за полчаса, и во время обучения ему хоть бы хны. Это называется СВОБОДА.



tgoop.com/optozorax_dev/721
Create:
Last Update:

Смена парадигмы в обучении #машинки

Итак, мои машинки вообще не могут обучаться сразу со сложной физики, поэтому я выдумывал всякое обучение с простой физики и дальнейшее дообучение на сложную. Но тут я нашёл невероятный метод, который может научиться всему, сразу со сложной физики!

Давайте начнём по порядку, у моей машинки нет памяти, нет знания о своих прошлых намерениях, нет рекуррентных нейронов, в общем для неё каждый кадр - как новая жизнь, с нуля. Это потому что она обычная нейросетка с Dense слоями. Она получает на вход текущее зрение, своё внутреннее состояние и ей нужно предсказать следующее действие в виде: насколько повернуть направо, насколько повернуть налево, насколько сильно сделать газ, насколько сильно тормозить. Ещё это называют задачей регрессии. Для задачи регрессии нейронка обучалась плохо, это красный график. Ну и у во всех моих прошлых постах всегда была именно задача регрессии.

Давайте попробуем задачу классификации? Возьмём 9 самых популярных действий и будем просить нейронку выбрать одно действие, то есть будет 9 выходных нейронов, и будет выбираться то действие, на котором находится максимальное число. Это зелёный график. Уже работает получше, но всё ещё не сходится к решению. Наверное здесь мораль в том, что делать классификацию чуток проще, чем регрессию.

Следующая задача - это задача скоринга. Скорее всего про такое вы не слышали. В этой задаче у нас есть нейронка, которая принимает на вход текущее состояние и предполагаемое действие, а на выход выдаёт 1 (одно) число. Далее мы перебираем среди наших 9 действий и выбираем то, у которого нейронка вернула самое большое число. В науке это называется Energy-based model, потому что это число называют энергией, и выбор оптимального действия на основе энергии называют "оптимизацией энергии". Может быть слышали есть такая JEPA у Яна ЛеКуна? Вот это оно. ЛеКун много писал в твиттере что это самая лучшая архитектура, в том числе и для генерации текста, чем регрессионные трансформеры, потому что почувствовать какой текст правильный намного проще, чем сгенерировать его сразу.

Я давно намотал это на ус и вот только недавно решил проверить его слова, и результат вы можете видеть на графике оранжевым цветом: ОНО РАБОТАЕТ ОФИГЕННО. Понимаете, эта нейронка всего за 200 поколений научилась проходить все трассы, с нулевым штрафом, без всяких ухищрений в виде простой физики, сразу со сложной физики, просто так! НАКОНЕЦ-ТО! Настоящая смена парадигмы.

Ещё вы можете видеть там синий график, это моя первоначальная версия, когда я для каждого действия симулировал мир на 1 шаг с этим дейстивем и подавал ещё и это на вход нейронке. Я думал что без хорошей модели мира это работать не будет, но это оказалось не нужно, оно даже не даёт ничего полезного.

Ещё там есть фиолетовый график, в нём выбирается не максимальное число, а самое близкое к нулю. Была идея в том что так нейронка может закодировать производную и тогда это типо должно легче обучаться. Но на самом деле нет.

В общем я очень очень рад новой парадигме, чувствую себя каким-то первооткрывателем, ибо вот никогда такого не видел для задачи обучения агентов! Теперь всё буду пробовать формулировать в виде energy-based model, может обучение будет сильно проще! Если у вас есть идеи какие подходы можно попробовать - пишите!

PS: Вот почему я в самом начале отказался от вашего дурацкого Reinforcement Learning и выбрал генетические алгоритмы, потому что вы можете себе представить чтобы я такой же эксперимент проводил с RL? Да я бы никогда это не сделал, у меня бы ни ума, ни времени, ни компьюта бы не хватило, чтобы обучить Energy-based model через RL. Они поэтому и не заслужили такую популярность, потому что их хрен обучишь. А для генетического алгоритма я это накодил за полчаса, и во время обучения ему хоть бы хны. Это называется СВОБОДА.

BY dev optozorax




Share with your friend now:
tgoop.com/optozorax_dev/721

View MORE
Open in Telegram


Telegram News

Date: |

Members can post their voice notes of themselves screaming. Interestingly, the group doesn’t allow to post anything else which might lead to an instant ban. As of now, there are more than 330 members in the group. The visual aspect of channels is very critical. In fact, design is the first thing that a potential subscriber pays attention to, even though unconsciously. On Tuesday, some local media outlets included Sing Tao Daily cited sources as saying the Hong Kong government was considering restricting access to Telegram. Privacy Commissioner for Personal Data Ada Chung told to the Legislative Council on Monday that government officials, police and lawmakers remain the targets of “doxxing” despite a privacy law amendment last year that criminalised the malicious disclosure of personal information. The imprisonment came as Telegram said it was "surprised" by claims that privacy commissioner Ada Chung Lai-ling is seeking to block the messaging app due to doxxing content targeting police and politicians. Just at this time, Bitcoin and the broader crypto market have dropped to new 2022 lows. The Bitcoin price has tanked 10 percent dropping to $20,000. On the other hand, the altcoin space is witnessing even more brutal correction. Bitcoin has dropped nearly 60 percent year-to-date and more than 70 percent since its all-time high in November 2021.
from us


Telegram dev optozorax
FROM American