Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37
Warning: file_put_contents(aCache/aDaily/post/optozorax_dev/--): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50 dev optozorax@optozorax_dev P.721
Итак, мои машинки вообще не могут обучаться сразу со сложной физики, поэтому я выдумывал всякое обучение с простой физики и дальнейшее дообучение на сложную. Но тут я нашёл невероятный метод, который может научиться всему, сразу со сложной физики!
Давайте начнём по порядку, у моей машинки нет памяти, нет знания о своих прошлых намерениях, нет рекуррентных нейронов, в общем для неё каждый кадр - как новая жизнь, с нуля. Это потому что она обычная нейросетка с Dense слоями. Она получает на вход текущее зрение, своё внутреннее состояние и ей нужно предсказать следующее действие в виде: насколько повернуть направо, насколько повернуть налево, насколько сильно сделать газ, насколько сильно тормозить. Ещё это называют задачей регрессии. Для задачи регрессии нейронка обучалась плохо, это красный график. Ну и у во всех моих прошлых постах всегда была именно задача регрессии.
Давайте попробуем задачу классификации? Возьмём 9 самых популярных действий и будем просить нейронку выбрать одно действие, то есть будет 9 выходных нейронов, и будет выбираться то действие, на котором находится максимальное число. Это зелёный график. Уже работает получше, но всё ещё не сходится к решению. Наверное здесь мораль в том, что делать классификацию чуток проще, чем регрессию.
Следующая задача - это задача скоринга. Скорее всего про такое вы не слышали. В этой задаче у нас есть нейронка, которая принимает на вход текущее состояние и предполагаемое действие, а на выход выдаёт 1 (одно) число. Далее мы перебираем среди наших 9 действий и выбираем то, у которого нейронка вернула самое большое число. В науке это называется Energy-based model, потому что это число называют энергией, и выбор оптимального действия на основе энергии называют "оптимизацией энергии". Может быть слышали есть такая JEPA у Яна ЛеКуна? Вот это оно. ЛеКун много писал в твиттере что это самая лучшая архитектура, в том числе и для генерации текста, чем регрессионные трансформеры, потому что почувствовать какой текст правильный намного проще, чем сгенерировать его сразу.
Я давно намотал это на ус и вот только недавно решил проверить его слова, и результат вы можете видеть на графике оранжевым цветом: ОНО РАБОТАЕТ ОФИГЕННО. Понимаете, эта нейронка всего за 200 поколений научилась проходить все трассы, с нулевым штрафом, без всяких ухищрений в виде простой физики, сразу со сложной физики, просто так! НАКОНЕЦ-ТО! Настоящая смена парадигмы.
Ещё вы можете видеть там синий график, это моя первоначальная версия, когда я для каждого действия симулировал мир на 1 шаг с этим дейстивем и подавал ещё и это на вход нейронке. Я думал что без хорошей модели мира это работать не будет, но это оказалось не нужно, оно даже не даёт ничего полезного.
Ещё там есть фиолетовый график, в нём выбирается не максимальное число, а самое близкое к нулю. Была идея в том что так нейронка может закодировать производную и тогда это типо должно легче обучаться. Но на самом деле нет.
В общем я очень очень рад новой парадигме, чувствую себя каким-то первооткрывателем, ибо вот никогда такого не видел для задачи обучения агентов! Теперь всё буду пробовать формулировать в виде energy-based model, может обучение будет сильно проще! Если у вас есть идеи какие подходы можно попробовать - пишите!
PS: Вот почему я в самом начале отказался от вашего дурацкого Reinforcement Learning и выбрал генетические алгоритмы, потому что вы можете себе представить чтобы я такой же эксперимент проводил с RL? Да я бы никогда это не сделал, у меня бы ни ума, ни времени, ни компьюта бы не хватило, чтобы обучить Energy-based model через RL. Они поэтому и не заслужили такую популярность, потому что их хрен обучишь. А для генетического алгоритма я это накодил за полчаса, и во время обучения ему хоть бы хны. Это называется СВОБОДА.
Итак, мои машинки вообще не могут обучаться сразу со сложной физики, поэтому я выдумывал всякое обучение с простой физики и дальнейшее дообучение на сложную. Но тут я нашёл невероятный метод, который может научиться всему, сразу со сложной физики!
Давайте начнём по порядку, у моей машинки нет памяти, нет знания о своих прошлых намерениях, нет рекуррентных нейронов, в общем для неё каждый кадр - как новая жизнь, с нуля. Это потому что она обычная нейросетка с Dense слоями. Она получает на вход текущее зрение, своё внутреннее состояние и ей нужно предсказать следующее действие в виде: насколько повернуть направо, насколько повернуть налево, насколько сильно сделать газ, насколько сильно тормозить. Ещё это называют задачей регрессии. Для задачи регрессии нейронка обучалась плохо, это красный график. Ну и у во всех моих прошлых постах всегда была именно задача регрессии.
Давайте попробуем задачу классификации? Возьмём 9 самых популярных действий и будем просить нейронку выбрать одно действие, то есть будет 9 выходных нейронов, и будет выбираться то действие, на котором находится максимальное число. Это зелёный график. Уже работает получше, но всё ещё не сходится к решению. Наверное здесь мораль в том, что делать классификацию чуток проще, чем регрессию.
Следующая задача - это задача скоринга. Скорее всего про такое вы не слышали. В этой задаче у нас есть нейронка, которая принимает на вход текущее состояние и предполагаемое действие, а на выход выдаёт 1 (одно) число. Далее мы перебираем среди наших 9 действий и выбираем то, у которого нейронка вернула самое большое число. В науке это называется Energy-based model, потому что это число называют энергией, и выбор оптимального действия на основе энергии называют "оптимизацией энергии". Может быть слышали есть такая JEPA у Яна ЛеКуна? Вот это оно. ЛеКун много писал в твиттере что это самая лучшая архитектура, в том числе и для генерации текста, чем регрессионные трансформеры, потому что почувствовать какой текст правильный намного проще, чем сгенерировать его сразу.
Я давно намотал это на ус и вот только недавно решил проверить его слова, и результат вы можете видеть на графике оранжевым цветом: ОНО РАБОТАЕТ ОФИГЕННО. Понимаете, эта нейронка всего за 200 поколений научилась проходить все трассы, с нулевым штрафом, без всяких ухищрений в виде простой физики, сразу со сложной физики, просто так! НАКОНЕЦ-ТО! Настоящая смена парадигмы.
Ещё вы можете видеть там синий график, это моя первоначальная версия, когда я для каждого действия симулировал мир на 1 шаг с этим дейстивем и подавал ещё и это на вход нейронке. Я думал что без хорошей модели мира это работать не будет, но это оказалось не нужно, оно даже не даёт ничего полезного.
Ещё там есть фиолетовый график, в нём выбирается не максимальное число, а самое близкое к нулю. Была идея в том что так нейронка может закодировать производную и тогда это типо должно легче обучаться. Но на самом деле нет.
В общем я очень очень рад новой парадигме, чувствую себя каким-то первооткрывателем, ибо вот никогда такого не видел для задачи обучения агентов! Теперь всё буду пробовать формулировать в виде energy-based model, может обучение будет сильно проще! Если у вас есть идеи какие подходы можно попробовать - пишите!
PS: Вот почему я в самом начале отказался от вашего дурацкого Reinforcement Learning и выбрал генетические алгоритмы, потому что вы можете себе представить чтобы я такой же эксперимент проводил с RL? Да я бы никогда это не сделал, у меня бы ни ума, ни времени, ни компьюта бы не хватило, чтобы обучить Energy-based model через RL. Они поэтому и не заслужили такую популярность, потому что их хрен обучишь. А для генетического алгоритма я это накодил за полчаса, и во время обучения ему хоть бы хны. Это называется СВОБОДА.
Find your optimal posting schedule and stick to it. The peak posting times include 8 am, 6 pm, and 8 pm on social media. Try to publish serious stuff in the morning and leave less demanding content later in the day. Those being doxxed include outgoing Chief Executive Carrie Lam Cheng Yuet-ngor, Chung and police assistant commissioner Joe Chan Tung, who heads police's cyber security and technology crime bureau. In handing down the sentence yesterday, deputy judge Peter Hui Shiu-keung of the district court said that even if Ng did not post the messages, he cannot shirk responsibility as the owner and administrator of such a big group for allowing these messages that incite illegal behaviors to exist. Telegram Channels requirements & features More>>
from us