tgoop.com/optozorax_dev/716
Last Update:
А в чём её идея? Да в том что если машинка научилась проходить какую-то трассу, то ей невыгодно уже перестать уметь её проходить, потому что никакое изменение штрафа и раннего финиша не смогут дать ей такую награду, как пройденная трасса. Плюс, помимо такой дискретной составляющей у неё есть непрерывная - пройденное расстояние на трассе, и она может постепенно увеличивать это число, пока в какой-то момент оно не превратится в +1.
Прикрепляю график. Значит что на нём значит:
* Цветное - это новая метрика, а серый - старая.
* Первая строка - индивидуальные запуски, там ничего особо полезного.
* Вторая строка - тоже особо ничего полезного.
* Третья строка - график слева показывает число пройденных трасс, сплошная линия - новая метрика, пунктирная - старая. Самое-самое главное что новая метрика в большем % случаев проходит больше трасс, особенно смотрите на розовую трассу complex - самую сложную трассу (она участвует в гифках в прошлых постах).
* Затем идёт Early finish - это значит насколько быстро пройдена трасса, берётся среднее от всех трасс и рисуется здесь.
* Четвёртая строка - штрафы за удары в стену, первый график - среднее от всех трасс, второй график - максимальное среди всех трасс.
* Пятая строка - среднее пройденное расстояние и минимальное пройденное расстояние.
Сплошная линия показывает медиану, первая закрашенная область показывает значения между 25 и 75 перцентилями, а очень слабо закрашенная область показывает между 10 и 90 перцентилями. Напоминаю, что это 100 разных запусков обучения, и широта области показывает что в этом месте обучение оч нестабильно, и при разных запусках сходится к разной величине.
По графику в первую очередь видно что в среднем стало проходиться больше трас, они в среднем проходятся быстрее. Но вот меньше ударов в стену было у прошлой метрики, но это довольно старый график, я это уже как-то пофиксил, и новая метрика щас вообще очень хорошо по штрафу идёт, практически возле нуля.
(и да, представляете, я отсмотрел и проанализировал минимум 199 таких графиков...)
Ах да, забыл сказать, я называю эту метрику "уровни". Можно её делать многоуровневой, типо на втором уровне я щас экспериментирую с штрафами (три уровня: штраф < 15, штраф < 5, штраф = 0).
Очень горжусь этой метрикой и рад что её нашёл, с ней обучение реально стало лучше.
На самом деле эти два поста - вводная к следующему (тот самый достойный момент), но чот слишком много написал уже, завтра опубликую 😜, а вы пока читайте это.
#машинки
BY dev optozorax
![](https://photo2.tgoop.com/u/cdn4.cdn-telegram.org/file/vlpFpWc4hljWyu4JKLqD8Nip5tg_Od942F3ngkBVpvuJROCnibYHPh17dzAWHjupjwRy8IQBGID5AyzZf3EE5Oq54_JavARf0FbKx-eWapj29VM-HRKCGJ3XYsvj8hTcR_S0ohXLRDQLRCBCi_uOnLkQvlkIlHNeea5VYOpbWK-2xox-K0IeMtc7y-Z1Iu-oO8h9Z8jF_ZHXWUS_7Y-iDWFWEBlj8f4vVcfNL47RzLFA5QIiEV0HKZMe5CfHmamSnjwJBw_YAeV8ZISBJrzS5xlRRJNCIWNHp9J38qyR6bIX3Yc-6O3_o3z_PpSLaiAnNNKSRnB6ClZqQAMg_L7WmQ.jpg)
Share with your friend now:
tgoop.com/optozorax_dev/716