tgoop.com/optozorax_dev/723
Last Update:
Буквально вчера появилась новая версия o1, и она смогла решить задачу про которую я написал свою статью!
Но пришлось дополнять промт после каждой её ошибки.
Без всех этих промтов она старалась откосить в сторону suffix array. Без него она пыталась сделать решение O(n), со всякими ухищрениями (которые конечно же были неверны). Её ошибки обычно детектировались на самом простом примере: ABB, поэтому я добавил и его в промт. И когда это случилось, то она таки смогла.
Конечно, нельзя отменять секцию "Самокритика" и "Возможные причины" о том что какая-то часть этого уже была в интернете, и поэтому ей повезло додуматься. Плюс она сама пишет что "известная формула". А мне эту формулу пришлось самому выводить((
Это не то мышление, которое я ожидал, но явно большой шаг в правильном направлении! Ну и как я говорил, стакать больше слоёв не получится, вот не зря сделали обучение через RL и размышления. Надеюсь в какой-то момент она начнёт думать как бы опровергнуть свои мысли, тогда сможет сама додуматься до ABB. Ну и конечно ждём добавления ей инструментов, чтобы она смогла сама написать наивную версию, и затем сравнивать себя с наивным решением, запуская свой код.
Ещё большая проблема этой модели - как дать ей возможность думать в течении множества часов, например? Потому что засовывать ВСЁ в контекст - это плохой способ. Надо будет придумывать способы чтобы она смогла ужимать найденные знания в короткий текст и заново запускать себя со свежим контекстом. А это тоже нетривиально, чтобы не потерять все важные мысли и идеи.
Теперь надо искать новую задачу и оценивать модели на ней)
Промпт и решение нейронки можно увидеть тут: https://optozorax.github.io/p/gpt4/#apdeit-posle-vykhoda-o1-6-dekabria-2024
---
(по поводу порталов - перевожу на английский, тут ничего интересного)
BY dev optozorax
Share with your friend now:
tgoop.com/optozorax_dev/723