tgoop.com/knowledge_accumulator/34
Last Update:
AlphaZero [2018] - история о плодотворной дружбе поиска и глубокого обучения
Обобщая, есть 2 поколения подходов в настольных играх:
1) Поиск по всем вариантам с оптимизациями
Шахматные алгоритмы, начиная с появления компьютеров, как минимум до Deep Blue [1997], работали на основе таких подходов. В глубине души они по эффективности похожи на полный перебор, но засчёт хитростей (вроде дебютной книги и эвристических оценок позиций в листьях дерева поиска) алгоритмам удаётся как-то работать.
2) Направленный поиск с помощью обучаемой функции полезности
Именно в этом и состояла революция AlphaGo (и её потомка AlphaZero). Оказалось, что обучаемая функция полезности действия в данной позиции позволяет перебирать радикально меньше вариантов ходов из каждой позиции. Она позволяет строить дерево поиска на больше ходов вперёд, потому что мы грамотно выбираем ходы при переборе.
Что интересно, обучается данная функция довольно просто - достаточно генерировать данные, садя алгоритм играть против себя же и своих прошлых итераций, и учить её предсказывать результат игры. В результате система легко обходит человека в шахматы и го.
Слабые точки AlphaZero понятны - требует много данных, обучается отдельно под одну игру. Но все революции за раз не совершить!
@knowledge_accumulator
BY Knowledge Accumulator
![](https://photo2.tgoop.com/u/cdn4.cdn-telegram.org/file/KSEkHRCexwWcZaix-fNcBL1dyYbz1fiS7uJ7ks1GkDY1ON1tgFdsSUWZPdAjE2i_by8hziJ6-13lu34PLnzKa2YHgamtMeNNLhe2Sx9aHftghlwTJCtW1S00JT0_G8SkXli_rq6wL_AB15vjRf2c5ntvGJWi_qdwqHddh2ZvWt_ZZr4glAPUrrhWqtD9N7SOZLpv9uKdo0ZyX4XmHdRW8U2i_KQfdoSjpjE__q8j-GBNFBWs7OPcGBOGrEjhwozSqze66JXx4LuhLocyB3QRaYOGqoEY1t4uU09yChd3VHYS7PGd1mYscxy7UE0L0ghvRAb3AkVavLlrVyr8WHolbw.jpg)
Share with your friend now:
tgoop.com/knowledge_accumulator/34