強化學習——（1）基礎

時間 2021-01-08

原文原文鏈接

1. 基礎介紹在強化學習中有兩個東西：Agent和Environment。他們的關係如下： Agent會去觀察Environment，會做一些Action，Change the environment，之後會得到reward。在Alpha Go中，observation爲棋盤，action 是落子的位置，Environment爲對手，reward爲：贏了1，輸了-1。因此，機器需要調整mode

>>阅读原文<<