強化學習——(1)基礎

1. 基礎介紹 在強化學習中有兩個東西:Agent和Environment。他們的關係如下: Agent會去觀察Environment,會做一些Action,Change the environment,之後會得到reward。 在Alpha Go中,observation爲棋盤,action 是落子的位置,Environment爲對手,reward爲:贏了1,輸了-1。因此,機器需要調整mode
相關文章
相關標籤/搜索