DQN

D Q N DQN DQN 初始Agent K,B:是模型參數 X:環境狀態 Y:決定Action,Action和正確結果的正負狀態決定獎勵和懲罰機制 訓練完後的優質Agent 全連接網絡迴歸 全連接網絡分類 Input Layer: State Output Layer :Action,Action和正確結果的正負狀態決定獎勵和懲罰機制 中間所有參數:模型 CNN分類 或者: 神經網絡畫圖
相關文章
相關標籤/搜索