1. http://rll.berkeley.edu/adversarial/ Adversarial Attacks on Neural Network Policiesci
就是對test時候的policy進行構造對抗樣本,方法仍是用的分類對抗樣本的方法,對於DQN,把Q value作個softmax,同樣地構造對抗樣本。get