強化學習論文（Scalable agent alignment via reward modeling: a research direction）

時間 2019-11-19

標籤強化學習論文 scalable agent alignment reward modeling research direction 欄目 Scala 简体版

原文原文鏈接

原文地址：html

https://arxiv.org/pdf/1811.07871.pdfweb

========================================================算法

如何讓AI依照人類的意圖行事？這是將AI應用於現實世界複雜問題的最大障礙之一。瀏覽器

DeepMind將這個問題定義爲「智能體對齊問題」，並提出了新的解決方案。安全

概述瞭解決agent alignment問題的研究方向。所提出的方法依賴於獎勵建模的遞歸應用，以符合用戶意圖的方式解決複雜的現實世界問題。網絡

強化學習之因此選擇遊戲：架構

遊戲一般都有一個明確的目標，以及一個近似於實現該目標的進展的分數。這個分數爲強化學習智能體提供了有用的獎勵信號，使咱們可以獲得關於哪些算法和架構選擇最有效的快速反饋。 oracle

ps: 遊戲裏面咱們能夠獲得immediate reward , 快速反饋，可是在現實生活中，一些複雜的場景和任務中是不知足這個條件的，所以設計一種方法，使強化學習可以 hehave in accordance with user's intention , 是頗有必要的。app

一：框架

這篇文章屬於半綜述類文章，之因此這麼說是由於這篇文章的一個主要工做是依據已有的工做論述了獎勵建模的challenge（Section 4），並給出了已有的被用於解決這些問題的方法（concrete approaches to mitigate these challenge）(Section 5)。

用做者的表述是： In essence, this document combines existing efforts on AI safety problems by providing one coherent narrative around how solving these problems could enable us to train aligned agents beyond human-level performance .

we outline an approach for enabling the user to communicate their intentions to the agent for the task at hand so that it allows them to trust the trained agent.

可見，本文中做者的主要工做是將前人的工做串聯起來。

（同時提出了一個方法，叫作：

遞歸獎勵建模）

雖然咱們相信遞歸獎勵建模是訓練對齊智能體的一個很是有前景的方向，但目前還不知道它能夠如何擴展（須要更多的研究）。幸運的是，追求agent alignment還有其餘一些研究方向：

將來的研究方向

雖然DeepMind的研究人員們深信遞歸獎勵模型會是智能體對齊訓練很是有前景的一個研究方向，然而他們目前沒法預估這個方向在將來會怎麼發展（須要你們進行更多的研究！）。不過值得慶祝的是，專一智能體對齊問題的其它幾種研究方向也同時有別的研究人員正在作出成果：

模仿學習
短視強化學習（Myopic reinforcement learning）（http://www.cs.utexas.edu/~bradknox/TAMER.html）
逆強化學習（Inverse reinforcement learning）（http://ftp.cs.berkeley.edu/~russell/papers/colt98-uncertainty.pdf）
合做逆強化學習（https://arxiv.org/abs/1606.03137）
迭代擴增（複雜到人類難以評價的問題，能夠教會一個 AI ）
經過爭論學習（人和人吵架生氣，但 AI 和 AI 吵架反倒能夠帶來安全）
智能體基礎組件設計（Agent foundations）（https://intelligence.org/files/TechnicalAgenda.pdf）

DeepMind也在文中探討了這幾種研究方向的異同之處。

========================================================

參考文獻：

和 DeepMind 一塊兒考慮如何在 AI 中重現人類的價值觀

https://baijiahao.baidu.com/s?id=1618162184361105377&wfr=spider&for=pc

DeepMind：經過獎勵模型，讓AI按照人類意圖行事

https://new.qq.com/omn/20181122/20181122A0X53G.html

=======================================================

如下是中文翻譯（同門師弟的寒假工做，翻譯質量雖然不是很高，可是仍是能夠看一看的）

基於獎勵建模的可伸縮智能體對齊:一個研究方向
摘要
將強化學習算法應用於實際問題的一個障礙是缺少合適的獎勵函數。設計這樣的獎勵函數是困難的，部分緣由是用戶對任務目標只有一個隱含的理解。這就產生了智能體對齊問題:咱們如何建立行爲符合用戶意圖的智能體？咱們提出了一個高層次的研究方向來解決以獎勵建模爲中心的智能體對齊問題：從與用戶的交互中學習獎勵函數，經過強化學習優化學習的獎勵函數。咱們討論了在將獎勵建模擴展到複雜和通常領域時，咱們預期將面臨的關鍵挑戰、減輕這些挑戰的具體方法以及在結果智能體中創建信任的方法。

1 介紹
遊戲是一個有用的研究基準，由於進展很容易衡量。Atari遊戲提供了一個得分功能，能夠捕捉智能體玩遊戲的表現；桌遊或多人競技遊戲，如Dota 2和星際爭霸2，在遊戲結束時會有一個明確的贏家或輸家。這有助於咱們憑經驗肯定哪一種算法和體系結構改進最有效。
然而，機器學習(ML)研究的最終目標是超越遊戲，改善人類生活。爲了實現這一點，咱們須要ML在現實世界中幫助咱們，從簡單的任務(如訂餐或回覆電子郵件)到複雜的任務(如軟件工程或運行業務)。然而，在這些和其餘現實任務中的表現是不容易衡量的，由於它們不具有獎勵函數。相反，任務的目標只能經過人類用戶的意圖間接得到。
這須要找好一條道路。一方面，咱們但願ML可以創造出像AlphaGo的第37步棋這樣的創造性和卓越的解決方案——這是沒有人會推薦的一步棋，但它徹底把遊戲轉向了AlphaGo。另外一方面，咱們但願避免致使非預期的行爲的惡化解決方案，好比利用環境模擬器中的一個bug。爲了區分這兩種結果，咱們的智能體須要瞭解其用戶的意圖，並經過其行爲穩健地實現這些意圖。咱們將此定義爲智能體對齊問題：
咱們如何建立符合用戶意圖的智能體？
在此基礎上，提出了一種解決智能體對齊問題的研究方向。咱們之前人的分類學和問題定義爲基礎，強調人工智能安全領域中易於處理和被忽視的問題。咱們將這些問題合併成一個連貫的圖像，並解釋解決它們如何能產生一個解決智能體對齊問題的方案。

經過獎勵建模對齊。第3節介紹了咱們在強化學習框架中對智能體對齊問題的處理方法。咱們將該問題分爲兩部分：(1)從用戶的反饋中學習一個獲取了用戶意圖的獎勵函數；(2)經過強化學習訓練策略來優化所學習的獎勵函數。換句話說，咱們把學習要實現什麼和學習如何實現它分開。咱們把這種方法稱爲獎勵建模。圖1簡要說明了這個設置。
當咱們將獎勵建模擴展到複雜的通常領域時，咱們預計會遇到許多挑戰(第4節)。這些挑戰的嚴重性以及可否克服目前是一個開放的研究問題。第5節討論了一些可能有用的方法。
最終，咱們但願將獎勵建模擴展到人類沒法直接評估的過於複雜的領域。要將獎勵建模應用於這些領域，咱們須要加強用戶評估結果的能力。在3.2節中，咱們描述瞭如何遞歸地應用獎勵建模:使用獎勵建模進行訓練的智能體能夠在訓練下一個智能體時幫助用戶進行評估。
咱們的目標是訓練對齊的智能體，可是咱們如何知道咱們何時達到了這個目標呢？在現實世界中部署智能體時，咱們須要提供證據，證實咱們的智能體其實是充分對齊的，以便用戶可以信任它們。第6節討論了5種不一樣的研究方法，它們能夠幫助咱們增長對智能體的信任:設計選擇、測試、可解釋性、形式驗證和理論保證。

迫切需求。咱們對智能體對齊問題的解決方案旨在實現如下三個特性。
可伸縮性。隨着ML性能的提升，對齊變得更加劇要，任何不能與智能體一塊兒伸縮的解決方案都只能做爲權宜之計。咱們但願對齊技術可以在長期內持續發揮做用，即可以擴展爲在普遍的通常領域具備超人性能的智能體。
經濟性。爲了消除創建非對齊智能體的動機，訓練對齊智能體在成本和性能方面不該比其餘訓練智能體的辦法面臨更多缺點。
實用性。每一個領域都有還沒有解決的問題，即便咱們的理解已經成熟到足以解決許多實際問題，這些問題仍然存在。物理學家們尚未成功地將重力與其餘三種基本力統一塊兒來，但在實踐中，咱們對物理學的瞭解足以飛到月球和製造GPS衛星。相似地，咱們也不打算爲全部的安全問題擬定一個解決方案。相反，咱們的目標是一個最小可行的產品，足以在實踐中實現智能體對齊。同時在咱們的系統中達到100%的信任是不可能的，也是沒必要要的：咱們只須要達到一個信任的水平，在這個水平上，咱們能夠自信地說，咱們的新系統比現有系統更加對齊。

假設。咱們的研究方向基於兩個假設。第一個假設基於瞭解他人的意圖很是容易這種直覺，大多數人都能作到。雖然這樣作涉及到理解許多內在的模糊概念，以便理解其餘人想要什麼，但若是咱們有足夠的標記數據，機器學習在內在的模糊概念(例如，貓和狗在視覺上的區別)學習估計器方面已經取得了至關大的成功。所以，咱們彷佛能夠合理地指望咱們也能夠學習捕獲了理解用戶意圖所必需的任何模糊概念的評估器，而不用正式地指定它們。此外，一些用戶意圖可能缺少簡單、清晰的形式化，所以可能須要學習規範。
假設1 咱們能夠以足夠高的精度瞭解用戶意圖。
在談到AI安全問題時，該假設認爲在實踐中咱們能夠學會避免各類規範問題。換句話說，咱們假設有足夠的模型容量和正確的訓練算法，能夠從數據中提取用戶的意圖。不用說，現有的可伸縮機器學習技術存在許多問題，好比面對對抗干擾輸入時的脆弱性，以及訓練分佈以外的糟糕性能，這些問題與上述說法相關，但並不矛盾。
第二個假設基於另外一種直覺，對於咱們關心的許多任務，用戶在環境中評估結果要比直接教授行爲更容易。若是這是正確的，這意味着獎勵建模可讓用戶訓練智能體來解決他們本身沒法解決的任務。此外，這個假設容許咱們經過遞歸應用獎勵建模從簡單的任務引導到更通常的任務。
假設2 對於咱們想要解決的許多任務，評估結果比產生正確的行爲更容易。
咱們在這裏使用的更容易的概念能夠從所需的工做量、努力程度或洞察數量來理解。咱們也能夠理解這個術語相似於計算複雜性理論中的困難這種更爲正式的概念。
有一些假設2不正確的例子：例如，具備低維度結果空間的任務(例如yes & no問題)。可是，只要用戶但願獲得答案的解釋，就會恢復這種假設，由於對解釋的評估一般比生成解釋更容易。

免責聲明。須要強調的是，咱們在這裏描述的研究方向在執行時的成功是不能保證的，它不該該被理解爲一個計劃，來實現智能體對齊。相反，它概述了哪些研究問題會告訴咱們獎勵建模是不是一種可伸縮的對齊解決方案。
咱們沒有考慮關於偏好有效負載的問題：智能體應該與誰的偏好對齊?如何對不一樣用戶的偏好進行彙總和權衡？智能體何時不該該服從？咱們聲稱所描述的方法與道德規範、用戶的偏好以及法律或社會框架無關，只要咱們可以提供足夠的反饋(儘管偏好負載可能會影響所需的反饋量)。這些問題被視爲超出了本文的範圍，儘管它們具備明顯的重要性。相反，本文的目的是從技術的角度討論智能體對齊問題，將單個智能體對齊到單個用戶。

2 智能體對齊問題
圍繞對齊問題的討論由來已久，能夠追溯到科幻小說(阿西莫夫，1942)。在一個故事中，阿西莫夫提出了三個機器人定律，旨在使機器人對齊他們的操做員：故事接着指出了這些定律的缺陷。自那時起，智能體對齊問題就獲得了哲學家們的呼應，並受到技術做者的非正式對待。智能體對齊問題的第一個正式處理是由Dewey(2011)提出的，並在此基礎上進行了改進。
咱們將智能體對齊問題框定爲一個順序決策問題，其中智能體在多個(離散的)時間步上順序地與環境交互。在每個時間步中，智能體執行一個動做(例如移動或鍵盤敲擊)並接收一個觀測(例如照相機圖像)。智能體的動做由其策略指定，策略是當前歷史記錄(到目前爲止所採起的動做和接收到的觀測結果的序列)到下一個動做分佈的映射。此外，智能體能夠經過交互協議與用戶交互，該交互協議容許用戶將其意圖傳達給智能體。在此未指定交互協議以保持靈活性。智能體對齊問題的解決方案是一種策略生成行爲，該行爲符合用戶的意圖(所以並不只僅由環境決定)。
在文獻中已經探索了許多交互形式：提供一組所需行爲的示例；提供分數、行爲、值、優點或軌跡偏好形式的反饋；提供明確的目標函數。
交互的一種特殊狀況是強化學習，用戶指定一個獎勵函數，該函數除了提供在每一個時間步中的觀測，還提供標量獎勵；智能體的目標是選擇行動最大化平均或指數折扣獎勵。

2.1 設計規範問題
解決智能體對齊問題須要解決全部的設計規範問題。當智能體的動機與用戶但願智能體達到的目標不一致時，就會出現安全問題。規範問題的例子包括如下不良激勵：
關斷問題：智能體一般被激勵去關閉本身或阻止本身被關閉。
反作用：智能體不被激勵去減小與其主要目標無關的影響，即便這些影響是不可逆轉的或難以逆轉的。
監管缺位：智能體在不受監管的狀況下，被鼓勵尋找捷徑和欺騙，並禁用其監控系統。
抑制漏洞:智能體可能有動機禁用或規避任何限制其操做範圍的抑制措施。
子代理的建立:代理可能有動機建立其餘潛在的不對齊的代理，以幫助其實現目標。
…

目前機器學習中廣泛使用的是非對齊目標：一般使用BLEU score來衡量翻譯的準確性。Inception score和Frechet Inception distance用來衡量生成模型的圖像質量。然而，這些度量方法與咱們的意圖並不對齊：它們不能很好地表明實際性能，而且在直接優化時產生退化的解決方案。

2.2 智能體對齊的難度
如下兩個方面能夠調整對齊問題的難度。特別是，若是咱們但願使用ML來解決複雜的實際問題，咱們可能須要可以處理這些問題的最困難的組合。

任務的範圍。智能體對齊問題的難度取決於任務的多個方面。其中一些使智能體更容易產生有害行爲，而另外一些則使理解用戶的意圖變得更加困難。
任務的複雜性。任務越複雜，智能體須要瞭解用戶意圖的細節就越多。
環境中執行機構的性質和數量。與經過web瀏覽器與internet交互的智能體相比，單個機器人手臂受到的約束更大。
任務中出現不可接受結果的機會。例如，在爲用戶選擇音樂時，形成損害的可能性比打掃房間時要小。

智能體的性能。當訓練強化學習(RL)智能體時，存在着各類各樣的槓桿來提升或阻礙它們的性能：算法的選擇，例如：A3C和IMPALA。訓練步驟的數量、訓練環境的選擇、模型容量、規劃範圍、蒙特卡洛樹搜索推出的數量。智能體的性能越高，越有可能產生意想不到的意外行爲。另外一方面，更高的性能水平也可能致使更加對齊的行爲，由於智能體在避免不安全狀態方面更有能力。所以，不一樣級別的智能體性能容忍不一樣程度的失調，並要求在系統中有不一樣程度的信任。

3 伸縮獎勵建模
訓練RL智能體的現代技術能夠分解爲Q-learning或策略梯度算法選擇和通用函數近似器的架構選擇。目前最成功的函數逼近器是利用反向傳播訓練的深度神經網絡。這些是低誤差和高方差參數估計量，每每消耗大量數據，易於過擬合，但有良好的縮放到很是高維問題的歷史。
近年來，機器學習領域在設計愈來愈強大的深度強化學習算法方面取得了長足的進步，不管是源自Q-learning的基於價值的方法，仍是基於策略梯度的方法。主要的改進源自於將深度RL擴展到跨多個機器的分佈式設置。
RL範式是足夠通用的，基本上咱們能夠用這個範式描述全部在計算機上能夠完成的具備經濟價值的任務(例如與鼠標和鍵盤交互)。然而，要使深度 RL在現實世界中發揮做用，還有許多挑戰須要解決；特別是，咱們須要算法可以在沒有人工設計獎勵函數的狀況下，按照預期完成複雜的任務。
在接下來的章節中，咱們將詳細描述咱們解決對齊問題的研究方向。它是在深度強化學習的背景下進行的。雖然這個方向很大程度上依賴於強化學習框架，但咱們討論的大多數挑戰和方法本質上並不依賴於深度神經網絡，能夠使用其餘可伸縮函數逼近器來實現。

3.1 獎勵建模
咱們的研究方向圍繞獎勵建模。用戶經過提供反饋，訓練獎勵模型來了解他們的意圖。這個獎勵模型爲與環境交互的強化學習智能體提供獎勵。這兩個過程同時發生，所以咱們在循環中讓用戶來訓練智能體。圖1顯示了基本設置。

圖1:獎勵建模設置示意圖:使用用戶反饋訓練獎勵模型;該獎勵模型爲與環境交互進行RL訓練的智能體提供獎勵。

近年來，利用深度神經網絡從不一樣形式的獎勵反饋中進行原型學習的研究愈來愈多。這包括軌跡偏好、目標狀態示例、演示及它們的組合。

信用分配。要想出色地完成一項任務，就須要解決信用分配問題：如何將結果歸因於過去採起的具體動做？例如，棋盤上哪些動做致使了這場比賽的勝利？哪些操縱桿動做能夠增長遊戲得分？因爲獎勵的領域和稀疏性，這個問題可能很難解決。
相反，獎勵建模容許咱們將解決信用分配問題的負擔從用戶轉移到智能體。這是經過使用RL算法來產生被用戶判優的行爲來實現的，用戶只須要評估結果。若是假設2是真的，那麼教授一個獎勵函數比執行任務自己更容易。
一些反饋協議，例如演示和價值/優點反饋，要求用戶知道如何在任務上產生近似最優的行爲。這是有限制的，由於它把解決信用分配問題的責任推給了用戶。在這些狀況下，遵循用戶誘導的行爲一般不會致使很強的超人性能。相反，獎勵建模也與用戶提供的關於最佳行爲的提示相兼容。若是用戶對信用分配問題有所瞭解，他們能夠使用獎勵塑造來教授一種與這種行爲方向相關的獎勵函數。

獎勵建模的優勢。將獎勵函數與智能體的策略分開來學習，能夠使咱們將智能體的目標與其行爲區分開來。若是咱們理解了獎勵函數，咱們就知道了智能體在優化什麼；特別是，咱們知道它的意圖是否與用戶的意圖對齊。這有三個優點，能夠幫助使獎勵建模更經濟:
用戶沒必要對智能體和環境之間的每一次交互都提供反饋，有時咱們能夠直接從用戶反饋中訓練策略。因爲深度RL算法每每是很是採樣低效的(例如，須要花費數週的時間來學習如何玩Atari遊戲)，在每次交互中提供反饋一般是不實際的。
咱們能夠區分策略的對齊性和獎勵模型的對齊性。
咱們能夠經過將一個功能更強大的智能體插入到咱們的獎勵建模設置中來利用深度RL智能體的進展。
用戶不須要解決信用分配問題。

設計規範的問題。獎勵建模的目標是解決全部的設計規範問題：咱們所須要作的就是爲智能體提供「正確的」獎勵函數——這個獎勵函數不包括上面列出的非預期的獎勵，也不懲罰任何由它們致使的行爲。上面的設計規範問題是模糊的人類能夠理解的概念，源於用戶不但願智能體作什麼的意圖。咱們的方法基於假設1，即咱們應該可以向咱們的智能體教授這些概念；若是咱們可以提供正確的數據，而且獎勵模型可以正確地通常化，那麼咱們應該可以以足夠高的精度學習這個「正確」的獎勵函數。所以，設計規範問題應該消失。從這個意義上講，獎勵建模是這類安全問題的一站式解決方案。
爲了證實這個想法，考慮這個簡單的存在證實：讓H是一個歷史集合，它們對應於避免了上面列出的全部規範問題的對齊行爲。若是H集非空,則存在一個獎勵函數r，任何相應的最優策略π_r^*從H產生行爲的機率爲1。一個簡單的例子，這樣的獎勵函數r每隔幾步就獎勵一次智能體，當且僅當它的歷史是集合H的一個元素。理論上，咱們能夠選擇這個獎勵函數r來訓練咱們的RL智能體。然而,在實踐中咱們還須要考慮咱們的獎勵模型是否有足夠的能力來表示r, r是否能夠從一個合理的數據量中學習(考慮到咱們的模型的概括誤差),獎勵模型是否正確通常化,以及RL智能體的最終行爲是否產生了與H足夠接近的行爲。咱們在第四節討論這些挑戰。

學習理解用戶反饋。人類經過直接提供標量獎勵訓練RL智能體方面一般作得不好；他們一般教授一種成形的獎勵函數，並提供依賴於智能體策略的獎勵。反饋的哪一種形式或組合對哪一個領域有效是目前一個開放的研究問題。從長遠來看，咱們應該設計出可以適應人類反饋方式的算法。然而，這提出了一個自舉問題：若是一個算法自己不知道如何解釋反饋，那麼咱們如何訓練它去學習解釋反饋呢？咱們須要擴展咱們的反饋「語言」來和獎勵模型交流意圖，從已經創建好的反饋形式(如偏好標籤和演示)開始，並在每一步利用咱們現有的反饋「詞彙表」。下一節中介紹的獎勵建模的遞歸應用就是解決這個問題的一種方法。

3.2 遞歸獎勵建模
在某些任務中，人類用戶很難直接評估結果。有許多可能的緣由：結果域可能極其技術化(例如x86機器代碼),高度複雜(如公司網絡或摺疊的蛋白質),很是高維(如神經網絡的內部激活),有延遲的影響(例如,一個新的基因引入現有的生態系統),或者對人類而言不熟悉。這些任務不可能經過無人幫助的獎勵建模來解決。
爲了將獎勵建模擴展到這些任務，咱們須要提升用戶提供反饋的能力。本節描述了一種咱們稱爲遞歸獎勵建模的潛在解決方案：利用在更窄領域更簡單任務中使用獎勵建模進行訓練的智能體，來訓練在更通常的領域中更有能力的智能體。

設置。想象重複下面的過程。第1步，咱們使用上一節中描述的來自用戶反饋的獎勵建模來訓練智能體A_1。第k步，咱們使用智能體A_(k-1)協助用戶在訓練A_k時評估結果。這種幫助能夠採起多種形：提供相關的輔助信息、彙總大量數據、解釋智能體A_k的內部結構、解決用戶劃分的子問題，等等。有了這種幫助，用戶就能夠提供反饋來培訓下一個智能體A_k (參見圖2)。注意智能體A_(k-1)訓練來解決的任務是協助評估A_k任務的結果,不一樣於A_k訓練來解決的任務。
雖然這種順序訓練在概念上更清晰，但在實踐中，聯合訓練全部這些智能體以確保它們在正確的分佈上獲得訓練可能更有意義。此外，全部這些智能體均可能共享模型參數，甚至把同一智能體實例化的副本做爲對抗遊戲中的不一樣角色。

圖2:遞歸獎勵建模: 智能體A_(k-1)與用戶交互,輔助評估過程來訓練獎勵模型和智能體A_k。遞歸地應用，容許用戶在日益複雜的領域中訓練智能體，在這些領域中，智能體沒法本身評估結果。

舉例。例如，考慮假設的奇幻做者任務：咱們想訓練一個智能體A寫一本奇幻小說。向這個智能體提供獎勵信號是很是困難和昂貴的，由於用戶必須閱讀整本小說並評估其質量。爲了改善這個評估過程，智能體將幫助用戶提供輔助輸入：提取的情節概要、檢查拼寫和語法、總結角色發展、評估散文流暢性，等等。這些任務都比寫小說要簡單得多，由於它們只關注書的一個方面，須要的文本要少得多(例如，與小說做者不一樣，這種評估幫助能夠由大多數受過教育的人來完成)。這個助理智能體執行的任務將依次使用獎勵建模進行訓練。
另外一個例子是學術研究任務：咱們想要訓練一個智能體來執行一系列的實驗並寫一篇研究論文。爲了評價這篇研究論文，咱們訓練了另外一個智能體來審覈實驗的執行是否正確，論文是否清晰，文筆是否優美，是否有趣，是否新穎，是否準確的反映了實驗結果。雖然寫一篇優秀的論文須要不少領域的專業知識、才華和辛勤的工做，但評估研究成果的質量一般要容易得多，並且一般由大量的對等評審員完成。
遞歸獎勵建模也有點相似於人類組織。想象一下，在一個公司裏，每一個經理只須要評估其下的各個員工報告的表現，相應地增長和減小他們的工資。若組織內造成其餘小組來協助這項評估，經理就能夠轉而根據小組的表現獲得評估。這個計劃一直進行到CEO，來給直接報告的經理進行指導。在這個類比中，用戶能夠插入到層次結構的每一個部分：教單個員工如何執行他們的工做，教經理如何評估他們的報告，並向CEO提供指導。若是這家公司的每一位員工都能勝任本身的工做，那麼整個公司就能大規模地解決很是複雜和困難的問題，而這些問題單靠我的是沒法在短期內解決甚至評估的。
討論。爲了讓這個遞歸訓練過程擴展，和智能體A_k的任務相比，智能體A_(k-1)的任務須要是一個在較窄的領域內更簡單的任務。若是評估結果比產生行爲更容易(假設2)，那麼遞歸獎勵建模將構建一個智能體層次結構，該層次結構將變得愈來愈強大，可以執行愈來愈廣泛的任務。所以，遞歸獎勵建模能夠被看做是獎勵建模代替監督學習或模仿學習的迭代放大的實例。
隨着k的增長，用戶在整個評估過程當中所佔的工做量愈來愈小，愈來愈依賴於其餘智能體的幫助。從本質上說，用戶的反饋變得愈來愈重要。咱們能夠想象用戶的貢獻是在一個愈來愈高的抽象級別上，或者是在一個愈來愈粗的粒度上。所以，一旦用戶確信自動化系統可以勝任這些任務，即一旦用戶信任這些系統，那麼用戶就能夠留下愈來愈多「須要填寫」的細節給自動化系統。
用戶應該如何分解任務評估？它們須要爲前一個智能體分配更簡單的評估輔助任務，並將結果合併到一個聚合評估中。這種分解須要詳盡：若是咱們忽略了評估任務結果的一個方面，那麼新的智能體A_k可能會以任意(即不理想的)方向對其進行優化。這是咱們但願經過遞歸獎勵建模解決的另外一個問題：咱們可讓智能體A_2提出一個任務評估的分解，並讓另外一個智能體A_1對其進行評論，暗示分解忽略的方面。或者，也能夠基於下游的實際結果進行分解建議的反饋。
一個重要的開放問題是，錯誤是否會累積：更狹隘的智能體A_(k-1)的錯誤是否會在智能體A_k訓練時致使更大的錯誤？或者，咱們是否能夠將訓練過程設置爲可自我糾正的，從而抑制較小的錯誤(例如，使用智能體集合、訓練智能體來積極尋找和抵消這些錯誤，等等)? 若是偏差累積是有界的，而且獎勵模型能夠產生對齊的智能體，那麼使用遞歸獎勵建模訓練的智能體的層次結構能夠被認爲是對齊的，相似於經過概括證實天然數命題。

複雜性理論的類比。在獎勵建模設置中，智能體提出由用戶評估的行爲。這在概念上相似於求解存在量化的一階邏輯公式，如∃x.φ(x)。智能體提出一個行爲x，用戶評估該行爲的質量。爲了簡化這個類比，讓咱們假設用戶的評估是二進制的，這樣述語φ就能夠捕捉到它。
經過遞歸獎勵建模，咱們能夠解決相似於涉及交替量詞的更復雜的一階邏輯公式的任務。例如，∃x∀y.φ(x,y)對應於遞歸的下一個階段：智能體A_2提出了一個行爲x，智能體A_1響應了一個輔助行爲y。而後用戶評估遵循x的輔助y (訓練智能體A_1)和在輔助y下的輸出x (訓練智能體A_2)。在遞歸深度k增長時，咱們就能夠針對包含k個交替量詞的問題。
當使用多項式有界量詞和一個能夠在多項式時間內計算的公式φ時，獎勵建模相似於解決NP徹底問題：非肯定性執行器(相似於智能體)提出了一個解決方案，該解決方案能夠在肯定的多項式時間內(由用戶)評估其正確性
例如, 在一個給定的圖中發現一個環,每個頂點剛好訪問一次(哈密頓環問題)是NP徹底的：它能夠用指數時間與已知的算法在最壞狀況下找到一個環,但鑑於環能夠快速驗證,每一個頂點只訪問了一次。
這種對複雜性理論的類比最先由Irving等人提出，它提供了兩個重要的看法：
人們廣泛認爲複雜性類別P和NP是不相等的，這支持假設2：對於許多相關問題，評估比生成解決方案更容易。
基本上，數學家們關心的每個形式命題均可以寫成一個具備有限數量的交替量詞的一階邏輯命題。這代表遞歸獎勵建模能夠覆蓋很是通常的任務空間。

4 挑戰
獎勵建模的成功與否在很大程度上取決於獎勵模型的質量。若是獎勵模型只捕獲目標的大部分方面，而不是所有，這可能致使智能體找到不理想的退化解決方案。換句話說，智能體的行爲以一種潛在的很是脆弱的方式依賴於獎勵模型。
將獎勵建模擴展到更困難和更復雜的任務也會帶來許多其餘挑戰：是否負擔得起學習正確的獎勵函數所需的反饋量？咱們可否學習一個對狀態分佈變化具備魯棒性的獎勵函數？咱們可否防止智能體在獎勵模型中發現漏洞？咱們如何在不可接受的結果發生以前預防它們？即便獎勵模型是正確的，咱們如何訓練智能體穩健地產生由獎勵模型激勵的行爲？
這些挑戰中的每個都有可能阻止咱們擴展獎勵建模。在本節的其他部分中，咱們將更詳細地討論這些挑戰。咱們並不認爲這一挑戰清單是詳盡的，但但願它包括最重要的挑戰。第5節討論了緩解這些挑戰的具體方法；有關概述，請參見圖3。咱們提出的研究方向的目標是調查這些方法，以瞭解它們是否以及如何克服這些挑戰。

圖3:擴展獎勵建模時的挑戰以及咱們討論的解決這些挑戰的方法。最右邊的列列出了每種方法要解決的挑戰。

4.1 反饋量
在來自正確分佈的無限數據的限制下，咱們能夠使用足夠的模型容量學習正確的獎勵函數(在極端狀況下使用查找表)。然而，一個關鍵的問題是，在現實預算下，咱們生成或標註的數據量是否可以使獎勵模型得到足夠的精度。歸根結底，這是一個在狀態分佈上的泛化效果如何的問題：咱們的模型泛化得越好，咱們就能從現有的數據中擠出越多的東西。
頗有可能，若是須要學習和咱們想教的用戶意圖（心理、合做、公平、自我模型等）高度相關的高級概念，那麼智能體對齊問題對已經在足夠普遍的現實任務上很高效的智能體來講其實是更容易的。若是這是真的，那麼和與這些概念相關的對齊獎勵函數交流的工做量可能比從頭開始學習要小得多。
另外一方面，不具備人類概括誤差的智能體可能會以使人驚訝或不理想的方式解決任務，這一點從反例(Szegedy et al., 2013)能夠看到。這意味着對齊一個智能體可能須要的不只僅是大量的標記數據；咱們可能還須要爲咱們的模型提供正確的概括誤差。

4.2 反饋分佈
機器學習模型一般只能對和訓練時來自相同分佈的輸入提供有意義的預測。然而，咱們但願獎勵模型在策略外，對智能體從未訪問過的狀態也是準確的。因此(1)鼓勵智能體探索它沒有訪問過的正價值軌跡，(2)阻止智能體探索不但願看到的負價值軌跡，是相當重要的
這個問題被稱爲分佈移位或數據集移位。這種分佈轉移問題一樣適用於智能體的策略模型；觀察分佈的變化可能使策略輸出無效。然而，對於獎勵模型，這個問題更爲重要，在某些狀況下，若是獎勵模型仍然無缺，那麼策略能夠經過微調恢復。
目前還不清楚這個問題的原則性解決方案是什麼。在沒有這種解決方案的狀況下，咱們能夠依靠分佈外檢測來服從人類指望，或者將訓練分佈擴大到包括全部相關狀況。

4.3 獎勵黑客
.獎勵黑客是指在肯定獎勵的過程當中，利用漏洞使智能體得到比預期更多獎勵的一種效應。這個問題很難解決，由於這些漏洞必須從像AlphaGo的第37步棋等理想的創造性解決方案中加以界定。
非預期漏洞的來源是獎勵博弈，其中智能體利用了獎勵函數中的一些錯誤規範，以及獎勵篡改，其中智能體干擾了計算獎勵的過程。

獎勵博弈。當獎勵函數錯誤地給一些不但願的行爲提供了高獎勵時，獎勵博弈的機會就會出現；具體示例見圖4。獎勵博弈的一個潛在來源是獎勵模型對對抗性輸入的脆弱性。若是環境足夠複雜，智能體可能會去想如何專門設計這些對抗擾動輸入，從而欺騙獎勵模型，使其提供高於用戶預期的獎勵。不像大多數產生對抗性例子的工做，智能體不可以自由地合成任何可能的輸入到獎勵模型中，可是會在其環境中找到一種方法實現對抗性觀察序列。
獎勵博弈問題原則上能夠經過改進獎勵模型來解決。這是否意味着獎勵博弈問題也能夠在實踐中被克服能夠說是最大的開放問題之一，也多是獎勵建模最大的弱點。然而，文獻中也有一些例子代表獎勵博弈在實踐中是能夠避免的。對一個學習到的獎勵函數進行強化學習在gridworlds，Atari遊戲和連續電機控制任務中都已經成功。

圖4:Atari遊戲獎勵模型的一個例子。從最好的種子開始的徹底訓練的獎勵模型被凍結，並用於從頭開始訓練一個新的智能體。圖中顯示了訓練過程當中根據雅達利獎勵(黑色)的平均真實集收益和根據凍結獎勵模型(綠色)的平均集收益。隨着時間的推移，智能體學會利用獎勵模型：感知的性能(根據獎勵模型)增長，而實際的性能(根據遊戲分數)直線降低。

獎勵篡改。獎勵篡改問題能夠按照干預了獎勵過程的哪一部分來分類。智能體可能會干擾的獎勵過程的關鍵組成部分包括對獎勵模型的反饋，獎勵模型用來肯定獎勵的觀測，實現獎勵模型的代碼，以及持有獎勵信號的機器寄存器。
例如，《超級馬里奧世界》容許智能體從遊戲內部執行任意代碼，理論上容許智能體直接爲本身編寫更高的分數。現有的諸如此類篡改的例子有些是人爲設計的，這在實踐中多是問題，也可能不是問題，取決於咱們如何仔細地遵循良好的軟件設計原則(例如，避免緩衝區溢出)。
與上面討論的獎勵博弈不一樣，獎勵篡改會繞過或改變獎勵模型。這可能須要一組不一樣的解決方案；與其提升獎勵模型的準確性，還不如增強獎勵模型軟硬件的完整性，並對其進行反饋訓練。

4.4 不可接受的結果
目前，大多數關於深度強化學習的研究都是在不存在不可接受結果的模擬環境中進行的；在最壞的狀況下，模擬程序能夠終止並從初始狀態從新啓動。然而，當在任何現實世界的任務中訓練一個強化學習智能體時，會有許多結果代價過於昂貴，智能體須要徹底避免它們。例如，有些郵件是私人助理永遠不該該寫的；物理機器人採起破壞自身硬件或傷害附近人類的行動；烹飪機器人可能會使用有毒原料；等等。
避免不可接受的結果有兩個困難方面。首先，對於複雜的任務，環境中老是有未知的部分，智能體須要安全地探索它們。解決的關鍵在於，智能體須要在不訪問不安全狀態的狀況下了解它們。其次，智能體須要對可能致使其無心中產生不可接受結果的擾動作出強有力的反應，例如分佈變化和對抗輸入。

4.5 獎勵-結果差距
獎勵-結果差距表現爲獎勵模型與從智能體的策略中經過徹底反強化學習恢復的獎勵函數(智能體彷佛在優化的獎勵函數)之間的差別。即便咱們給智能體提供了一個正確對齊的獎勵函數，獲得的行爲仍然多是不對齊的，由於智能體可能沒法收斂到最優策略：即便是可證實的貝葉斯最優智能體也可能由於缺少探索而沒法收斂到最優策略。
形成獎勵-結果差距的緣由有不少：獎勵可能太過稀疏，形狀不佳，或者數量級錯誤；因爲超參數設置不當，訓練可能會過早中止；智能體可能在學習過程當中探索不足或產生非預期行爲；智能體可能會面臨各類穩健性問題，如外部引發的狀態空間分佈變化或面臨對抗輸入。根據獎勵-結果差距的性質，獎勵模型可能須要根據智能體的具體缺點(例如，遠離不安全狀態)進行調整，而不是僅僅捕捉人類的意圖。

5 方法
本節將討論一些方法，它們都有助於緩解第4節中討論的問題。這些方法應該被認爲是探索的方向；還須要更多的研究來肯定它們是否有效。

5.1 在線反饋
初步實驗代表，當獎勵模型沒有在線訓練，即與智能體並行時，會出現失敗的模型。在這些狀況下，智能體會學習利用凍結的獎勵模型。因爲沒有額外的用戶反饋，智能體發現的獎勵模型中的漏洞是沒法修正的。
若是咱們在線向智能體提供獎勵反饋，咱們就會在用戶反饋和智能體行爲之間造成一個更緊密的反饋循環。這使得獎勵模型可以適應智能體正在訪問的狀態分佈，從而減輕了一些分佈轉移問題。此外，經過在線反饋，用戶能夠發現試圖破解獎勵模型的行爲，並據此進行糾正。理想狀況下，咱們但願智能體分擔一些責任，以肯定什麼時候須要反饋，例如根據不肯定性估計(第5.9節)，由於若是不這樣作，及時提供相關反饋的成本可能會至關高。

5.2 策略外反饋
當用智能體行爲的反饋來訓練智能體時，這個反饋僅僅是基於已經發生的結果有反應的。爲了防止不可接受的結果和獎勵黑客行爲，咱們須要可以在某些結果發生以前就告知它們是不可取的。這就要求獎勵模型在策略外，即在智能體從未訪問過的狀態上是準確的。若是將策略外反饋與基於模型的RL(第5.6節)結合使用，智能體就能夠成功地避免從未發生過的不安全行爲。
用戶能夠主動提供策略外反饋，以預測潛在的陷阱。經過使用環境的生成模型來建立反事實事件的假設場景，能夠得到策略外反饋。然而，因爲會產生分佈轉移，智能體從未訪問過的狀態的生成建模可能很是困難；由此產生的視頻可能會遺漏一些重要的細節，或者讓人徹底沒法理解。所以，在抽象層面上提供策略外反饋可能更可行，例如使用天然語言。這相似於人類經過講故事和想象來了解很差的結果。

5.3 利用現有數據
大量人工製做的視頻數據和散文已經唾手可得。這些數據中的大多數目前沒有高質量的文本註釋，所以不能直接用做獎勵標籤。然而，它包含了不少關於人類意圖的有用信息。至少有兩種方法能夠利用現有的數據：使用無監督學習(如無監督的預訓練或第三人稱模仿學習)或手動註釋。

5.4 層次反饋
支持分層RL的相同論點也鼓勵對獎勵模型進行分層分解。這將容許用戶提供低級和高級的反饋。分層RL和分層獎勵模型結合起來應該很天然：若是智能體和獎勵模型之間的時間層次對齊，那麼在層次結構的每一個層次上，獎勵模型能夠訓練智能體的相應層次。這可能有助於繞過一些很是困難的長期信用分配問題。
例如，回想一下3.2節中的幻想小說做者任務。低級反饋包括拼寫、流暢性和語言語調，而高級反饋能夠針對段落級別沒法提供的情節和角色發展。

5.5天然語言
因爲咱們但願智能體可以在相同的環境中追求並實現各類各樣的目標，而且可以以一種人類天然的方式來指定這些目標，所以咱們能夠根據天然語言指令對獎勵函數進行建模。這些天然語言指令能夠看做是人類可讀的任務標籤。此外，它們提供了一個單獨的特權通道，與經過觀測通道接收的任何指令相比，該通道應該更容易保護，也更不易被欺騙。
除了提供任務標籤以外，咱們還能夠使天然語言成爲智能體的體系結構和訓練過程當中更重要的一部分。這有許多優勢。
天然語言是人類反饋的一種天然形式。若是咱們能學會將天然語言的表達轉化爲訓練獎勵模型所依據的數據集所需的嚴格格式，這將使用戶可以更有效地提供反饋。
若是使用語言來表示潛在空間，而且可能以一種人類更可預測的方式進行泛化，那麼天然語言就有可能實現更好的泛化。這也可能有助於減輕獎勵模型的分佈問題(第4.2節)：若是訓練分佈在天然語言段落的空間中至關密集，那麼可能會使分佈外的輸入很是少。
天然語言可能會帶來更好的可解釋性。特別是對於抽象的高級概念，天然語言可能比可視化的可解釋技術更適合。然而，默認狀況下，獎勵模型的表示形式可能與簡短的天然語言表達式不徹底一致，可能須要針對這個目標進行專門的訓練(不產生合理化)。

5.6 基於模型的RL
基於模型的RL智能體會學習環境的顯式模型，這種模型能夠使用規劃算法，如蒙特卡洛樹搜索。若是咱們正在訓練一個基於模型的智能體，那麼獎勵模型能夠做爲規劃搜索過程的一部分。這容許智能體使用策略外獎勵評估，評估它從未實際採起的行動，前提是獎勵模型是策略外準確的 (5.2節)。這有許多優勢：
智能體能夠經過在規劃過程當中發現不可接受的結果來避免它們(4.4節)。
智能體的模型能夠用於從用戶那裏徵求還沒有發生的結果的反饋。
智能體能夠更快地適應獎勵模型中的變化，由於它能夠在不與環境交互的狀況下使用模型將這些變化備份到價值評估。
基於模型的方法能夠經過在規劃期間使用當前的獎勵模型評估將來的結果，從而有原則地解決獎勵篡改問題(4.3節)。以這種方式規劃的智能體不會有改變其獎勵函數的動機；也不能操縱持有獎勵信號的寄存器。

5.7 邊界約束
除了學習獎勵函數，咱們還能夠學習低級或高級行爲的邊界約束，以防止不可接受的結果。阻止行爲比用大量的負面獎勵來削弱它們更有效，由於負面獎勵能夠在之後用更大的獎勵來補償(好比在獎勵黑客的狀況下)。這個問題可能會被智能體的世界模型中的錯誤放大。
這裏描述的用於訓練獎勵模型的相同技術應該應用於訓練評估邊界約束並阻止低級行爲的模型或在策略更新期間強制約束的模型。這種技術的主要缺點是它給人類增長了額外的負擔，由於他們必須瞭解哪些行爲會致使不可接受的結果。根據域的不一樣，這可能須要人得到其餘智能體輔助。所以能夠轉爲使用遞歸獎勵建模對這些智能體進行訓練(第3.2節)。

5.8 對抗訓練
爲了緩解人工對抗性輸入對神經網絡的影響，迄今爲止經驗上最有效的策略是對抗性訓練：針對對抗性擾動輸入顯式地訓練模型。
然而，如何從通常意義上嚴格定義對抗性擾動還不清楚。爲了涵蓋更通常的狀況，咱們能夠訓練智能體去明確地發現獎勵模型中的弱點和獎勵黑客攻擊的機會，以及致使不可接受的結果的最小擾動。這與紅色團隊相似，目標是發現對手可能使用的攻擊策略(例如安全漏洞)。
用戶能夠查看發現的失敗案例，並將其添加到反饋數據集中。這可能意味着更高的數據需求；所以，即便對抗性訓練解決了這個問題，它也可能使數據需求超出可承受範圍。

5.9不肯定性估計
獎勵模型的另外一個理想特徵是對其輸出不肯定性的適當表達。改進不肯定性估計帶來兩個好處:
在訓練過程當中，它能夠使用主動學習，來幫助自動化收集關於信息性最大狀態的反饋的過程。
當不肯定性很大時，例如對於不像訓練分佈的輸入，智能體能夠服從於人或退回到規避風險的決策。
最近的一些研究開發了神經網絡的可縮放近似貝葉斯方法。到目前爲止，模型集成提供了一個很是強大的基線。貝葉斯方法從關於哪些參數是正確的「認知」不肯定性中，解決了不可約的不肯定性，它隨着數據量的增長而下降；這種區別有助於主動學習。
其餘工做致力於校準神經網絡的預測，使他們的主觀不肯定性對應於他們的經驗錯誤頻率。雖然貝葉斯方法有助於校準，但在深度神經網絡的實踐中還不夠好。通過良好校準的模型能夠進行風險規避決策，可是可靠地處理分佈外狀態須要更高質量的不肯定性估計，這是目前深度學習技術所不能提供的。

5.10 概括誤差
最後，獎勵模型的一個關鍵方面是獎勵模型的概括誤差。因爲咱們沒法對獎勵模型和智能體在全部可能結果上進行訓練，咱們須要對給定的數據進行適當的概括。深度學習的成功歸因於概括誤差，如分佈式表徵和複合性，這可能也是擊敗「維度詛咒」的必要條件。進一步的概括誤差對於解決許多任務是必要的；例如卷積神經網絡因爲空間不變性，在計算機視覺應用中大大優於多層感知器。
解決獎勵模型可能須要非標準的概括誤差；例如，現代深度網絡一般使用分段線性激活函數，其線性泛化遠離訓練數據，這意味着對於極端的輸入，估計的獎勵會趨於正無窮大或負無窮大。深層模型的概括誤差受體系結構、激活函數和訓練過程的影響。愈來愈多的工做以深刻模型中的系統泛化爲目標。例如，模塊化、遞歸、潛在空間中的圖結構或天然語言、可微分外部記憶或用於執行任意算術運算的神經單元。

6 創建信任
假設咱們的研究方向是成功的，而且咱們知道如何訓練智能體按照用戶意圖行事。咱們如何才能確信咱們正在訓練的智能體確實是充分對齊的呢？換句話說，咱們如何可以確信咱們已經克服了第4節的挑戰，而且智能體的行爲充分地捕獲了人類的意圖？這須要額外的技術，使咱們可以得到咱們正在訓練的智能體的信任。
一個宏偉的目標是使安全證書的生產成爲可能，這些產品能夠做爲證聽說服第三方信任咱們的系統。這些安全證書能夠用來證實負責的技術開發、化解競爭以及證實遵照法規。安全證書的形式能夠是第三方持有的祕密測試組的分數、可解釋屬性的證據，或針對某些已創建規範的可機器檢查的正確性形式證實，等等。下面將討論在咱們的模型中構建信任的一些通用方法。

圖5：9款Atari遊戲中學習獎勵函數的對齊：散點圖顯示了從用戶偏好中學習到的獎勵(y軸)與實際Atari1000步獎勵(x軸)平均值之間的相關性。對於徹底對齊的獎勵函數，全部的點都在一條直線上。在這些實驗中，獎勵模型在一些遊戲中表現良好，如《梁騎士》、《英雄》和《Q*bert》，而在《Private Eye》、《Breakout》和《Mondezuma’s Revenge》中則表現不佳。

設計選擇。將學習目標從學習行爲中分離出來可讓咱們對最終的行爲得到更高的信任，由於咱們能夠將對獎勵模型的信任從對策略的信任中分離出來。例如，咱們能夠經過評估用戶的反饋來衡量獎勵函數與任務目標的對齊程度(見圖5)。若是咱們理解和信任了獎勵模型，咱們就能知道智能體正試圖實現什麼。若是假設2是真的，那麼獎勵模型應該比策略更容易解釋和調試。
另外一個能夠增長系統信任的設計選擇是將策略分爲兩部分：計劃生成器和計劃執行器。計劃生成器生成當前行動過程的可讀計劃。這個計劃能夠是很是高級的，如商業計劃或研究計劃，也能夠是至關低級的，如烹飪食譜。而後，用戶能夠選擇性地審查和簽署該計劃。而後計劃執行器獲取計劃並實現它。
在訓練設置、模型體系結構、損失函數等方面，清晰、易於理解的設計選擇能夠致使更可預測的行爲，從而增長咱們對最終系統的整體信任(而不是訓練一大堆端到端的參數)。特別是若是咱們設法正式指定某些安全屬性，咱們可讓它們成爲咱們智能體設計的一個明確部分。

測試。在機器學習中，對單獨的外置測試集進行評估已是一種常見的實踐。對於監督學習，訓練模型的性能是經過從相同的數據分佈中抽取的外置測試集的經驗風險來評估的。這種作法能夠很容易地應用於獎勵模型和策略，例如在一組專門設計的模擬環境中，甚至在攻擊者明確試圖在智能體中形成不當行爲的對抗狀況下。

可解釋性。可解釋性被定義爲向人類解釋或以可理解的方式表達的能力。目前普遍使用的深度神經網絡大可能是黑盒，理解其內部功能被認爲是很是困難的。然而，最近的進展使咱們有理由樂觀地認爲，咱們將可以使這些黑盒變得愈來愈透明。這包括利用t-SNE圖可視化智能體潛在狀態空間的初步工做；檢查智能體決策時的目標；評估模型對高層人類概念的存在/強度的敏感性；在循環中優化模型，使其更易於被人類解釋；在一樣由人類完成的任務中，將神經激活翻譯成天然語言；結合不一樣的交互可視化技術，這裏僅舉幾個例子。

正則驗證。神經網絡模型檢驗的最新進展爲訓練模型的正則驗證打開了大門。驗證模型的尺寸已經超過MNIST-size，超過100萬個參數，這代表驗證明際大小的RL模型可能很快就能實現。若是能夠擴大形式驗證的規模，咱們能夠嘗試驗證策略的屬性和聽從高級規範獎勵函數，包括關斷、反作用和3.1節中提到的規範問題。若是第1節中的假設1是真的，那麼這個規範不須要手工編寫，而是能夠由一個單獨的學習模型提供。然而，在這種狀況下，形式正確性證實只有在學習到的規範準確時纔有用。
爲了使驗證任務更容易，咱們的模型能夠被訓練得更容易驗證。然而，這也會致使利用學習到的規範中的漏洞的退化解決方案。這相似於獎勵黑客的問題(4.3節)，它訓練一個策略來優化一個凍結的獎勵模型(圖4)。繞過這個問題就能夠使用相同的技術成功針對獎勵黑客，例如使用用戶反饋在線學習規範(5.1節)。

理論保證。最後，更有野心的是理論基礎良好的可伸縮學習算法的開發，這些算法具備機率近似正確或樣本複雜性保證、容量聲明、校準良好的不肯定性估計等特色。不幸的是，目前流行的深度神經網絡架構和訓練技術嚴重缺少這樣的保證。

7 智能體對齊的替代方案
本文提出的研究方向並非解決智能體對齊問題的惟一可能途徑。雖然咱們認爲它是目前最有前途的探索之一，但不能保證成功。幸運的是，對於智能體對齊還有許多其餘有前途的方向。它們能夠並行地進行，甚至相互結合。本節提供概述並解釋咱們的方法如何與它們相關。咱們的清單並不詳盡；將來可能會提出更多的方向。

7.1 模仿學習
訓練對齊智能體的一種策略能夠是模仿人類行爲。一個充分模仿人類對齊行爲的智能體也應該是對齊的。如下說明適用:
數據量。雖然反饋一般能夠由非專家提供，但用於人類模仿的數據必須由該任務的專家提供。這多是更昂貴的數據，並且咱們不清楚是否須要更多或更少的數據來進行獎勵建模。
認知模仿。有可能許多人類須要認知的任務依賴於很是高級的直覺、規劃，而其餘認知過程不多在人類行爲中獲得反映。例如，經過與在不一樣領域遇到的不一樣問題進行類比，能夠得到解決問題的關鍵洞察力。單從人類行爲的數據來看，這可能很難複製和預測。
泛化。爲了發揮做用，咱們用模仿學習訓練的智能體須要持續展現高質量的行爲，即便是面對新的狀況。相似於假設2，對學習到的獎勵函數進行泛化可能比泛化行爲更容易。
性能。單獨使用模仿學習一般很難超越人類：即便是一個完美的模仿者也只能表現得和它所模仿的源同樣好；超人的性能一般來自於經過消除人類行爲中的不一致性，從而更快更可靠地執行人類行爲序列。
所以，模仿學習不太可能與其餘長期訓練智能體的策略相競爭。然而，它可能足以充當「墊腳石」：受過模仿學習訓練的智能體可能充當「研究助理」，並幫助擴大其餘對齊努力。所以，它應該被認爲是咱們研究策略的一個強有力的替代策略。

7.2 反向強化學習
咱們能夠把強化學習算法看做是從獎勵函數到行爲的映射。該映射的逆函數以智能體的行爲做爲輸入，併產生一個獎勵函數；這就是所謂的反向強化學習。從這個意義上說，反向強化學習能夠被看做是一種以行爲軌跡做爲反饋形式的獎勵建模方法。然而，照目前的狀況看，它有兩個缺點:
IRL是一個約束不足的問題，由於僅從行爲出發，獎勵函數不是惟一可識別的(甚至不能達到仿射線性變換)；例如，R=0老是一個解。若是咱們假設人是徹底理性的，智能體能夠爲人設計一系列的任務，那麼就能夠識別出獎勵函數。甚相當於人的理性的一些假設也能夠放寬，但總的來講，反向強化學習問題變得沒法解決。
它假設人類是在直接優化他們的獎勵，即便這是一種傳達他們偏好的低效方式。例如，對於一我的來講，說「我想讓你天天早上8點爲我煮咖啡」比連續幾天在8點爲本身煮咖啡要容易得多。

7.3 合做反向強化學習
基於IRL的第二個缺點，Hadfield-Menell et al.(2016)提出了合做逆強化學習(CIRL)。CIRL是一個正式的獎勵建模模型，它是一個用戶和一個智能體之間的兩我的的遊戲，照下述方式進行。
用戶和智能體從用戶獎勵函數的共享先驗開始，
而後用戶觀測他們的獎勵函數，最後
用戶和智能體都執行策略來優化用戶的獎勵函數。
CIRL遊戲的最優解決方案是使用用戶和智能體的共同知識來計算智能體的策略(在步驟3中執行)，以及從獎勵函數到用戶策略的映射。而後根據在步驟2中觀測到的它們的獎勵函數，用戶應該選擇相應的策略在步驟3中執行。用戶和智能體都必須選擇動做來權衡(1)與智能體傳達用戶的獎勵函數和(2)直接最大化用戶指望獎勵。
咱們對做爲智能體對齊方法的CIRL作了兩個觀察，突出顯示了從一些重要的細節中抽象出來的CIRL。首先，CIRL算法的性能取決於獎勵函數先驗的質量。本質上，CIRL將指定獎勵函數的問題替換爲指定獎勵函數先驗的問題。其次，計算CIRL問題的最優解是不現實的，由於咱們不能準確地規定用戶應該如何與智能體交互。換句話說，CIRL遊戲的有效解決方案可能採用一種策略，即先將參數從用戶傳輸到智能體，而後由用戶和智能體執行一個普通的RL算法(由於獎勵如今對二者都是徹底可見的)。可是若是用戶可以觀察到他們的獎勵函數，他們能夠直接將其指定給RL智能體。換句話說,智能體對齊的困難之一是獎勵函數不直接提供給用戶在第一時間：用戶一般不知道他們全部的偏好,而它可能更容易經過揭示偏好進行交流。
然而，CIRL對對齊問題有兩個重要的看法，這也激勵了咱們的研究方向:
經過構造智能體來優化潛在的獎勵函數，能夠幫助它們對齊任務。在這些任務中，當智能體訪問全部狀態-動做對時，咱們沒法一致地提供的獎勵反饋。
智能體對齊問題的一個關鍵挑戰是找到有效的方法來將用戶的意圖傳達給學習智能體。

7.4 短視強化學習
短視的RL智能體只會最大化當前時間步獎勵，而非將來獎勵的(折算)總和。這意味着它們更目光短淺，所以沒有動機去執行長期規劃或採起短時間內很差的行動來得到長期利益。特別是，短視的RL智能體可能不太容易出現3.1節中提到的一些設計規範問題，由於引發這些問題可能須要好幾個時間步來補償智能體。
有兩種主要的短視RL算法。TAMER是從人類價值反饋中學習策略的算法集合，即在下一步中採起最大化指望反饋的行動(可能使用短期平滑)。COACH是以優點函數的反饋形式訓練策略的算法。
與模仿學習不一樣的是，用戶不要求可以產生理想行爲，只須要獎勵能帶來理想行爲的獨立行爲便可。例如，使用TAMER或COACH，用戶能夠教會智能體執行後空翻，而本身卻不用會。然而，雖然短視的RL可能會增長對齊，但也會帶來性能上的缺陷。訓練短視的RL智能體將解決信用分配問題的重擔推給了用戶，限制了智能體潛在的首創性和性能，也使得用戶須要負責避免長期的負面後果。
儘管有這些限制，對於一些信用分配對人類來講至關容易的任務，短視的RL智能體可能已經足夠了。它們也能夠做爲更強大的訓練機制的構建塊，例如迭代放大。

7.5 模仿專家推理
另外一種選擇是訓練一個模型來模仿專家的推理。模仿能夠在專家決定的粒度級別上發生，而且能夠包括專家一般不會顯式執行的「內部」推理步驟。這種專家推理能夠獲得改進和加速。
最能說明基本思想的是問答系統。系統的輸入是一個問題Q，它的輸出是一個答案A。爲了簡單起見，咱們能夠將Q和A都視爲天然語言字符串。系統能夠遞歸調用自身，詢問子問題Q_1,…, Q_k，收到它們的答案A_1,…, A_k，而後把它們組合成答案A。
例如，考慮這樣一個問題Q「在丹麥有多少個菠蘿?」爲了給出一個大概的答案，咱們構造一個費米估計，經過問「丹麥的人口是多少？」，「丹麥人平均每一年吃多少個菠蘿？」，「菠蘿能儲存多長時間？」。而後，這些子問題被遞歸地回答，它們的答案能夠組合成原問題Q的答案。
咱們能夠使用與專家推理過程相同的模仿學習(7.1節)來訓練一個模型遞歸地回答問題Q。而後能夠使用多種方法對該模型進行改進：
並行和/或以更快的速度運行此模型的多個副本。
不擴展子問題的前提下，訓練一個新的模型來預測問題的答案，相似於使用一個值網絡來估計樹搜索的結果
讓專家的推理在反思下更加一致。例如，在專家的推理中尋找不一致之處並加以解決。
若是咱們相信專家推理與用戶是對齊的，那麼咱們能夠但願獲得的改進模型也是對齊的。與遞歸獎勵建模相比，此訓練過程旨在實現對最終智能體更好的可解釋性和更大信任(第3.2節)。然而，學習專家推理對於遞歸獎勵建模在經濟上可能沒有競爭力，這取決於專家的推理有多好，以及假設2是否適用於手頭的任務。
儘管二者都是更通常的迭代放大框架的實例，3.2節中描述的遞歸獎勵建模並無嘗試顯式地對專家推理建模。相反，遞歸獎勵建模只要求用戶評估結果。然而，它依賴於評估任務的分解，這與此處描述的分解推理有類似之處。在使用遞歸獎勵建模時，用戶能夠選擇對產生結果的認知過程提供反饋，但他們不須要這樣作。此外，若是策略模型不是很容易解釋，那麼在實踐中可能很難提供這種反饋。

7.6 辯論
Irving et al.(2018)描述了一種智能體對齊的思想，這種思想涉及一種兩我的的零和遊戲，兩我的都在爲用戶辯論一個問題。兩個玩家輪流輸出一個簡短的語句，直到回合限制。在遊戲結束時，用戶閱讀對話記錄，並宣佈提供最真實和最有用的陳述的玩家爲獲勝者。
辯論方案涉及在這個辯論賽中訓練一個具備自我遊戲能力的智能體。爲了保持對齊，這個智能體須要以一種收斂於納什均衡的方式進行訓練，在納什均衡中，智能體的兩個實例都試圖幫助用戶。辯論的中心假設是，智能體說真話比說謊更容易。若是這個假設成立，那麼遊戲的動態應該激勵智能體提供真實和有用的陳述。
做者在MNIST數據集上提供了初始實驗，其中辯論智能體設法提升稀疏分類器的準確性，該分類器只能訪問圖像的幾個像素。雖然這些初步實驗頗有但願，但還須要進行更多的研究，以肯定辯論是不是一種可伸縮的對齊方法。咱們須要更多的經驗證據來澄清如下兩個問題。
辯論的中心假設是否存在於容易驗證事實的陳述以外？
即便辯論者具備較強的說服和欺騙能力，人們是否可以準確判斷辯論？

7.7 其餘相關工做
Amodei等人(2016)已經討論了咱們在這裏提出的獎勵建模的許多實際挑戰：安全探索、分佈轉移、反作用和獎勵黑客攻擊。特別是，做者強調了他們所謂的可伸縮的監督問題，即如何訓練具備稀疏人工反饋的RL智能體。這能夠理解爲咱們這裏要解決的對齊問題的一個更窄的版本。本着相似的精神，Taylor et al.(2016)調查了一些關於智能體對齊的高級開放研究問題。與咱們的方法最密切相關的是做者所稱的知情監督(構建有助於解釋結果的系統)、可泛化的環境目標(根據環境狀態定義目標函數)和避免工具激勵(防止系統對某些不良的子目標進行優化)。
Soares & Fallenstein(2017)提出了一個大相徑庭的研究議程。他們的研究問題與範式無關，而是關注數學智能體模型的理論基礎。特別是，他們的許多問題旨在解決將當前的最優行爲概念應用於其環境的一部分的智能體時所遇到的感知困難，由此並未清晰描述它。做者尋求正式的工具來提出關於或與理論對齊相關的問題，例如提供一箇中止的oracle。這些正式的工具對於設計自身升級版本的智能體的正規驗證是必要的。然而，儘管在這一研究議程上取得了一些進展，一些問題被證實是至關困難的。可是，即便咱們對Soares & Fallenstein提出的問題有了正式的解決方案，將這些解決方案轉移到實際的對齊智能體上仍然存在差距。就目前而言，這些研究問題的答案應該更多地被理解爲實際對齊問題的直覺，而不是直接的解決方案自己。

8 討論
總結。咱們致力於解決的智能體對齊問題的版本,涉及將一個智能體對齊到一個用戶(第2節),而不是試圖學習整個偏好負載,咱們概述一個方法讓用戶將本身對手頭的任務的意圖傳達給智能體,以致於讓他們相信訓練的智能體。
咱們的智能體對齊研究方向是基於可伸縮獎勵建模的(第3節)，這個方向很是適合機器學習的現有工做，由於它能夠受益於監督學習(對於獎勵模型)和強化學習(對於策略)的先進技術。基於之前的工做(第7節),咱們提供更多細節,包括的主要挑戰(4節)和具體的方法來減輕這些挑戰(第五節)和對咱們訓練的智能體創建信任(第6節)。從本質上說,本文結合了在人工智能安全問題上的現有措施，提供了圍繞如何解決這些問題能夠使咱們訓練對齊智能體超出人類級別表現的一個連貫的敘事。

具體的研究項目。咱們的研究方向是爲今天的實證研究作好準備的。咱們能夠用深度強化學習智能體進行實驗：從第4節中得到關於挑戰嚴重程度的經驗數據；來自第5節的原型解決方案思想；將獎勵建模擴展到更困難的任務；推動(對抗性)測試、可解釋性、正規驗證和深度RL理論的前沿。此外,咱們能夠很容易地使用任何現有的RL基準,好比有預約程序的獎勵函數的遊戲或模擬環境：經過隱藏這個獎勵函數的算法咱們能夠僞裝它不可用,但仍用它來綜合生成的用戶反饋以及學到的獎勵模型的評估。

前景。ML有巨大的潛力對現實世界和人類生活產生積極影響。因爲大多數實際問題均可以在RL框架中進行轉換，所以深度RL是解決實際問題的一種很是有前途的技術。然而，爲了挖掘其潛力，咱們須要在沒有明確獎勵函數的狀況下對智能體進行訓練。正如對計算機視覺系統的魯棒性的前瞻性研究對於解決對抗性輸入的漏洞相當重要同樣，對齊研究對於在複雜的現實領域中突破ML系統部署的將來瓶頸也相當重要。目前，對齊智能體的研究還處於早期階段，但咱們相信有充分的理由保持樂觀。當咱們指望在擴展獎勵模型面臨挑戰時，這些挑戰是具體的技術問題，咱們能夠經過有針對性的研究來取得進展。