前兩天大概研究完3DBall示例,裏面的初始化中運用了以下代碼:git
public class Ball3DAgent : Agent { [Header("Specific to Ball3D")] public GameObject ball; Rigidbody m_BallRb; IFloatProperties m_ResetParams; public override void InitializeAgent() { m_BallRb = ball.GetComponent<Rigidbody>(); m_ResetParams = Academy.Instance.FloatProperties; SetResetParameters(); } public void SetBall() { m_BallRb.mass = m_ResetParams.GetPropertyWithDefault("mass", 1.0f); var scale = m_ResetParams.GetPropertyWithDefault("scale", 1.0f); ball.transform.localScale = new Vector3(scale, scale, scale); } public void SetResetParameters() { SetBall(); } }
這裏面的m_ResetParams參數初始化讓我沒明白究竟是幹啥用的,今天翻官方文檔才發現這裏參數的意義,簡單來說其實這裏是爲了訓練出能夠適應環境改變的Agent(按官方文檔題目翻譯過來是,訓練廣義強化訓練學習代理),官方文檔中對應的是這一篇《Training Generalized Reinforcement Learning Agents》。github
下面的補充其實主要就是對這一點進行補充,同時把官方的這篇文章翻譯一遍,再加一些本身的拙見和理解。dom
在訓練agent中的一個問題就是在相同的環境中,agent會趨向於適應這種環境。如此以來,訓練出的模型就不能泛化到環境中的任何調整或者變化,說白了就是隻要環境值有任何改變,訓練出的模型就可能失效了。這就相似於在監督學習中使用相同的數據集對模型進行訓練和測試。在使用不一樣的對象或屬性隨機實例化環境的狀況下,這就有問題了。ide
爲了使agent在不一樣的環境中具備魯棒性和可泛化性,應該針對環境的多種變換對agent進行訓練。當agent使用這種方式進行訓練後,它能更好的(具備更高的性能)適應環境在將來不可見的變化。工具
爲了可使得環境多樣化,ml-agents使用了Reset Parameters
。Reset Parameters
就是Academy單例中的FloatProperties,即Academy.Instance.FloatProperties
,它只用在重置環境時使用。Ml-Agents還包含了不一樣的採樣方法併爲每一個Reset Parameter
建立了新的採樣方法(這裏不太懂是啥意思= =)。在3DBall的環境示例中,Reset Parameter
(重置參數)則爲gravity
、ball_mass
以及ball_scale
。性能
首先,咱們須要提供一種方法來修改環境,即設置一組Reset Parameters
並隨時間改變它們。這種規定能夠是肯定性的或是隨機的進行。學習
這是經過爲每一個Reset Parameter
分配一個sample-type
(如統一採樣器)來完成的,該採樣器類型決定了如何對Reset Parameter
進行採樣。若是沒有給sampler-type
提供Reset Parameter
,則參數會在訓練的過程當中始終保持默認值而且不會改變。全部管理Reset Parameter
採樣器都由Sampler Manager來處理,該管理器也能夠在須要的時候處理重置參數的新值生成。(應該就是訓練好的模型拿到Unity中,我就算任意改變小球的質量、比例、重力加速度,均可以使得模型不失效,一下子咱們能夠試試,先繼續日後看)測試
爲了安裝Sampler Manager,咱們新建一個.YAML配置文件,這個配置文件指定了咱們但願如何爲每一個Reset Parameters
生成新樣本。在這個文件中,咱們還指定了採集器以及resampling-interval
(從新採集間隔數,即模擬多少步後將重置參數從新採樣)。下面來看看3D Ball的採樣器配置文件(路徑在ml-agent源文件下ml-agents\config\3dball_generalize.yaml
)。翻譯
resampling-interval: 5000 mass: sampler-type: "uniform" min_value: 0.5 max_value: 10 gravity: sampler-type: "multirange_uniform" intervals: [[7, 10], [15, 20]] scale: sampler-type: "uniform" min_value: 0.75 max_value: 3
對以上參數進行解釋:
resampling-interval
:指定了在使用新的Reset Parameters
樣本重置環境以前,agent在特定環境配置下要訓練的步數。Reset Parameters
:Reset Parameters
的名稱集合,例如mass
、gravity
、scale
。這些名稱應該和Academy內部環境中被訓練的agent的名稱匹配(就是指在源代碼中SetBall()
方法中,設置重置參數時第一個string參數,須要和這裏的配置文件名稱相匹配)。若是環境中不存在文件中指定的參數,那麼該參數將會被忽略。
sampler-type
:指定用於Reset Parameter
的採樣器類型。這是Sampler Factory
中存在的字符串。sampler-type-sub-arguments
:根據sampler-type
指定子參數。在上面的配置文件中,sampler-type-sub-arguments
就至關於字符串爲爲gravity
的Reset Parameter
下的採樣器類型multirange_uniform
下的intervals
。鍵名應該與採樣器中相應參數的名稱匹配。(見下文)The Sampler Manager會經過Sample Factory爲每個Reset Parameter
分配一個採樣器,採樣器工廠維護了字符串鍵到採樣器對象的字典映射。
如下是該工具包中包含的採樣器類型的列表:
uniform
:均勻採樣器
通用的採樣器類型定義了兩個float類型的端點,在[min_value
,max_value
)範圍內進行均勻採樣。
min_value
,max_value
gussian
:高斯採樣器
mean
,st_dev
multirange_uniform
:多量程均勻採集器
interval_1_min
, interval_1_max
], [interval_2_min
, interval_2_max
], ...]intervals
若是你想定義一個你本身的採樣器類型,你必須首先繼承Sampler基類(在sampler_class文件中)並保留接口。一旦指定了所需方法的類,還必須在採樣器工廠(Sampler Factory)中註冊它。這一步能夠經過訂閱Sampler Factory中的register_sampler方法來完成。命令以下:
SamplerFactory.register_sampler(*custom_sampler_string_key*, *custom_sampler_object*)
以下所示,假設實現了一個新的採樣器類型CustomSampler
,而且咱們在Sampler Factory中使用字符串customsampler
註冊了CustomSampler類。
class CustomSampler(Sampler): def __init__(self, argA, argB, argC): self.possible_vals = [argA, argB, argC] def sample_all(self): return np.random.choice(self.possible_vals)
而後,咱們須要新建一個YAML文件,以下,咱們用上面新建的採樣器類型用於Reset Parameter
質量。
mass: sampler-type: "custom-sampler" argB: 1 argA: 2 argC: 3
在採樣器YAML文件定義好後,咱們就能夠啓動mlagents-learn
並使用--sampler
標誌來指定配置的採樣器文件進行訓練了。例如,咱們想用帶有config/3dball_generalize.yaml
採樣設置的Reset Parameters
來訓練具備泛化能力的3D Ball agent,那在訓練時輸入如下命令:
mlagents-learn config/trainer_config.yaml --sampler=config/3dball_generalize.yaml --run-id=3DBall_generalization --train
而後進行訓練。會發現小球的大小並非一成不變的,會在訓練的過程當中變大或者變小。
同時能夠觀察到小球的質量也會隨機改變,這還挺有意思的。附上tensorboard。
圖中紅色的線是這次加入泛化參數的訓練過程,藍色的是以前正常的訓練過程,能夠明顯看到紅色的線相交於藍色的線有明顯的凹凸,這些凹凸基本就是在改變了小球的比例、質量或者重力加速度以後改變的。
如今咱們能夠將訓練好的模型導入Unity中,試一下。
咱們把紅色框裏的agent運用剛纔泛化訓練後的模型,下面黃色框是沒有泛化訓練的模型,而後運行,咱們經過統一調整小球的比例大小,來看有什麼現象。
能夠看到,下面兩排沒有泛化的模型很快就都掉下平臺了,而最上層通過泛化的模型由於能夠適應變化而長時間還能保持平衡。經過例子來實踐一下,就立馬明白了這裏爲何一開始要對Academy.Instance.FloatProperties
進行賦值,就是爲了讓訓練出的模型具備更好的魯棒性,來適應複雜多變的環境。在3D Ball裏你去改變小球的比例、質量或是重力加速度,應該均可以使得小球處於較長時間的平衡。
總結來講,若是環境中有某些變量,那麼就能夠引用Reset Parameters
來對這些變量隨機取值進行訓練,使得咱們訓練以後的結果能夠很快適應環境的變化。
寫文不易~所以作如下申明:
1.博客中標註原創的文章,版權歸原做者 煦陽(本博博主) 全部;
2.未經原做者容許不得轉載本文內容,不然將視爲侵權;
3.轉載或者引用本文內容請註明來源及原做者;
4.對於不遵照此聲明或者其餘違法使用本文內容者,本人依法保留追究權等。