隨機變量(Random Variable),一般用大寫字母來表示一個隨機事件。好比看下面的例子:dom
\(X\): 河水是鹹的ide
\(Y\): 井水是甜的spa
很顯然,\(Y\), \(Y\)兩個隨機事件是沒有關係的。也就是說\(X\)和\(Y\)之間是相互獨立的。記做:code
對於一類隨機變量來講,它們之間存在着某種關係。好比:對象
\(S_{t}\):表示在 \(t\) 時刻某支股票的價格,那麼 \(S_{t+1}\) 和 \(S_t\) 之間必定是有關係的,至於具體什麼樣的關係,這裏原先不作深究,但有一點能夠肯定,二者之間必定存在的一種關係。隨着時間 \(t\) 的變化,能夠寫出下面的形式:事件
這樣就生成了一組隨機變量,它們之間存在着一種至關複雜的關係,也就是說,各個隨機變量之間存在着關係,即不相互獨立。由此,咱們會把按照某個時間或者次序上的一組不相互獨立的隨機變量的這樣一個總體做爲研究對象。這樣的話,也就引出了另外的一個概念:隨機過程(Stochastic Process)。也就是說隨機過程的研究對象不在是單個的隨機變量,而是一組隨機變量,而且這一組隨機變量之間存在着一種很是緊密的關係(不相互獨立)。記做:ci
馬爾科夫鏈(Markov Chain)即馬爾可夫過程,是一種特殊的隨機過程——具有馬爾可夫性的隨機過程。get
馬爾可夫鏈/過程 即知足馬爾可夫性質的隨機過程,記做:it
狀態空間模型(State Space Model),常應用於 HMM,Kalman Filterm Particle Filter,關於這幾種這裏不作討論。在這裏就是指馬爾可夫鏈 + 觀測變量,即Markov Chain + Obervation
io
如上圖所示,s1-s2-s3爲馬爾可夫鏈,a1, a2, a3爲觀測變量,以a2爲例,a2只和s2有關和s1, s3無關。狀態空間模型能夠說是由馬爾可夫鏈演化而來的模型。記做:
馬爾可夫獎勵過程(Markov Reward Process),即馬爾可夫鏈+獎勵,即:Markov Chain + Reward
。以下圖:
舉個例子,好比說你買了一支股票,而後你天天就會有「收益」,固然了這裏的收益是泛化的概念,收益有多是正的,也有多是負的,有可能多,有可能少,總之從今天的狀態\(S_t\) 到明天的狀態 \(S_{s+1}\) ,會有一個reward
。記做:
馬爾可夫決策過程(Markov Decision Process),即馬爾可夫獎勵過程的基礎上加上action
,即:Markov Chain + Reward + action
。若是還用剛纔的股票爲例子的話,咱們只能天天看到股票價格的上漲或者降低,而後看到本身的收益,可是沒法操做股票的價格的,只有看到份,只是一個「小散戶」。這裏的馬爾可夫決策過程至關於政策的制定者,至關於一個操盤手,能夠根據不一樣的狀態而指定一些政策,也就至關於 action。
在馬爾可夫決策過程當中,全部的狀態是咱們當作離散的,有限的集合。全部的行爲也是離散有限的集合。記做:
對於上述公式簡單說明,\(S_t\) 用來表示某一個時刻的狀態。\(A_{(s)}\) 表示在某一個狀態時候的行爲 ,這個行爲必定是基於某個狀態而言的,假設在\(t\) 時刻的狀態爲\(S\) 此時的action
記做 \(A_t\) 。\(R_t 和 R_{(t+1)}\) 只是記法不一樣,好比下面的例子:從\(S_t\)狀態通過 \(A_t\) 到\(S_{t+1}\)狀態,得到的獎勵通常記做\(R_{(t+1)}\)。 也就是說\(S_t\), \(A_t\) ,\(R_{(t+1)}\) 是配對使用的。
Reference
https://www.bilibili.com/video/BV1RA411q7wt?p=1
未完待續...今天就先寫這麼多啦~