LSTM+Attention+CRF的原理講解

CRF 簡單來說一組參數theta可以唯一確定一組模型,我們需要找到一組最優參數使得訓練數據中 x->y 的概率最大化。將上述最大化的目標函數P取負,轉化爲最小化問題,即可用反向傳播算法進行優化,找到近似最優參數theta。 在CRF模型中有一個簡單的假設,即當前輸出的標籤只和上一級輸出的標籤以及當前的輸入有關,所以Score(x, y)應該由兩部分組成,一個是轉移特徵概率,一個是狀態特徵概率。什
相關文章
相關標籤/搜索