NLP系列學習:數據平滑

時間 2019-11-24

標籤 nlp 系列學習數據平滑简体版

原文原文鏈接

各位小夥伴們你們好,數據平滑這個地方我想使用宗成慶老師的書中的一個例子進行開始,從而引出這一篇文章的主題,咱們爲何要須要數據平滑以及經常使用的數據平滑的模型,話很少說,開始行動:算法

請看這個例子:性能

假設語料是由下面的三個句子構成:cdn

①:BROWN READ HOLY BIBLEblog

②:MARK READ A TEXT BOOK字符串

③:HE READ A BOOK BY DAVIDit

若是按照最大似然估計的方法計算p(BROWN READ A BOOK)的話:io

所以:class

可是這時候問題來了:語法

若是咱們這時候要求p(David read a book),這時候機率是多少呢?lazyload

可是根據咱們本身積累的知識,Brown和David都是人,Brown能夠看書,爲啥David不能夠看書,這個顯然是不對的,而形成這個方法的主要緣由仍是由於咱們的語料庫過小,不夠豐富,事實上咱們是但願咱們的語料庫越大越好,越全越給力,否則一旦給定你的語句的機率是0,不管你的句子書寫的多麼優美,也是達不到咱們人類的指望的效果,因此這時候咱們須要給全部可能出現的字符串一個非零的機率值來去解決這樣的問題,這就是所謂的平滑.

平滑的目的在上邊咱們已經所說,總結歸納就是解決因爲數據匱乏(稀疏)引發的零機率的問題,而所採用的方法就是從高几率語句中分出微小的機率給予零機率的句子,在宗成慶老師的書中形象的說明是」劫富濟貧」,而數據平滑是語言模型的核心的問題,宗成慶老師的書中給出了太多的算法,在這裏我只記錄幾種算法,而後貫通思路,若是你們深刻了解的話能夠本身讀書和讀宗老師提供的論文:

一:加法平滑方法

算法的基本思想是:在這裏先說一下加一法,加一法實際上是每一種狀況出現以後次數加1,即假設每一個二元語法出現的次數比實際出現的次數多一次,這樣就叫作了加一法,而加法平滑其實就是否是讓每個n元語法發生的次數比實際的統計次數多一次,而是假設比實際出現的狀況多發生△次,而且0<△<1,這就有公式: