基於互信息的詞語搭配抽取

一、前言   互信息,是衡量兩個變量X和Y的相關性,對於離散信息互信息的表示如下:   對於連續性變量的定義如下:   其中p(x,y)爲聯合概率分佈函數,p(x)和p(y)爲邊緣概率分佈函數;這裏的log來自於信息理論,當取log後,就將一個概率轉換爲了信息量(要再乘以-1將其變爲正數),以2爲底時,可以簡單理解爲取多少個bits表示這個變量。 二、互信息與條件熵、聯合熵的關係   熵的定義如下
相關文章
相關標籤/搜索