第三章 短語挖掘和實體識別

一. 短語挖掘 1. 什麼是短語挖掘 這個的短語挖掘指的是詞彙和短語的挖掘,是一個統稱。短語挖掘輸入的是領域語料,輸出的是領域短語。領域語料是大量文章融合在一起組成的。 2. 高質量短語的評估維度 a. 頻率,一個n-gram出現的頻率越高,那麼它是高質量的文章的可能性就越高。 b. 一致性,n-gram中的單詞的搭配是否合理 b. 信息量,高質量的短語需要表達一定的主題和概念,比如「機器學習」和
相關文章
相關標籤/搜索