基於百度百科的相關詞推薦(1)——特徵向量提取

相關詞推薦問題就是一個計算任意兩個詞相似度的問題。 1. 製作爬蟲,獲取百科頁面,首批語料有10萬多條記錄。 2. 解析百科頁面,利用lucene 製作索引index(字段:title,id,summary)。 3.相關詞推薦算法 我們最終要獲取任意兩個詞的相似度Sim(Wi,Wj)。 基本思想:每條記錄有 title-summary 信息,對於一個詞Wi,它的summary信息就是對該詞的詳細解
相關文章
相關標籤/搜索