自然語言處理之特徵提取和嵌入

在經過了文本處理步驟(可參考自然語言處理之文本處理步驟)後有下列幾種方法可以進行特徵提取。 Bag of word 將這些詞變成一個索引放入一個表格中,然後每個文檔作爲一行,統計文檔中的詞出現的次數。 如何計算兩個文檔之間的相似度呢? 一種方法是計算兩個文章的點積,但是點積有個缺陷,只能捕捉重疊部分的,它不受其他不同值的影響,因此差別很大的兩行,這兩行比較長,和差別很小的兩行,這兩行比較短,他們的
相關文章
相關標籤/搜索