自然語言處理之特徵提取和嵌入

時間 2020-12-20

原文原文鏈接

在經過了文本處理步驟（可參考自然語言處理之文本處理步驟）後有下列幾種方法可以進行特徵提取。 Bag of word 將這些詞變成一個索引放入一個表格中，然後每個文檔作爲一行，統計文檔中的詞出現的次數。如何計算兩個文檔之間的相似度呢？一種方法是計算兩個文章的點積，但是點積有個缺陷，只能捕捉重疊部分的，它不受其他不同值的影響，因此差別很大的兩行，這兩行比較長，和差別很小的兩行，這兩行比較短，他們的