分散式的句子和文件表示

本文翻譯doc2vec模型的提出論文distributed representations of sentences and documents。 正式譯文如下: 摘要:許多機器學習算法需要一個固定長度的特徵向量作爲輸入,當運用到文本上時,詞袋是最常見的固定長度特徵之一,儘管很流行,詞袋特徵有兩個主要的缺點:缺少了詞語之間的順序和忽略了單詞的語義。例如,‘powerful’,‘strong’和‘P
相關文章
相關標籤/搜索