word2vec and glove

時間 2020-12-30

標籤 NLP Deep learning 欄目 Microsoft Office 简体版

原文原文鏈接

傳統方法假設我們有一個足夠大的語料庫（其中包含各種各樣的句子，比如維基百科詞庫就是很好的語料來源）那麼最笨（但很管用）的辦法莫過於將語料庫裏的所有句子掃描一遍，挨個數出每個單詞周圍出現其它單詞的次數，做成下面這樣的表格就可以了。假設矩陣是5W*5W維，矩陣運算量巨大。假設矩陣的每個數字都用標準32位Int表示，需要10,000,000,000個byte，也就是10GB的內存（且隨着詞彙量增加

>>阅读原文<<