word2vec and glove

傳統方法 假設我們有一個足夠大的語料庫(其中包含各種各樣的句子,比如維基百科詞庫就是很好的語料來源) 那麼最笨(但很管用)的辦法莫過於將語料庫裏的所有句子掃描一遍,挨個數出每個單詞周圍出現其它單詞的次數,做成下面這樣的表格就可以了。 假設矩陣是5W*5W維,矩陣運算量巨大。假設矩陣的每個數字都用標準32位Int表示,需要10,000,000,000個byte,也就是10GB的內存(且隨着詞彙量增加
相關文章
相關標籤/搜索