NLP詞向量發展歷程

這篇文章記錄詞向量的發展歷程,包括tf-idf、word2vec、GloVe、ELMo、OpenAI GPT以及Bert,只記錄個人認爲比較核心的內容,以及一些值得思考的邊角細節。 1、tf-idf tf-idf是一種比較傳統的文本表示方法,它首先爲每個詞計算出一個值,再組成向量來表示當前文檔。它的大小等於詞表數。首先tf是詞頻,也就是當前詞在文檔中出現的次數,通常會除以文檔總詞數來做歸一化。id
相關文章
相關標籤/搜索