統計詞頻並可視化

最近參加一個NLP的競賽,賽方提供了10萬條數據。因爲是脫敏數據,因此做NLP以前須要先做word2vec,這時就須要將標點符號和無心義的詞(好比「的」)去掉,咱們採用的方法就是去掉高頻詞,因此首先要找到高頻詞。 如何找到高頻詞呢, 這裏固然能夠使用dict了,可是有沒有更高級一點的方法呢。web 固然有了,咱們能夠使用collections的Counter,而且使用Pandas來替代讀取數據的解
相關文章
相關標籤/搜索