統計詞頻並可視化

時間 2020-01-22

標籤統計詞頻可視化简体版

原文原文鏈接

最近參加一個NLP的競賽，賽方提供了10萬條數據。因爲是脫敏數據，因此做NLP以前須要先做word2vec，這時就須要將標點符號和無心義的詞（好比「的」）去掉，咱們採用的方法就是去掉高頻詞，因此首先要找到高頻詞。如何找到高頻詞呢，這裏固然能夠使用dict了，可是有沒有更高級一點的方法呢。web 固然有了，咱們能夠使用collections的Counter，而且使用Pandas來替代讀取數據的解

>>阅读原文<<