文本相似度(小說去重)

之前寫了爬蟲爬取小說,總文件大概70G。但如果換小說網站進行爬取會重複爬取同樣的小說,產生不必要的空間浪費。 由於不同網站對小說命名不同,例如:小說名 斗羅大陸.txt,在小說網A命名爲斗羅大陸,小說B<斗羅大陸>,小說C 斗羅大陸全集什麼的。 如果從小說名來判斷會有很多麻煩,並且有的小說網站小說名和小說內容嚴重不符,因此根據小說名來判斷被否決。 隨着研究的深入,發現一種可行方法。一篇文章由詞組成
相關文章
相關標籤/搜索