python數據挖掘實戰筆記——文本挖掘(1):語料庫構建

什麼是文本挖掘 ?   文本挖掘是抽取有效、新穎、有用、可理解的、散佈在文本文件中的有價值知識,而且利用這些知識更好地組織信息的過程。 1、搭建語料庫 語料庫:要進行文本分析的全部文檔的集合。linux 須要用到的模塊:os、os.path、codecs、pandas 代碼以下:web import os import os.path import codecs import pandas fi
相關文章
相關標籤/搜索