文本挖掘的基本流程

1、獲取文本   咱們獲取網絡文本,主要是獲取網頁HTML的形式。咱們要把網絡中的文本獲取文本數據庫(數據集)。編寫爬蟲(Spider)程序,抓取到網絡中的信息。能夠用廣度優先和深度優先;根據用戶的需求,爬蟲能夠有垂直爬蟲和通用爬蟲之分,垂直爬取主要是在相關站點爬取或者爬取相關主題的文本 ,而通用爬蟲則通常對此不加限制。爬蟲能夠本身寫,固然如今網絡上已經存在不少開源的爬蟲系統(好比python的S
相關文章
相關標籤/搜索