文本挖掘的基本流程

時間 2020-07-25

標籤文本挖掘基本流程欄目大數據简体版

原文原文鏈接

1、獲取文本咱們獲取網絡文本，主要是獲取網頁HTML的形式。咱們要把網絡中的文本獲取文本數據庫(數據集)。編寫爬蟲（Spider）程序,抓取到網絡中的信息。能夠用廣度優先和深度優先；根據用戶的需求，爬蟲能夠有垂直爬蟲和通用爬蟲之分，垂直爬取主要是在相關站點爬取或者爬取相關主題的文本，而通用爬蟲則通常對此不加限制。爬蟲能夠本身寫，固然如今網絡上已經存在不少開源的爬蟲系統（好比python的S

>>阅读原文<<

相關文章

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<