爬蟲總結 && 部分正則匹配

今天在整理本地資料時,挖掘出了早幾年因工做須要用到爬蟲的一些備註,分享下,若是能幫到一部分人,榮幸之至~html 工做流大體是: java 首先利用多線程,能過http協議鏈接對方網站,獲取html字符串,能夠用java.net包裏的工具類或者其它開源包。  接着經過正則表達式解析html標記,網上資源不少的能夠搜一下也能夠用開源包。  這樣一個基本的爬蟲就實現了,剩下來的問題就是如何防止重複爬取
相關文章
相關標籤/搜索