1.最近閒來無事,想把本身最近一段時間工做的東西整理下。算法
目標:新聞採集器編碼
1.只須要輸入列表網址,採集器將自動採集全部的文章。rsa
2.採集器最後無需寫任何採集規則。分頁
3.基於靜態爬蟲的HTML分頁獲取 策略(本身捉摸的,準確度不高)項目
4.基於開源項目的內容提取算法(Html2Article)時間
5.基於編碼的探測的開源項目(NUniversalCharDet)採集