Webharvest網絡爬蟲應用總結

  Web-Harvest是一個Java開源Web數據抽取工具。它能夠收集指定的Web頁面並從這些頁面中提取有用的數據。其實現原理是,根據預先定義的配置文件用httpclient獲取頁面的全部內容(關於httpclient的內容,本博有些文章已介紹),然後運用XPath、XQuery、正則表達式等這些技術來實現對text/xml的內容篩選操作,選取精確的數據。前兩年比較火的垂直搜索(比如:酷訊等)
相關文章
相關標籤/搜索