新浪微博內容抓取

最近抓取新浪微博的相關內容,遇到了不少問題也解決了不少問題。一開始我是使用httpclient爬蟲抓取網頁,可是後面發現微博網頁內容不少都是嵌入到js中的;因此改用了htmlunit。下面重點總結幾點個人經驗吧!html httpclient、htmlunit、新浪微博API這三者的優缺點:web httpclient:算法 優勢:爬蟲比較穩定,相關使用方法很詳細,能夠參考《本身動手寫網絡爬蟲》這
相關文章
相關標籤/搜索