爬蟲,聽起來彷佛很高端,然而也就那麼回事,有不少爬蟲框架,Java實現的有crawler4j,WebCollector,webMagic,Python實現的最著名的應該是Scrapy,工做中用到,可是沒用什麼爬蟲框架,整個工做基於HttpClient和Jsoup。html
流程jquery
HttpClient去模擬get和post請求;web
獲取返回的數據,chrome
若是是json或者XML,直接解析;json
若是是html,使用Jsoup去分析;api
技能要求跨域
熟悉HTML,JavaScript,jQuery瀏覽器
熟悉HttpClient,Jsoup框架
使用工具工具
FireFox(FireBug)/ chrome : 用於觀察HTML文檔結構
WireShark:抓數據包(不是十分經常使用,在爬取不成功的時用於對比瀏覽器數據和模擬數據)
一些插件,如 RESTClient(不經常使用)
額外的一些記錄
最近在爬取某市圖書館,發現其中有一個jsonp的請求,期初覺得是一個普通的get請求,可是url感受很奇怪,就搜了下,發現是jQuery的jsonp請求
#host地址已改 api.baidu.com/book/isbn/978-7-5442-4725-2/?glc=P2HBJ0315013&returnType=json&callback=insertAllBookMetaInfo&jsoncallback=jQuery1620053801810543760764_1464099784203&_=1464099796349