由Java爬蟲所想到的

爬蟲,聽起來彷佛很高端,然而也就那麼回事,有不少爬蟲框架,Java實現的有crawler4j,WebCollector,webMagic,Python實現的最著名的應該是Scrapy,工做中用到,可是沒用什麼爬蟲框架,整個工做基於HttpClient和Jsoup。html

  • 流程jquery

    1. HttpClient去模擬get和post請求;web

    2. 獲取返回的數據,chrome

      • 若是是json或者XML,直接解析;json

      • 若是是html,使用Jsoup去分析;api

  • 技能要求跨域

    1. 熟悉HTML,JavaScript,jQuery瀏覽器

    2. 熟悉HttpClient,Jsoup框架

  • 使用工具工具

    1. FireFox(FireBug)/ chrome : 用於觀察HTML文檔結構

    2. WireShark:抓數據包(不是十分經常使用,在爬取不成功的時用於對比瀏覽器數據和模擬數據)

    3. 一些插件,如 RESTClient(不經常使用)

  • 額外的一些記錄

    1. HttpClient與jsonp

最近在爬取某市圖書館,發現其中有一個jsonp的請求,期初覺得是一個普通的get請求,可是url感受很奇怪,就搜了下,發現是jQuery的jsonp請求

#host地址已改

api.baidu.com/book/isbn/978-7-5442-4725-2/?glc=P2HBJ0315013&returnType=json&callback=insertAllBookMetaInfo&jsoncallback=jQuery1620053801810543760764_1464099784203&_=1464099796349
相關文章
相關標籤/搜索