由Java爬蟲所想到的

時間 2019-11-07

標籤 java 爬蟲所想欄目 Java 简体版

原文原文鏈接

爬蟲，聽起來彷佛很高端，然而也就那麼回事，有不少爬蟲框架，Java實現的有crawler4j，WebCollector，webMagic，Python實現的最著名的應該是Scrapy，工做中用到，可是沒用什麼爬蟲框架，整個工做基於HttpClient和Jsoup。html

流程jquery
1. HttpClient去模擬get和post請求；web
2. 獲取返回的數據，chrome
  - 若是是json或者XML，直接解析；json
  - 若是是html，使用Jsoup去分析；api
技能要求跨域
1. 熟悉HTML，JavaScript，jQuery瀏覽器
2. 熟悉HttpClient，Jsoup框架
使用工具工具
1. FireFox（FireBug）/ chrome : 用於觀察HTML文檔結構
2. WireShark：抓數據包（不是十分經常使用，在爬取不成功的時用於對比瀏覽器數據和模擬數據）
3. 一些插件，如 RESTClient（不經常使用）
額外的一些記錄
1. HttpClient與jsonp

最近在爬取某市圖書館，發現其中有一個jsonp的請求，期初覺得是一個普通的get請求，可是url感受很奇怪，就搜了下，發現是jQuery的jsonp請求

#host地址已改

api.baidu.com/book/isbn/978-7-5442-4725-2/?glc=P2HBJ0315013&returnType=json&callback=insertAllBookMetaInfo&jsoncallback=jQuery1620053801810543760764_1464099784203&_=1464099796349