筆者聲明:只用於學習交流,不用於其餘途徑。源代碼已上傳github。githu地址:https://github.com/Erma-Wang/Spider
筆者聲明:只用於學習交流,不用於其餘途徑。源代碼已上傳github。githu地址:https://github.com/Erma-Wang/Spider
筆者聲明:只用於學習交流,不用於其餘途徑。源代碼已上傳github。githu地址:https://github.com/Erma-Wang/Spiderpython
重要的事情說三遍~~~!!!只用於學習交流,私自用於其餘途徑,後果自負!!!
github源代碼地址https://github.com/Erma-Wang/Spider(注意,本倉庫還有其餘的小爬蟲,本文章講解的是JDSpider···),別忘了給個star哦@、@
***git
Python很強大,50行不到的爬蟲代碼實現京東定向爬蟲,雖然其餘語言也能夠實現,可是我的仍是喜歡Python作作小爬蟲,筆者iOS開發,曾用OC寫過爬蟲,蘋果高度封裝OC語言和強大的第三方庫也不能敵當過Python的便捷!!!好吧,說說爬蟲實現的基本思路吧,還有AJAX。。。github
以前在網上看過不少朋友有一種疑問,爲何在看京東網頁的源代碼裏面看不到價格或則折扣一類的數據,而在網頁上正常顯示卻能看到?。。。以前我也沒有想到是AJAX,由於我寫寫爬蟲只是業餘愛好吧~~,後來有一次用chrome抓包的時候發現網頁加載完成可是其還在刷新數據,忽然恍然大悟!!!AJAX,以前看過一篇帖子的不少朋友都在問京東網頁的源代碼裏面看不到價格的數據,若是您是查找這個問題的讀者,恭喜您,找對地方了!!!ajax
AJAX即「Asynchronous Javascript And XML」(異步JavaScript和XML),是一種異步加載技術,那麼,怎麼才能抓到AJAX異步加載能夠的request叻?好吧,這裏只有細心的觀察了,就像一個小偷同樣的~宅在電腦前,偷偷地~偷偷滴~觀察。。。。。。好吧,下面直接貼上詳圖吧~
是的就是這個連接,http://p.3.cn/prices/mgets?skuIds=J_xxxxxx,,只要你在後面輸入商品的id,你就能查詢到商品的折扣價格和正價,這點京東作的一點兒都很差,這個請求竟然仍是HTTP的GET請求,若是京東內部網絡層的工做人員看到這裏,大家也改進改進吧,,畢竟這是大家本身的數據呀~好吧,有了這個url,看到這裏的你們,估計思路也已經出來了~~正則表達式
本爬蟲使用的是scrapy,是一個定向爬蟲,固然~好像尚未爬不到的數據,在個人理念裏,只要能看到的數據,都能爬取~哈~本篇文章不會講解scrapy的用法,以後有時間會我會寫一寫scrapy的基本使用方法~chrome
#排名
number = scrapy.Field()
#圖書名字
bookName = scrapy.Field()
#做者
author = scrapy.Field()
#出版社
press = scrapy.Field()
#圖書id
BookID = scrapy.Field()
#正價
price = scrapy.Field()
#折扣價
PreferentialPrice = scrapy.Field()json
設置開始的連接start_urls和構造一個入口def parse(self, response)
我用的是xpath來尋找節點,主要抓取每個商品的所有信息,應該其都在一個li標籤裏,看圖~不明白,就看圖~
一個li標籤就表明一個商品,仍是看不懂的話本身琢磨去吧~網絡
如今就是根據需求,用xpath來匹配每個須要的數據吧~這裏沒什麼技術含量,不作過多的講解。若是不懂xpath或則正則的小夥伴們,本身去研究吧~有一天你也會變成大神的哦~異步
首先獲取id構造urlscrapy
json_url = 'http://p.3.cn/prices/mgets?skuIds=J_' + BookID
正則表達式匹配出來要獲得的字典
r = requests.get(json_url).text data = json.loads(r)[0]
提取價格和折扣價格
price = data['m'] PreferentialPrice = data['p']
yield item在python中yield的用法是很神奇而美妙的,在這裏也不作過多講解,之後有時間我會寫更多的關於python基本語法的文章分享
獲取下一頁的href,而後建立一個遞歸函數,爬來爬去爬上爬下~
yield Request(nextLink,callback=self.parse)
很差意思,MAC的小夥伴在終端是跑步起來的,WIN系統的小夥伴有福了~能執行,也就是main文件的命令,具體怎麼操做,問度娘~
from scrapy import cmdline cmdline.execute("scrapy crawl JDSpider".split())
轉載請註明來自吃飯睡覺擼碼的博客 http://www.cnblogs.com/Erma-king/,幷包含相關連接。