放養的小爬蟲--京東定向爬蟲(AJAX獲取價格數據)

時間 2019-11-07

原文原文鏈接

放養的小爬蟲--京東定向爬蟲(AJAX獲取價格數據)

筆者聲明：只用於學習交流,不用於其餘途徑。源代碼已上傳github。githu地址：https://github.com/Erma-Wang/Spider
筆者聲明：只用於學習交流,不用於其餘途徑。源代碼已上傳github。githu地址：https://github.com/Erma-Wang/Spider
筆者聲明：只用於學習交流,不用於其餘途徑。源代碼已上傳github。githu地址：https://github.com/Erma-Wang/Spiderpython

重要的事情說三遍~~~！！！只用於學習交流，私自用於其餘途徑，後果自負！！！
github源代碼地址https://github.com/Erma-Wang/Spider(注意，本倉庫還有其餘的小爬蟲，本文章講解的是JDSpider···)，別忘了給個star哦@、@
***git

Python很強大，50行不到的爬蟲代碼實現京東定向爬蟲，雖然其餘語言也能夠實現，可是我的仍是喜歡Python作作小爬蟲，筆者iOS開發，曾用OC寫過爬蟲，蘋果高度封裝OC語言和強大的第三方庫也不能敵當過Python的便捷！！！好吧，說說爬蟲實現的基本思路吧，還有AJAX。。。github

AJAX，異步加載技術！！！

以前在網上看過不少朋友有一種疑問，爲何在看京東網頁的源代碼裏面看不到價格或則折扣一類的數據，而在網頁上正常顯示卻能看到？。。。以前我也沒有想到是AJAX，由於我寫寫爬蟲只是業餘愛好吧~~，後來有一次用chrome抓包的時候發現網頁加載完成可是其還在刷新數據，忽然恍然大悟！！！AJAX，以前看過一篇帖子的不少朋友都在問京東網頁的源代碼裏面看不到價格的數據，若是您是查找這個問題的讀者，恭喜您，找對地方了！！！ajax

AJAX

AJAX即「Asynchronous Javascript And XML」（異步JavaScript和XML）,是一種異步加載技術，那麼，怎麼才能抓到AJAX異步加載能夠的request叻？好吧，這裏只有細心的觀察了，就像一個小偷同樣的~宅在電腦前，偷偷地~偷偷滴~觀察。。。。。。好吧，下面直接貼上詳圖吧~

是的就是這個連接，http://p.3.cn/prices/mgets?skuIds=J_xxxxxx，，只要你在後面輸入商品的id，你就能查詢到商品的折扣價格和正價，這點京東作的一點兒都很差，這個請求竟然仍是HTTP的GET請求，若是京東內部網絡層的工做人員看到這裏，大家也改進改進吧，，畢竟這是大家本身的數據呀~好吧，有了這個url，看到這裏的你們，估計思路也已經出來了~~正則表達式

爬蟲實現基本思路

本爬蟲使用的是scrapy，是一個定向爬蟲，固然~好像尚未爬不到的數據，在個人理念裏，只要能看到的數據，都能爬取~哈~本篇文章不會講解scrapy的用法，以後有時間會我會寫一寫scrapy的基本使用方法~chrome

Itme

#排名
number = scrapy.Field()
#圖書名字
bookName = scrapy.Field()
#做者
author = scrapy.Field()
#出版社
press = scrapy.Field()
#圖書id
BookID = scrapy.Field()
#正價
price = scrapy.Field()
#折扣價
PreferentialPrice = scrapy.Field()json

小爬蟲主體

小爬蟲的腦殼~

設置開始的連接start_urls和構造一個入口def parse(self, response)
我用的是xpath來尋找節點，主要抓取每個商品的所有信息，應該其都在一個li標籤裏，看圖~不明白，就看圖~

一個li標籤就表明一個商品，仍是看不懂的話本身琢磨去吧~網絡

小爬蟲的身體~

如今就是根據需求，用xpath來匹配每個須要的數據吧~這裏沒什麼技術含量，不作過多的講解。若是不懂xpath或則正則的小夥伴們，本身去研究吧~有一天你也會變成大神的哦~異步

小爬蟲的觸鬚~AJAX異步加載請求~

首先獲取id構造urlscrapy

json_url = 'http://p.3.cn/prices/mgets?skuIds=J_' + BookID

正則表達式匹配出來要獲得的字典

r = requests.get(json_url).text
data = json.loads(r)[0]

提取價格和折扣價格

price = data['m']
PreferentialPrice = data['p']

小爬蟲的消化系統~

yield item在python中yield的用法是很神奇而美妙的，在這裏也不作過多講解，之後有時間我會寫更多的關於python基本語法的文章分享

小爬蟲~爬來爬去爬上爬下~

獲取下一頁的href，而後建立一個遞歸函數，爬來爬去爬上爬下~

yield Request(nextLink,callback=self.parse)

小爬蟲的啓動裝置

很差意思，MAC的小夥伴在終端是跑步起來的，WIN系統的小夥伴有福了~能執行，也就是main文件的命令，具體怎麼操做，問度娘~

from scrapy import cmdline
cmdline.execute("scrapy crawl JDSpider".split())

小爬蟲誕生~

Ok，看看效果吧~

小爬蟲準本就緒

開始爬取~正在激烈的爬取~

爬取結束~生成一坨~一坨~一坨~那啥吧~

看當作果吧~

小爬蟲使用小提示~

scrapy crawl JDSpider，，最後加的是爬蟲name，而不是項目名字~
生成的CSV文件多是亂碼，請用能夠更改編碼格式的工具更改編碼格式並保存~
須要的環境本身配置，跑不起來報錯，請百度，爬蟲筆者已經親測，能夠跑~
本爬蟲沒有設置代理，由於用於學習交流吧~
本爬蟲已經更改請求頭裏的USER_AGENT，請改成本身的吧
最後項目已經上傳到github，github源代碼地址https://github.com/Erma-Wang/Spider(注意，本倉庫還有其餘的小爬蟲，本文章講解的是JDSpider···)，別忘了給個star哦@、@
還要了解更多的小爬蟲的朋友們能夠關注本博，並在本博的spider中找到其餘的小爬蟲，筆者會定時更新小爬蟲的~