原畫爬取

先看一下爐石傳說的原畫：
爐石傳說原畫連接:
http://news.4399.com/gonglue/lscs/kptj/正則表達式

該網站經過點擊查看更多加載新的內容，本打算使用Selenium模擬點擊獲取圖片信息，嘗試發現源碼中該按鈕並沒有相應的跳轉連接json

這不該該啊沒有相應的跳轉連接點擊後是如何加載新的圖片？後端

後來瀏覽總體網站源碼後發現把問題想複雜根本不須要模擬點擊查看更多網絡

網站其實已經加載了全部的卡牌原畫只是以後的原畫作了隱藏處理默認不展現 style=display學習

點擊查看更多後顯示原畫測試

那麼只需使用requests獲取網頁源碼網站

用BeautiSoup/正則表達式/pyQuery解析元素遍歷相應img的url 便可下載url

教訓：爬蟲前不要根據網頁所對的操做實施相應的代碼爬取不要有這樣的思惟定式首先要作的是先大致瀏覽分析整個網頁的源代碼有的可能直接寫在源碼或json或js中無需再加工spa

卡牌爬取

爐石傳說卡牌連接:
http://cha.17173.com/hs/

該網站經過下拉右邊的滾動條不斷加載新的卡牌

與上一個網站不一樣上一個網站一次性寫入了全部卡牌只不過作了隱藏處理

該網站是經過js動態加載渲染出的卡牌直接獲取源碼沒法獲得全部卡牌信息

那麼就用selenium模擬下拉滾動條（selenium簡直居家必備之神器）

使用selenium執行js腳本每次執行下拉1000個單位滾動條執行90次

爲何是90次測試出來的大概90次拉到底

注意：這裏要增長1~3秒的暫停時間用於網頁渲染

第一次沒有設置停留時間沒法獲取新的數據懷疑本身懷疑人生

經前端/後端好友L君的提示需增長暫停時間這樣才能得到加載渲染後的數據

browser.page_source即可得到動態加載的全部數據

有了數據以後就很簡單正則匹配獲取相應url下載便可

既然得到了這麼多卡牌和原畫不能浪費利用起來拼圖！

以上文章來源於碼農小黑屋，做者丨像我這樣的人丨

本文分享 CSDN - 松鼠愛吃餅乾。
若有侵權，請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」，歡迎正在閱讀的你也加入，一塊兒分享。