若是你想抓取數據,又懶得寫代碼了,能夠試試 web scraper 抓取數據。web
相關文章:
最簡單的數據抓取教程,人人都用得上
web scraper 進階教程,人人都用得上微信
若是你在使用 web scraper 抓取數據,頗有可能碰到以下問題中的一個或者多個,而這些問題可能直接將你計劃打亂,甚至讓你放棄 web scraper 。網絡
下面列出幾種你可能會碰到的問題,並說明解決方案。佈局
一、有時候咱們想選擇某個連接,可是鼠標點擊就出觸發頁面跳轉,如何處理?網站
在咱們選擇頁面元素的時候,勾選 「Enable key」,而後鼠標滑到要選擇的元素上,按下 S 鍵。code
另外,勾選「Enable key」 後會出現三個字母,分別是 S、P、C,按 S 就是選擇當前元素,按 P 就是選擇當前元素的父元素,按 C 就是選擇當前元素的子元素,當前元素指的是鼠標所在的元素。blog
二、分頁數據或者滾動加載的數據,不能徹底抓取,例如知乎和 twitter 等?排序
出現這種問題大部分是由於網絡問題,數據還沒來得及加載,web scraper 就開始解析數據,可是由於沒有及時加載,致使 web scrpaer 誤認爲已經抓取完畢。教程
因此適當的調大 delay 的大小,延長等待時間,讓數據有足夠的時間加載。默認的 delay 是 2000,也就是 2 秒,能夠根據網速調整。get
可是,當數據量比較大的時候,出現數據抓取不徹底的狀況也是常有的。由於只要有一次翻頁或者一次下拉加載沒有在 delay 的時間內加載完成,那麼抓取就結束了。
三、抓取的數據順序和網頁上的順序不一致?
web scraper 默認就是無序的,能夠安裝 CouchDB 來保證數據的有序性。
或者採用其餘變通的方式,咱們最後會將數據導出到 CSV 格式,CSV 用 Excel 打開以後,能夠按照某一列來排序,例如咱們抓取微博數據的時候將發佈時間抓取下來,而後再 Excel 中按照發布時間排序,或者知乎上的數據按照點贊數排序。
四、有些頁面元素經過 web scraper 提供的 selector 選擇器沒辦法選中?
形成這種狀況的緣由多是由於網站頁面自己不符合網頁佈局規範,或者你想要的數據是動態的,例如鼠標滑過纔會顯示的元素等,遇到這些狀況就要藉助其餘方法了。
其實經過鼠標操做選擇元素,最後就是爲了找到元素對應的 xpath。xpath 對應到網頁上來解釋,就是定位某元素的路徑,經過元素的種類、惟一標識、樣式名稱,配合上下級關係來找到某個元素或某一類元素。
若是你沒有遇到這個問題,那就沒有必要了解 xpath,等到遇到了問題再動手去學一下就能夠。
這裏只是說了幾個使用 web scraper 的過程當中常見的問題,若是你還遇到了其餘的問題,能夠在文章下面留言。
原文地址:web scraper 抓取網頁數據的幾個常見問題
還能夠加我我的微信號 fengdezitai001
,添加請說明來意以便備註。