web scraper 抓取網頁數據的幾個常見問題

時間 2019-12-06

標籤 web scraper 抓取網頁數據幾個常見問題欄目 HTML 简体版

原文原文鏈接

若是你想抓取數據，又懶得寫代碼了，能夠試試 web scraper 抓取數據。web

若是你在使用 web scraper 抓取數據，頗有可能碰到以下問題中的一個或者多個，而這些問題可能直接將你計劃打亂，甚至讓你放棄 web scraper 。網絡

下面列出幾種你可能會碰到的問題，並說明解決方案。佈局

一、有時候咱們想選擇某個連接，可是鼠標點擊就出觸發頁面跳轉，如何處理?網站

在咱們選擇頁面元素的時候，勾選「Enable key」，而後鼠標滑到要選擇的元素上，按下 S 鍵。code

另外，勾選「Enable key」後會出現三個字母，分別是 S、P、C，按 S 就是選擇當前元素，按 P 就是選擇當前元素的父元素，按 C 就是選擇當前元素的子元素，當前元素指的是鼠標所在的元素。blog

二、分頁數據或者滾動加載的數據，不能徹底抓取，例如知乎和 twitter 等？排序

出現這種問題大部分是由於網絡問題，數據還沒來得及加載，web scraper 就開始解析數據，可是由於沒有及時加載，致使 web scrpaer 誤認爲已經抓取完畢。教程

因此適當的調大 delay 的大小，延長等待時間，讓數據有足夠的時間加載。默認的 delay 是 2000，也就是 2 秒，能夠根據網速調整。get

可是，當數據量比較大的時候，出現數據抓取不徹底的狀況也是常有的。由於只要有一次翻頁或者一次下拉加載沒有在 delay 的時間內加載完成，那麼抓取就結束了。

三、抓取的數據順序和網頁上的順序不一致？

web scraper 默認就是無序的，能夠安裝 CouchDB 來保證數據的有序性。

或者採用其餘變通的方式，咱們最後會將數據導出到 CSV 格式，CSV 用 Excel 打開以後，能夠按照某一列來排序，例如咱們抓取微博數據的時候將發佈時間抓取下來，而後再 Excel 中按照發布時間排序，或者知乎上的數據按照點贊數排序。

四、有些頁面元素經過 web scraper 提供的 selector 選擇器沒辦法選中？

形成這種狀況的緣由多是由於網站頁面自己不符合網頁佈局規範，或者你想要的數據是動態的，例如鼠標滑過纔會顯示的元素等，遇到這些狀況就要藉助其餘方法了。

其實經過鼠標操做選擇元素，最後就是爲了找到元素對應的 xpath。xpath 對應到網頁上來解釋，就是定位某元素的路徑，經過元素的種類、惟一標識、樣式名稱，配合上下級關係來找到某個元素或某一類元素。

若是你沒有遇到這個問題，那就沒有必要了解 xpath，等到遇到了問題再動手去學一下就能夠。

這裏只是說了幾個使用 web scraper 的過程當中常見的問題，若是你還遇到了其餘的問題，能夠在文章下面留言。

還能夠加我我的微信號 fengdezitai001，添加請說明來意以便備註。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。