爬蟲攻略(一)

互聯網 Web 就是一個巨大無比的數據庫,但是這個數據庫沒有一個像 SQL 語言可以直接獲取裏面的數據,因爲更多時候 Web 是供肉眼閱讀和操作的。如果要讓機器在 Web 取得數據,那往往就是我們所說的「爬蟲」了。現在項目需要,所以研究研究,把大概的過程和「坑」記錄下來,也歡迎大渣批評和補充。 爬蟲的思路十分簡單: 按照一定的規律發送 HTTP 請求獲得頁面 HTML 源碼(必要時需要加上一定的
相關文章
相關標籤/搜索