爬蟲攻略（一）

時間 2021-07-14

原文原文鏈接

互聯網 Web 就是一個巨大無比的數據庫，但是這個數據庫沒有一個像 SQL 語言可以直接獲取裏面的數據，因爲更多時候 Web 是供肉眼閱讀和操作的。如果要讓機器在 Web 取得數據，那往往就是我們所說的「爬蟲」了。現在項目需要，所以研究研究，把大概的過程和「坑」記錄下來，也歡迎大渣批評和補充。爬蟲的思路十分簡單：按照一定的規律發送 HTTP 請求獲得頁面 HTML 源碼（必要時需要加上一定的