入門爬蟲的乾貨

時間 2019-11-15

原文原文鏈接

若是學會了python的基本語法，我認爲入門爬蟲是很容易的。我寫的第一個爬蟲大概只須要10分鐘，自學的 scrapyd , 看官方文檔花了20分鐘，由於我英文不是很好，不少單詞須要搜索一下。前端

(scrapy 並非入門必須的）再接觸到了 requests , lxml ，配合基本庫 urllib, urllib2 就幾乎無所不能了。後來有人推薦我用 BeatufulSoup 之類的庫，但其實原理都差很少。1、入門爬蟲的乾貨 0. 爬蟲的基本思路 a. 經過URL或者文件獲取網頁， b. 分析要爬取的目標內容所在的位置 c. 用元素選擇器快速提取(Raw) 目標內容 d. 處理提取出來的目標內容（一般整理合成一個 Json） e. 存儲處理好的目標內容（好比放到 MongoDB 之類的數據庫，或者寫進文件裏。）python

爲何我入門爬蟲那麼快？

答：我本身總結了一下，在接觸爬蟲以前：
a. 我挺了解HTTP 協議（看了《HTTP權威指南》）， b. 我寫過基於Flask框架的後端（大概三年前@蕭井陌在知乎上推薦Flask框架，而後我就自學了，用的是《Flask Web開發：基於Python的Web應用開發實戰》） c. 我寫過前端(HTML+CSS+JS)，瞭解什麼是DOM ，會一點jquery。 d. 正則也是勉強夠用的。 e. 本人大學也是計算機專業，學習挺認真的。 f. 因此算是厚積薄發。jquery

2.那麼毫無專業基礎，也沒有先後端基礎的人應該怎麼辦？數據庫

答：那固然要超過半小時啦。先花點時間去大概瞭解如下內容：
a. HTTP協議的請求方法，請求頭部，請求數據 b. 大概瞭解一下什麼是 cookie c. 學一點HTML和元素選擇器 d. 學會使用Chrome 的開發者工具磨刀不誤砍柴工，固然若是有人帶着，這些大概1-2小時就能過到能湊合用的程度了。若是沒人帶，就上網搜索學習一下，也很快的，估摸最多十小時。後端

3.Python 爬蟲經常使用的庫是哪些？入門應該掌握哪些庫？答：網上有不少相關的資料，可是我我的以爲新入門的人，不須要也不該該一會兒接觸全部的庫。正如幼兒剛開始學說話的時候，不該該同時教普通話粵語閩南語英語。我我的認爲，學會 requests 和 lxml ，就能夠入門爬蟲了。cookie

1. 爬蟲入門
2. Python 網絡爬蟲乾貨總結
3. 爬蟲入門——01
4. day02-爬蟲入門
5. 爬蟲入門（Java）
6. Python 爬蟲入門
7. Java爬蟲入門
8. 爬蟲入門（1）
9. （一）爬蟲入門
10. python爬蟲入門
更多相關文章...
• Memcached入門教程 - NoSQL教程
• Neo4j數據庫入門教程 - NoSQL教程
• YAML 入門教程
• Java Agent入門實戰（一）-Instrumentation介紹與使用

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。