若是學會了python的基本語法,我認爲入門爬蟲是很容易的。 我寫的第一個爬蟲大概只須要10分鐘,自學的 scrapyd , 看官方文檔花了20分鐘,由於我英文不是很好,不少單詞須要搜索一下。前端
(scrapy 並非入門必須的) 再接觸到了 requests , lxml ,配合基本庫 urllib, urllib2 就幾乎無所不能了。後來有人推薦我用 BeatufulSoup 之類的庫,但其實原理都差很少。1、入門爬蟲的乾貨 0. 爬蟲的基本思路 a. 經過URL或者文件獲取網頁, b. 分析要爬取的目標內容所在的位置 c. 用元素選擇器快速提取(Raw) 目標內容 d. 處理提取出來的目標內容 ( 一般整理合成一個 Json) e. 存儲處理好的目標內容 (好比放到 MongoDB 之類的數據庫,或者寫進文件裏。)python
答:我本身總結了一下,在接觸爬蟲以前:
a. 我挺了解HTTP 協議(看了《HTTP權威指南》), b. 我寫過基於Flask框架的後端(大概三年前@蕭井陌 在知乎上推薦Flask框架,而後我就自學了,用的是《Flask Web開發:基於Python的Web應用開發實戰 》) c. 我寫過前端(HTML+CSS+JS),瞭解什麼是DOM ,會一點jquery。 d. 正則也是勉強夠用的。 e. 本人大學也是計算機專業,學習挺認真的。 f. 因此算是厚積薄發。jquery
2.那麼毫無專業基礎,也沒有先後端基礎的人應該怎麼辦?數據庫
答:那固然要超過半小時啦。先花點時間去大概瞭解如下內容:
a. HTTP協議的請求方法,請求頭部,請求數據 b. 大概瞭解一下什麼是 cookie c. 學一點HTML和元素選擇器 d. 學會使用Chrome 的 開發者工具 磨刀不誤砍柴工,固然若是有人帶着,這些大概1-2小時就能過到能湊合用的程度了。若是沒人帶,就上網搜索學習一下,也很快的,估摸最多十小時。後端
3.Python 爬蟲經常使用的庫是哪些?入門應該掌握哪些庫? 答:網上有不少相關的資料,可是我我的以爲新入門的人,不須要也不該該一會兒接觸全部的庫。正如幼兒剛開始學說話的時候,不該該同時教普通話粵語閩南語英語。 我我的認爲,學會 requests 和 lxml ,就能夠入門爬蟲了。cookie