爲了方便,在Windows下我用了PyCharm,我的感受這是一款優秀的python學習軟件。爬蟲,即網絡爬蟲,你們能夠理解爲在網絡上爬行的一直蜘蛛,互聯網就比做一張大網,而爬蟲即是在這張網上爬來爬去的蜘蛛咯,若是它遇到資源,那麼它就會抓取下來。python
學習python爬蟲前,先學習下其餘的一些知識:正則表達式
(一)url瀏覽器
URL,即統一資源定位符,也就是咱們說的網址,統一資源定位符是對能夠從互聯網上獲得的資源的位置和訪問方法的一種簡潔的表示,是互聯網上標準資源的地址。互聯網上的每一個文件都有一個惟一的URL,它包含的信息指出文件的位置以及瀏覽器應該怎麼處理它。網絡
URL的格式由三部分組成:
①第一部分是協議(或稱爲服務方式)。
②第二部分是存有該資源的主機IP地址(有時也包括端口號)。
③第三部分是主機資源的具體地址,如目錄和文件名等python爬蟲
(二)urllib和urllib2庫ide
urllib和urllib2庫是學習Python爬蟲最基本的庫,利用這個庫咱們能夠獲得網頁的內容,並對內容用正則表達式提取分析,獲得咱們想要的結果。學習
(三)正則表達式url
正則表達式是一種用來匹配字符串的強有力的武器。它的設計思想是用一種描述性的語言來給字符串定義一個規則,凡是符合規則的字符串,咱們就認爲它「匹配」了,不然,該字符串就是不合法的。spa