網上找了好多資料,都不全,經過資料的整理,包括本身的測試,終於把環境打好了,真是對於一個剛接觸爬蟲的人來講實屬不易,如今分享給你們,如有不夠詳細之處,但願各位網友能補充。python
第一步,下載python,python3.x
這裏有一個巨坑,python2.x與python3.x變化實在是太大,博主開始用的python2.7,後來發現不少模塊版本太新,根本沒辦法使用,兼容性出了問題,索性把python2.7給卸了,而後下了python3.4,若是你習慣了用python2.x,就不要輕易升級,若是你是剛學python,建議仍是安裝3.x版本。還有就是注意python是64位仍是32位。app
第二步,環境變量設置,因爲會使用python命令,因此最好仍是設一個python2.7
桌面計算機—>右鍵「屬性」—>點擊「高級系統設置」—>高級屬性裏點擊「環境變量」—>在系統變量裏path中添加python安裝目錄。編輯器
第三步,下載一個合適的idl(代碼編輯器),python自帶的idle實在是太水了,對於一個項目來講,根本知足不了需求,只能作簡單的測試。如今成熟的idl不少,博主使用的是Pycharm,以爲挺好用的,其餘的不瞭解,大家能夠嘗試裝機試試。工具
第四步,下載Beautiful Soup,測試
Beautiful Soup是一個很是流行的python模塊,這個模塊能夠解析網頁,並提供定位內容的便捷接口,對於Beautiful Soup的介紹,你們在網上都能查到,博主就不浪費時間了。對於python3.x必須安裝Beautiful Soup4,其餘版本可能安裝不了。ui
下載後解壓到Python安裝目錄下spa
打開cmd編輯器,進入到beautifulsoup文件夾內.net
執行
setup.py build
而後執行
setup.py install
這樣 Beautiful Soup模塊就順利的安裝到了python3.4裏
第五步,下載lxml庫,lxml是Python語言裏和XML以及HTML工做的功能最豐富和最容易使用的庫。這一步博主真是走了好多彎路,先是下載lxml的版本不匹配,再是pip版本過低,弄了很久終於解決了。
在資源庫裏下載:http://www.lfd.uci.edu/~gohlke/pythonlibs/,這裏lxml有好多版本:
cp27表明是python2.7,cp34表明python3.4,amd64是64位的系統,不加表明32位。你們必定要對號入座,版本下錯就慘了,就像博主我。。。
下載後把它放進python的安裝目錄下,此操做與Beautiful Soup同樣,這樣主要是爲了方便管理。在cmd命令裏,先執行「python -m pip install wheel」,安裝wheel,成功後在python目錄下的Lib\site-packages,能查看到wheel文件夾,表明安裝成功。
而後安裝lxml,「python -m pip install 你的lxml的路徑(D:\workapps\python3.4.4\lxml-3.6.4-.....)」,若是提示你pip版本過低,則先更新pip(pip是一個安裝和管理 Python 包的工具),命令行輸入「python -m pip upgrade pip」,升級完成後,再次安裝lxml,就完成了。最後打開Pycharm,測試程序OK!!!
附上淘寶網頁抓取測試代碼:
本文轉載於:https://blog.csdn.net/u011139117/article/details/52788785