Python3(3.5.4)搭建爬蟲系統步驟描述:python
1.下載python安裝包,路徑:https://www.python.org/downloads/windows/ 選擇3.5.4版本64位的安裝文件,若是不能下載可直接聯繫我,地址見底。mysql
2.下載安裝完成後直接cmd輸入python,可正常查看版本,以本人爲例:web
注:安裝過程當中請注意必定要請勾選pip安裝並加入到環境變量中,不然後續沒法正常安裝第三方類庫。sql
3.安裝爬蟲框架必須依賴的第三方類庫Twisted,在使用pip安裝時會出現下載文件失敗而沒法安裝問題,因此我直接下載源文件,而後cmd進入下載文件windows
目錄下是用pip install 下載文件全名 安裝便可,下載地址以下: https://www.lfd.uci.edu/~gohlke/pythonlibs/ 搜索Twisted 而後找到跟本地Python版本匹配的whl文件微信
,好比我本地安裝Python3.5.3 64位,name下載的文件就應該選擇:框架
4.安裝selenimu 自動化web包,cmd進入任意目錄,執行 pip install seleniumdom
5.安裝pymysql 鏈接mysql包,cmd進入任意目錄,執行pip install pymysqlscrapy
6.安裝pillow圖片處理包, pip install piplowide
7.安裝pypiwin32 操做底層dll包,pip install pypiwin32
8.安裝requests 發送web請求包 pip install requests
9.安裝scrapy 爬蟲框架包 pip install scrapy
10.安裝解析網頁內容包 pip install bs4。
11.截止以上十步爬蟲所主要依賴第三方類庫安裝完成,下一步驗證爬蟲框架。
11.進入cmd,輸入scrapy 查看scrapy是否安裝成功。
12在cmd中進入任意目錄,輸入scrapy startproject testproject 建立一個機遇scrapy的爬蟲工程,目錄結構以下>
13.建立完工程後,可經過scrapy genspider mydomain mydomain.com 命令建立一個名字爲mydomain 網站爲mydomain.com的爬蟲。
14建立完爬蟲後,在工程目錄下執行scrapy list 查看剛纔建立的爬蟲是否成功,以下:
15.不修改爬蟲內容,測試爬蟲是否正常運行,執行以下命令:
scrapy crawl 爬蟲名稱(好比個人工程執行 scrapy crawl test_pc)以下:
至此,一個簡單的爬蟲系統從頭到最後運行的過程所有搭建完成。
另:本人微信ma0603kang 郵箱:ma0603kang@163.com,若是有什麼問題能夠聯繫我。