本教程是崔大大的爬蟲實戰教程的筆記:網易雲課堂html
Windows下安裝Python: http://www.cnblogs.com/0bug/p/8228378.html正則表達式
Linux以Ubuntu爲例,通常是自帶的,只需配置一下默認版本:http://www.cnblogs.com/0bug/p/8598273.htmlmongodb
virtualenv的安裝:http://www.cnblogs.com/0bug/p/8598458.html數據庫
用到的IDE是PyCharm,Windows下到官網下載就行(Professional版本):http://www.jetbrains.com/pycharm/download/瀏覽器
Linux下以Ubuntu爲例:http://www.cnblogs.com/0bug/p/8598673.html服務器
Pycharm須要花錢,建議花錢買正版。網站
Mac我就不寫了,由於我沒有Mac視頻
Windows下安裝和配置:http://www.cnblogs.com/0bug/p/8290330.htmlhtm
Linux以Ubuntu爲例:sudo apt-get install mongodbblog
Windows&Ubuntu:http://www.cnblogs.com/0bug/p/8892711.html
Windows&Ubuntu:http://www.cnblogs.com/0bug/p/8655363.html
爬蟲就是請求網站並提取數據的自動化程序
1.發起請求
2.解析請求
3.獲取相應內容
4.保存數據
好比咱們在瀏覽器中輸入一個網址
瀏覽器就會發送消息給該網址所在的服務器,這個過程就叫作HTTP Request
服務器收到瀏覽器發送的消息後,可以根據瀏覽器發送消息的內容,作相應處理,而後把消息回傳給瀏覽器。這個過程叫作HTTP Response
瀏覽器收到服務器的Response信息後,會對信息進行相應的處理,而後展現。
1.請求方式:
主要有GET、POST兩種類型,另外還有HEAD、PUT、DELETE、OPTIONS等。
HTTP協議中GET和POST方法的區別:http://www.cnblogs.com/0bug/p/8892959.html
2.請求URL
3.請求頭如User-Agent、Host、Cookies等
HTTP協議中中常見請求頭信息:http://www.cnblogs.com/0bug/p/8893038.html#_label1
4.請求體
1.響應狀態
有多種響應狀態如200表明成功,301表明跳轉,404表明找不到頁面,502表明服務器錯誤
2.響應頭
如內容類型,內容長度,服務器消息,設置Cookie等等
3.響應體
主要的部分,包含了請求資源的內容,如網頁HTML、圖片二進制數據等。
1.網頁文本:如HTML文檔,Json格式文本等
2.圖片:獲取的是二進制文件,另存爲圖片格式
3.視頻:同爲二進制文件,保持爲視頻格式便可
4.其餘:只有能請求,都能獲取
1.直接處理
2.Json解析
3.正則表達式
4.BeautifulSoup
5.PyQuery
6.Xpath
7.其餘
1.分析Ajax請求
2.Selenium/WebDriver
3.Splash
4.PyV八、Fhost.py
1.文本:純文本、Json、Xml等
2.關係型數據庫:如MySQL、Oracle、SQL Server等具備結構化表結構形式的存儲
3.非關係型數據庫:如MongoDB、Redis等Key-Value形式存儲
4.二進制文件:如圖片、視頻、音頻等等直接保存成特定格式便可
Ullib的基本使用:http://www.cnblogs.com/0bug/p/8893677.html
reuqests庫的基本用法:http://www.cnblogs.com/0bug/p/8899841.html
正則表達式與re模塊:http://www.cnblogs.com/0bug/p/8272233.html
Beautiful Soup庫基礎用法:http://www.cnblogs.com/0bug/p/8260834.html
PyQuery:http://www.cnblogs.com/0bug/p/8276717.html
Selenium基礎用法:http://www.cnblogs.com/0bug/p/8270552.html
Requests+正則表達式爬取貓眼電影:http://www.cnblogs.com/0bug/p/8906490.html