不知道你們有沒有和我同樣的想法,最開始學習Python的興趣就是爲了爬蟲,爬一些好看的妹子圖片...css
恩,準備進入正題了!最近一段時間沒有怎麼更新公衆號,主要就是在作爬蟲教程的一些準備工做,看看爬蟲須要用到那些技術,而後作個計劃出來,肯定一下學習課程中縫,這不今天就先列出一些玩爬蟲須要的準備工做!html
Python爬蟲這門技術你能夠作得很簡單,你也能夠玩得很深刻.打比方用簡單的爬蟲方式爬取1000萬條數據可能須要一週時間,但若是你的爬蟲玩得比較厲害,你能夠採用分佈式爬蟲技術1天就能完成了1000萬條數據。雖然都是爬蟲,但這就是菜鳥與大牛的區別!這就和太極拳似的,易學難精!mysql
這裏面的技術點挺多的!如今來簡單聊聊爬蟲須要涉及的知識點。正則表達式
html,js,css,xpath
這些知識,雖然簡單,但必定須要瞭解。 你得知道這些網頁是如何構成的,而後才能去分解他們.redis
有了正則表達式才能更好的分割網頁信息,獲取咱們想要的數據,因此正則表達式也是須要了解的.sql
爬取到的數據咱們得有個地方來保存,可使用文件,也可使用數據庫,這裏我會使用mysql
,還有更適合爬蟲的MongoDB
數據庫,以及分佈式要用到的redis 數據庫數據庫
PySpider
和Scrapy
這兩個爬蟲框架是很是NB的,簡單的爬蟲可使用urllib
與urllib2
以及正則表達式就能完成,但高級的爬蟲還得用這兩個框架。 這兩個框架須要另行安裝。後面一塊兒學習.瀏覽器
有時候你的網站數據想禁止別人爬取,能夠作一些反爬蟲處理操做。 打比方百度上就沒法去查找淘寶上的數據,這樣就避開了搜索引擎的競爭,淘寶就能夠搞本身的一套競價排名緩存
使用多個redis
實例來緩存各臺主機上爬取的數據。cookie
爬蟲要學的東西仍是挺多的,想把爬蟲玩得666,基本就是這些知識點吧!好了,上面的東西我也只是粗略整理,筆誤在所不免,後面咱們會一塊兒來學習爬蟲知識吧!而我也準備作這樣一套完整的爬蟲系列教程!
最後咱們一塊兒來一場愉快的爬蟲之旅吧!