Python爬蟲寫在前面

不知道你們有沒有和我同樣的想法,最開始學習Python的興趣就是爲了爬蟲,爬一些好看的妹子圖片...css

恩,準備進入正題了!最近一段時間沒有怎麼更新公衆號,主要就是在作爬蟲教程的一些準備工做,看看爬蟲須要用到那些技術,而後作個計劃出來,肯定一下學習課程中縫,這不今天就先列出一些玩爬蟲須要的準備工做!html

Python爬蟲這門技術你能夠作得很簡單,你也能夠玩得很深刻.打比方用簡單的爬蟲方式爬取1000萬條數據可能須要一週時間,但若是你的爬蟲玩得比較厲害,你能夠採用分佈式爬蟲技術1天就能完成了1000萬條數據。雖然都是爬蟲,但這就是菜鳥與大牛的區別!這就和太極拳似的,易學難精!mysql

這裏面的技術點挺多的!如今來簡單聊聊爬蟲須要涉及的知識點。正則表達式

網頁知識

html,js,css,xpath這些知識,雖然簡單,但必定須要瞭解。 你得知道這些網頁是如何構成的,而後才能去分解他們.redis

HTTP知識

  • 通常爬蟲你須要模擬瀏覽器的操做,才能去獲取網頁的信息
  • 若是有些網站須要登陸,才能獲取更多的資料,你得去登陸,你得把登陸的帳號密碼進行提交
  • 有些網站登陸後須要保存cookie信息才能繼續獲取更多資料

正則表達式

有了正則表達式才能更好的分割網頁信息,獲取咱們想要的數據,因此正則表達式也是須要了解的.sql

一些重要的爬蟲庫

  • url,url2
  • beautiul Soup

數據庫

爬取到的數據咱們得有個地方來保存,可使用文件,也可使用數據庫,這裏我會使用mysql,還有更適合爬蟲的MongoDB數據庫,以及分佈式要用到的redis 數據庫數據庫

爬蟲框架

PySpiderScrapy 這兩個爬蟲框架是很是NB的,簡單的爬蟲可使用urlliburllib2以及正則表達式就能完成,但高級的爬蟲還得用這兩個框架。 這兩個框架須要另行安裝。後面一塊兒學習.瀏覽器

反爬蟲

有時候你的網站數據想禁止別人爬取,能夠作一些反爬蟲處理操做。 打比方百度上就沒法去查找淘寶上的數據,這樣就避開了搜索引擎的競爭,淘寶就能夠搞本身的一套競價排名緩存

分佈式爬蟲

使用多個redis實例來緩存各臺主機上爬取的數據。cookie

爬蟲要學的東西仍是挺多的,想把爬蟲玩得666,基本就是這些知識點吧!好了,上面的東西我也只是粗略整理,筆誤在所不免,後面咱們會一塊兒來學習爬蟲知識吧!而我也準備作這樣一套完整的爬蟲系列教程!

最後咱們一塊兒來一場愉快的爬蟲之旅吧!

相關文章
相關標籤/搜索