Python爬蟲寫在前面

時間 2019-11-08

原文原文鏈接

不知道你們有沒有和我同樣的想法，最開始學習Python的興趣就是爲了爬蟲，爬一些好看的妹子圖片...css

恩，準備進入正題了！最近一段時間沒有怎麼更新公衆號，主要就是在作爬蟲教程的一些準備工做，看看爬蟲須要用到那些技術，而後作個計劃出來,肯定一下學習課程中縫,這不今天就先列出一些玩爬蟲須要的準備工做!html

Python爬蟲這門技術你能夠作得很簡單，你也能夠玩得很深刻.打比方用簡單的爬蟲方式爬取1000萬條數據可能須要一週時間，但若是你的爬蟲玩得比較厲害，你能夠採用分佈式爬蟲技術1天就能完成了1000萬條數據。雖然都是爬蟲，但這就是菜鳥與大牛的區別！這就和太極拳似的，易學難精！mysql

這裏面的技術點挺多的！如今來簡單聊聊爬蟲須要涉及的知識點。正則表達式

html，js,css，xpath這些知識，雖然簡單，但必定須要瞭解。你得知道這些網頁是如何構成的，而後才能去分解他們.redis

有了正則表達式才能更好的分割網頁信息，獲取咱們想要的數據，因此正則表達式也是須要了解的.sql

爬取到的數據咱們得有個地方來保存，可使用文件，也可使用數據庫，這裏我會使用mysql，還有更適合爬蟲的MongoDB數據庫，以及分佈式要用到的redis 數據庫數據庫

PySpider和Scrapy 這兩個爬蟲框架是很是NB的,簡單的爬蟲可使用urllib與urllib2以及正則表達式就能完成，但高級的爬蟲還得用這兩個框架。這兩個框架須要另行安裝。後面一塊兒學習.瀏覽器

有時候你的網站數據想禁止別人爬取，能夠作一些反爬蟲處理操做。打比方百度上就沒法去查找淘寶上的數據，這樣就避開了搜索引擎的競爭，淘寶就能夠搞本身的一套競價排名緩存

使用多個redis實例來緩存各臺主機上爬取的數據。cookie

爬蟲要學的東西仍是挺多的，想把爬蟲玩得666，基本就是這些知識點吧！好了，上面的東西我也只是粗略整理，筆誤在所不免，後面咱們會一塊兒來學習爬蟲知識吧！而我也準備作這樣一套完整的爬蟲系列教程！

最後咱們一塊兒來一場愉快的爬蟲之旅吧！

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。