<讀書筆記>如何入門爬蟲?

大部分爬蟲框架都是python

  1. 發送請求
  2. 得到頁面
  3. 解析頁面
  4. 下載內容
  5. 存儲內容

定個宏偉目標mysql

  1. 淘寶1000頁
  2. 知乎
  3. 豆瓣
  4. ...

 

python基礎正則表達式

  1. list、dict:序列化爬取的內容
  2. 切片:分割爬取內容,獲取須要的部分
  3. 條件判斷:只找須要的,過濾掉沒用的
  4. 循環和迭代:重複爬蟲動做,直到爬取完成
  5. 文件讀寫操做:讀取參數,將爬取的內容保存
  6. 編碼常識:轉碼和解碼  

 

知識儲備redis

  1. 網頁基礎知識:HTML、POST、GET、JS
  2. 分析語言:正則表達式、XPath、Beautifulsoup

 

輔助工具sql

  1. 開發者工具:F12
  2. 抓包工具:Fiddler 4
  3. 正則表達式測試http://tool.chinaz.com/regex/
  4. 谷歌翻譯https://translate.google.cn/
  5. JSON解析https://www.json.cn/
  6. PyCharm(Windows)
  7. Eclipse for Python(Linux)

 

各類模塊  mongodb

  1. urllib
  2. urllib2
  3. requests
  4. scrapy
  5. selenium
  6. phantomJS

反爬蟲策略數據庫

  1. 打碼平臺
  2. PIL(圖像處理標準庫)
  3. OpenCV((開源)發行的跨平臺計算機視覺庫) 
  4. Pybrain(號稱最好用的Python神經網絡庫)
  5. 。。。

數據庫編程

  1. mysql
  2. mongodb
  3. sqlite(scrapy自帶的)
  4. redis(分佈式須要)

數據分析json

  1. numpy:數據分析,相似matlab
  2. pandas:基於numpy的數據分析模塊

進階技術網絡

  1. 多線程
  2. 分佈式

  Scrapy + MongoDB + Redis 分佈式爬蟲系統

  a). Redis 用來存儲要爬取的網頁隊列,也就是任務隊列

  b). MongoDB 用來存儲爬取的內容結果。

  c) . Scrapy 裏放爬蟲crawler , 分別爬取不一樣的網頁內容。

學以至用

  1. 多練習,多使用
  2. 編程是最容易得到的超能力。你還在等什麼?
相關文章
相關標籤/搜索