關於爬蟲

技術選型

scrapy VS requests+beautifulsoupcss

1. requests+beautifulsoup都是庫,而scrapy是框架html

2. scrapy框架中能夠加入requests+beautifulsouppython

3. scrapy框架是基於twisted(異步IO框架)的,性能是最大優點web

4. scrapy方便擴展,提供了不少內置的功能redis

5. scrapy內置的css和xpath selector很是方便,beautifulsoup最大的缺點就是慢api

網頁分類

1. 靜態網頁python爬蟲

2. 動態網頁框架

3. webservice(rest api)機器學習

爬蟲的做用

1. 搜索引擎:Googel、百度、垂直領域搜索引擎異步

2. 推薦引擎:今日頭條

3. 機器學習的數據樣本

4. 數據分析(如金融數據分析)、輿情分析等

關於Python爬蟲,咱們須要學習的有

1. Python基礎語法學習(基礎知識)
2. HTML頁面的內容抓取(數據抓取)
3. HTML頁面的數據提取(數據清洗)
4. Scrapy框架以及scrapy-redis分佈式策略(第三方框架)
6. 爬蟲(Spider)、反爬蟲(Anti-Spider)、反反爬蟲(Anti-Anti-Spider)之間的鬥爭....
相關文章
相關標籤/搜索