關於爬蟲

時間 2019-11-05

標籤關於爬蟲欄目網絡爬蟲简体版

原文原文鏈接

技術選型

scrapy VS requests+beautifulsoupcss

1.　requests+beautifulsoup都是庫，而scrapy是框架html

2.　scrapy框架中能夠加入requests+beautifulsouppython

3.　scrapy框架是基於twisted（異步IO框架）的，性能是最大優點web

4.　scrapy方便擴展，提供了不少內置的功能redis

5.　scrapy內置的css和xpath selector很是方便，beautifulsoup最大的缺點就是慢api

1.　靜態網頁python爬蟲

2.　動態網頁框架

3.　webservice(rest api)機器學習

1.　搜索引擎：Googel、百度、垂直領域搜索引擎異步

2.　推薦引擎：今日頭條

3.　機器學習的數據樣本

4.　數據分析（如金融數據分析）、輿情分析等

相關標籤/搜索