互聯網數據的挖掘和分析

基本上使用python語言完成html

1、抓取
列表頁
詳細頁python

受權(API)&未受權(爬蟲)
普通抓取&需登陸性能優化

2、html解析
1. BeautifulSoup
2. 正則多線程


3、文本分析&天然語言處理性能

4、性能優化
1. 反抓取屏蔽 http代理
2. 性能優化
多線程抓取優化

相關文章
相關標籤/搜索