基本上使用python語言完成html
1、抓取列表頁詳細頁python
受權(API)&未受權(爬蟲)普通抓取&需登陸性能優化
2、html解析1. BeautifulSoup2. 正則多線程
3、文本分析&天然語言處理性能
4、性能優化1. 反抓取屏蔽 http代理2. 性能優化多線程抓取優化