天眼查新方式信息爬取

#本文經過新的方式爬取突破html 因爲公司列表頁信息不多反爬,除了公司名稱其餘信息都沒有,因此能夠取巧提取註冊時間註冊資本信息 訪問過多過快也會封,測試能夠經過隨機UA突破 另外公司具體信息詳情頁可能不一樣公司展現xpath位置不同,因此用re 另外經營範圍下載回來出現&#x開頭的亂碼,#&#xxx 的格式實際上是unicode,用HTMLParser庫解析 #最後實現結果:基本3秒能查出5家相
相關文章
相關標籤/搜索