爬取巴比特快訊遇到狀態碼「521」

最近在爬區塊鏈相關的快訊,上週巴比特改版後重寫了爬蟲,跑了一天就掛了。原來是網站使用了加速樂的服務,爬蟲每次都返回521的狀態碼。 瀏覽器訪問網站時: 第一次請求:返回521狀態碼和一段js代碼。js會生成一段cookie並重新請求訪問。 第二次請求:帶着第一次得到的cookie去請求然後正確返回狀態碼200 而爬蟲不能像瀏覽器一樣執行js所以一直報錯521 解決辦法: 讓爬蟲模擬瀏覽器的行爲:
相關文章
相關標籤/搜索