python3.5爬蟲-爬取微博某博主微博內容

想要爬取某個博主的微博數據。在網絡上尋找了不少關於爬取微博內容的教程,發現有些教程比較老舊了,已經沒法再用,有些教程在我這裏出現一些問題,好比爬取移動端的微博須要獲取登錄cookie,而個人谷歌瀏覽器卻沒法顯示,以下圖所示。最終發現一博主分享的源碼,親測可用。博客連接爲:https://blog.csdn.net/qq_16546829/article/details/79511997瀏覽器

可是在程序調試的時候發現以上博客中的源碼沒法獲取轉發的微博的內容,紅色框裏的內容能夠獲取,綠色框裏的內容得不到。如圖:cookie

那麼如何獲取綠色框中轉發微博的內容呢?只須要增長下圖紅框中的代碼,不要忘記在寫入文件時將retweeted寫進去。網絡

調試過程當中發現爬取200條左右的數據時,pycharm報錯:http error 418(不知什麼緣由,但願有大佬能夠指點一下)嘗試的解決方案爲:.net

在爬取完一頁以後,程序休眠一會,也就是說發送請求不要太頻繁。在大循環裏添加調試

time.sleep(10),如圖:

雖然慢了一些,可是比較穩。爬取5000多條數據以後出現了新的報錯:http error 502: Bad Gateway,從斷掉的地方開始從新爬仍是能夠爬的,有懂的朋友或者大佬能夠再評論裏留言指導下,謝謝\( ̄︶ ̄*\))code

相關文章
相關標籤/搜索