python抓取新浪新聞的分頁連結

時間 2021-01-11

原文原文鏈接

第一步：先找到新聞資訊存在的那個非同步存取的鏈接，該鏈接一般位在js那個分類下。然後把這個鏈接給requests 讓它存取內部的資料。取到之後你會發現，這個內容前後兩邊有保護層，即一個「(」和「);」,這個時候可以用lstrip和rstrip去截掉這些多餘的字符串。最後返回的就是一個json資料，通過json.loads將它賦給一個字典。早在之前就已經發現，這個字典是分層次的，首先是[