Python爬取CSDN博客數據

其實這事情挺簡單的,打開CSDN博客首頁,他不是有個最新文章麼,這個裏面都是最新發布的文章。
api

本人對於Python學習建立了一個小小的學習圈子,爲各位提供了一個平臺,你們一塊兒來討論學習Python。歡迎各位到來 Python學習羣:960410445一塊兒討論視頻分享學習。Python是將來的發展方向,正在挑戰咱們的分析能力及對世界的認知方式,所以,咱們與時俱進,迎接變化,並不斷的成長,掌握Python核心技術,纔是掌握真正的價值所在。

打開F12抓取一下數據API,很容易就獲取到了他的接口學習


提取連接長成這個樣子.net

https://blog.csdn.net/api/articles?type=more&category=newarticles&shown_offset=15403812340000003d

發現博客最新文章是一個瀑布流頁面,不斷下拉,只有一個參數shown_offset 在變化,按照我多年的行醫經驗,這個參數是個時間戳,並且確定是上一次數據最後一條的時間戳。cdn

基於這個理論,看一下數據,咦,猜對了~~~~~視頻

博客返回的數據看一下,是否對味
blog


擼代碼接口

這個步驟就很是簡單了,就是經過requests去抓取這個連接就行了博客



數據獲取到了,固然要象徵性的保存一下requests

相關文章
相關標籤/搜索