經過前面的文章已經學習了基本的爬蟲知識,經過這個例子進行一下練習,畢竟前面文章的知識點只是一個python
一個單獨的散知識點,須要經過實際的例子進行融合git
其實爬蟲最重要的是前面的分析網站,只有對要爬取的數據頁面分析清楚,才能更方便後面爬取數據github
目標站和目標數據
目標地址:http://www.hshfy.sh.cn/shfy/gweb/ktgg_search.jsp
目標數據:目標地址頁面的中間的案開庭公告數據web
對數據頁面分析
從打開頁面後能夠看到默認的數據是一個月的數據,即當天到下個月該天的
經過翻頁能夠返現這個時候頁面的url地址是不變的,因此這裏咱們大體就能夠判斷出,中間表格的數據是經過js動態加載的,咱們能夠經過分析抓包,找到真實的請求地址jsp
經過上圖咱們能夠發現其實幀數的數據來源是http://www.hshfy.sh.cn/shfy/gweb/ktgg_search_content.jsp 這個地址。
當直接訪問這個地址能夠看到以下數據:ide
也正好驗證了咱們前面所說的,中間表格的數據是經過js動態加載的,因此咱們剩下的就是對這個地址進行分析學習
分析真實地址網站
經過上圖咱們能夠分析幾個對咱們有用的數據就是請求地址以及請求參數,
請求參數中,最重要的是日期以及頁數url
代碼的功能還有待完善,只是一個初步的例子
代碼地址:https://github.com/pythonsite/spider/tree/master/www.hshfy.sh.cnblog