昨天早上,我習慣性的打開博客園,看一看別人的寫的博客。忽然想起,本身好像沒有寫過什麼博客,因此就心血來潮,把我如今作得事情寫出來,html
這也是對我目前的學習的一種總結。望大神指點。。。。ajax
對於一間學校的新聞,主要有兩種值得去捉取的Url,一種是List頁面的Url,一種是Detail頁面的Url,List頁和Detail頁面是我對以下的兩種Url的簡稱。數據庫
【List頁面】List頁面類型:http://news2.sysu.edu.cn/news01/index.htmjson
【Detail頁面】Detail頁面類型:http://news2.sysu.edu.cn/news01/140075.htm學習
在詳細介紹學校的Url以前,必需要懂得三個名詞,分別是靜態Url,僞靜態Url,和動態Url網站
根據某個網站的解釋:http://www.admin5.net/thread-2214256-1-1.html編碼
一個動態的網址是一個網頁解決這一結果從搜索的數據庫驅動的網站或URL中的一個網站,運行一個腳本。相比之下,以靜態的URL ,其中的內容網頁上spa
保持不變,除非改變硬編碼到HTML格式的,動態的URL產生的具體問題給某個站點的數據庫。動態頁基本上只有一個模板,其中,以展現成果數據庫查詢。.net
而不是不斷變化的信息,在HTML源代碼中,數據的改變而改變在數據庫中。orm
僞靜態Url就是把動態Url經轉化而成的靜態Url。
基本大部分學校的List頁面和Deteal頁面都會使用僞靜態的Url,也會存在少部分使用動態Url的學校,還有小部分的使用ajax加json或者xml來加載頁面的學校。
因此先說說List頁面的僞靜態Url的狀況。
List頁面的僞靜態Url:上面提到,僞靜態Url是由動態Url轉化而來的,其本質仍是動態Url,因此其裏面是包含這查詢字符串的。因此這個查詢字符串就是這個Detail
頁面的特徵量,通常來講這個特徵量由兩部分組成,第一個是欄目,第二個是頁數。不過僅僅是通常來講是這樣,有小部分比較奇葩的大學卻在頁數中作文章。通常會分紅
3種狀況。
狀況1:第一頁和之後的的List頁面的Url的規律不同,首頁【http://news.gcu.edu.cn/news/xinwen/xinwen.html】,
非首頁【http://news.gcu.edu.cn/news/xinwen/xinwen_2.html】,首頁的Url竟然不是http://news.gcu.edu.cn/news/xinwen/xinwen_1.html,這種狀況是最
常發生的,我也不知道爲何,大牛們能夠告訴我這是出於什麼目的????
狀況2:List的是按時間來展現的http://www.gdyzy.edu.cn/DocLib2/Forms/AllPages.aspx?Paged=TRUE&p__x65e5__x671f_=20140302%2016%3a00%3a00&p_ID=1615&View=%7b3C7F240C-0A23-4972-9796-B26C42EF4948%7d&PageFirstRow=101
其中標紅的20140302%2016%3a00%3a00解碼以後是20140302 16:00:00,這個Url意思是查詢在20140302 16:00:00以前發佈的前100條記錄,這些記錄明顯是按時間排序的。
狀況3:List頁面是以倒敘的方式展現的,表明爲廣外,首頁Url【http://new1.gdufs.edu.cn/xxyw.htm】,第二頁Ulr【http://new1.gdufs.edu.cn/xxyw/1152.htm】,
第三頁Url【http://new1.gdufs.edu.cn/xxyw/1151.htm】,原理爲按發佈時間排序,最先發布的前20條記錄爲第一頁,因此就會出現跟普通的List頁面不同的狀況。
List頁面的使用靜態Ur:通常都是使用Post的方式的,而且是使用ajax來加載數據的。例子:http://www.gdrtvu.edu.cn/cms/wwwgdrtvu/xuexiaoxinwen/xuexiaoyaowen/index.xml Post的數據temp=0.664261247497052&&&&&page=5&size=15。
List頁面使用動態Url:例子http://www.gtxy.cn/xyxwnew.asp?cid=24&page=2,這種Url對於我來講是最簡單,也是作容易實現捉取的動做的。
時間不早了,學生黨須要吃飯勒,必須吐槽一下學校的飯堂,能不能衛生一點啊!!!有空繼續。。。