1、基本思路:spa
1.獲取DTD、XSD數據的URLS(從谷歌搜索結果中獲取)blog
2.打獲URLS獲取DTD、XSD文件(期間去除不能打開鏈接的,對錯誤的數據進行分析、對數據歸類)class
2、獲取DTD、XSD數據的URLS搜索
所謂的DTD、XSD數據的URLS即爲紅線標識的im
分析不難找出一下規律:(搜索的結果都在id='search'的div裏,每個URL都在class='g'的div裏class='r'的h3裏的a的href屬性裏)數據
基本代碼以下(用到第三方模塊BeautifulSoup):img