數據來源
html
經過Python腳本,自動抓取國家統計局最新的中國省市區三級城市信息,目前抓取的最新數據爲2017年統計用區劃代碼和城鄉劃分代碼(截止2017年10月31日),我會關注,時刻保持更新。python
目前支持MySQL格式和JSON格式,其中MySQL的有兩個版本,分別爲三張表和一張表的,即三張表的爲省市區三張表,而一張表的則把省市區三級城市經過關聯關係都存在一張表中,能夠根據本身的需求進行選擇,若是有其餘格式需求,能夠聯繫我或者本身修改腳本。mysql
├── json/ # 存儲JSON數據格式
├── mysql/ # 存儲三張表的數據格式
├── mysql_v2/ # 存儲一張表的數據格式
├── city_to_json.py # 抓取JSON數據格式的腳本
├── city_mysql.py # 抓取三張表的數據格式的腳本
├── city_to_mysql_v2.py # 抓取一張表的數據格式的考平貝母
├── mysql_init.sql # 存儲三張表的數據的表結構
├── mysql_v2_init # 存儲一張表的數據的表結構複製代碼
若有須要,直接下載後綴爲json或者sql的文件便可直接使用,也能夠根據對應的python腳本從新生成相應的省市區三級地址庫數據。git
這裏主要使用requests、beautifulsoup4以及json這三個模塊,經過requests發送url頁面請求,而後BeautifulSoup分析請求到的頁面信息,抓取有效數據,經過json模塊,讀取以及存儲json格式的數據,而mysql的數據則直接經過文件的讀寫操做便可。github
這個爬蟲腳本比較易讀,並且礙於文章篇幅問題,因此,我這裏就不貼源碼了,直接放到交友網站GitHub上了,有興趣的能夠前往查看。sql
源碼以及數據地址:github.com/gxcuizy/Pyt…json