經過Python爬取國家統計局省市區三級地址庫(支持MySQL和JSON格式)


數據來源
html

經過Python腳本,自動抓取國家統計局最新的中國省市區三級城市信息,目前抓取的最新數據爲2017年統計用區劃代碼和城鄉劃分代碼(截止2017年10月31日),我會關注,時刻保持更新。python

數據格式

目前支持MySQL格式和JSON格式,其中MySQL的有兩個版本,分別爲三張表和一張表的,即三張表的爲省市區三張表,而一張表的則把省市區三級城市經過關聯關係都存在一張表中,能夠根據本身的需求進行選擇,若是有其餘格式需求,能夠聯繫我或者本身修改腳本。mysql

腳本目錄結構

├── json/                    # 存儲JSON數據格式
├── mysql/                   # 存儲三張表的數據格式
├── mysql_v2/                # 存儲一張表的數據格式
├── city_to_json.py          # 抓取JSON數據格式的腳本
├── city_mysql.py            # 抓取三張表的數據格式的腳本
├── city_to_mysql_v2.py      # 抓取一張表的數據格式的考平貝母
├── mysql_init.sql           # 存儲三張表的數據的表結構
├── mysql_v2_init            # 存儲一張表的數據的表結構複製代碼

若有須要,直接下載後綴爲json或者sql的文件便可直接使用,也能夠根據對應的python腳本從新生成相應的省市區三級地址庫數據。git

抓取數據方法

這裏主要使用requestsbeautifulsoup4以及json這三個模塊,經過requests發送url頁面請求,而後BeautifulSoup分析請求到的頁面信息,抓取有效數據,經過json模塊,讀取以及存儲json格式的數據,而mysql的數據則直接經過文件的讀寫操做便可。github

源碼分享

這個爬蟲腳本比較易讀,並且礙於文章篇幅問題,因此,我這裏就不貼源碼了,直接放到交友網站GitHub上了,有興趣的能夠前往查看。sql

源碼以及數據地址:github.com/gxcuizy/Pyt…json

相關文章
相關標籤/搜索