Jsoup獲取全國地區數據（省市縣鎮村）

時間 2019-11-17

標籤 jsoup 獲取全國地區數據省市縣鎮欄目 Java 简体版

原文原文鏈接

　　最近手頭在作一些東西，須要一個全國各地的地域數據，從省市區到縣鎮鄉街道的。各類度娘，各類谷歌，都沒找到一個完整的數據。最後功夫不負有心人，總算找到一份相對來講比較完整的數據，可是這裏的數據也只是精確到鎮級別，沒有村一級的數據（後來經過分析數據源我知道了爲何，呵呵），在加上博主提供的有些數據存在冗餘，對於有強迫症和追求完美的我，心想着我必定要本身動手去把這部分數據給爬取出來。php

　　上述博文中的內容還算豐富，博主是用的是php來實現的，做爲2015年度編程語言排行榜的第一位，咱們也不能示弱啊，下面我就帶着你們一塊兒來看看用java怎麼從網頁當中爬取咱們想要的數據...css

第一步、準備工做（數據源+工具）:

　　數據源（截止目前最全面權威的官方數據）：http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2013/html

　　爬取數據的工具（爬蟲工具）：http://jsoup.org/java

第二步、數據源分析：

　　首先jsoup工具的使用我在這裏就不作講解了，感興趣的能夠本身動手去查閱。node

　　作開發就應該多去了解一些軟件工具的使用，在日常開發過程當中遇到了才知道從何下手，鼓勵你們多平時留意一些身邊的軟件工具，以備不時之需。在作這個東西之前，我也不知道jsoup要怎麼用，但我知道jsoup能夠用來幹嗎，在我須要的用到的時候，再去查閱資料，本身學習。程序員

　　上述的數據源是2013年中華人民共和國國家統計局發佈的，其準確性和權威性不言而喻。編程

　　接下來咱們分析一下數據源的結構，先從首頁提及：　　編程語言

　　經過分析首頁源碼咱們能夠獲得以下3點：工具

頁面的整個佈局是用的table標籤來控制的，也就是說咱們若是要經過jsoup來選擇超連接，那麼必定要注意，上圖中不是隻要標註了省市地區的地方採用的纔是表格，整個頁面中存在多個表格，所以是不能夠直接經過表格
```
Document connect = connect("http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2013/");
Elements rowProvince = connect.select("table");
```
來解析數據的。佈局
頁面中有超連接的部分有多少地方。多是官方考慮到了大家這種程序員須要獲取這樣的數據的緣由吧，頁面很乾淨，除開下方的備案號是多餘的超連接，其餘的連接能夠直接爬取。
省份城市的數據規律。包含有效信息的表格的每一行都有一個class屬性provincetr,這個屬性很重要，至於爲何重要，請接着往下看；每一行數據中存在多個td標籤，每個td標籤中包含一個a超連接，而這個超連接正是咱們想要的超連接，超連接的文本即便省份（直轄市等）的名稱。

　　再次咱們再看一下通常的數據頁面（通常的數據頁面包括市級、縣級、鎮級這三級數據展現頁面）：

　　之因此要把上述三個頁面放在一塊兒，是由於經過分析咱們能夠發現，這三級數據的數據頁面徹底一致，惟一不一樣的就是在html源碼數據表格中的數據行tr的class屬性不一致，分別對應爲：citytr,countrytrhe towntr。其餘均一致。這樣咱們就能夠用一個通用的方法解決這三個頁面的數據爬取。　　

　　最後看看村一級的數據頁面：　　

　　在村一級的數據中，和上述市縣鎮的數據格式不一致，這一級所表示的數據是最低一級的，因此不存在a連接，所以不能採用上面市縣鎮數據的爬取方式去爬取；這裏展現數據的表格行的class爲villagetr，除開這兩點之外，在每一行數據中包含三列數據，第一列是citycode,第二列是城鄉分類（市縣鎮的數據格式不存在這一項），第三列是城市名稱。

　　把握了以上各個要點以外，咱們就能夠開始編碼了。

第三步、編碼實現：

import java.io.BufferedWriter;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;
import java.util.HashMap;
import java.util.Map;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

/**
 * 全國省市縣鎮村數據爬取
 * @author liushaofeng
 * @date 2015-10-11 上午12:19:39
 * @version 1.0.0
 */
public class JsoupTest
{
    private static Map<Integer, String> cssMap = new HashMap<Integer, String>();
    private static BufferedWriter bufferedWriter = null;

    static
    {
        cssMap.put(1, "provincetr");// 省
        cssMap.put(2, "citytr");// 市
        cssMap.put(3, "countytr");// 縣
        cssMap.put(4, "towntr");// 鎮
        cssMap.put(5, "villagetr");// 村
    }

    public static void main(String[] args) throws IOException
    {
        int level = 1;

        initFile();

        // 獲取全國各個省級信息
        Document connect = connect("http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2013/");
        Elements rowProvince = connect.select("tr." + cssMap.get(level));
        for (Element provinceElement : rowProvince)// 遍歷每一行的省份城市
        {
            Elements select = provinceElement.select("a");
            for (Element province : select)// 每個省份(四川省)
            {
                parseNextLevel(province, level + 1);
            }
        }

        closeStream();
    }

    private static void initFile()
    {
        try
        {
            bufferedWriter = new BufferedWriter(new FileWriter(new File("d:\\CityInfo.txt"), true));
        } catch (IOException e)
        {
            e.printStackTrace();
        }
    }

    private static void closeStream()
    {
        if (bufferedWriter != null)
        {
            try
            {
                bufferedWriter.close();
            } catch (IOException e)
            {
                e.printStackTrace();
            }
            bufferedWriter = null;
        }
    }

    private static void parseNextLevel(Element parentElement, int level) throws IOException
    {
        try
        {
            Thread.sleep(500);//睡眠一下，不然可能出現各類錯誤狀態碼
        } catch (InterruptedException e)
        {
            e.printStackTrace();
        }

        Document doc = connect(parentElement.attr("abs:href"));
        if (doc != null)
        {
            Elements newsHeadlines = doc.select("tr." + cssMap.get(level));//
            // 獲取表格的一行數據
            for (Element element : newsHeadlines)
            {
                printInfo(element, level + 1);
                Elements select = element.select("a");// 在遞歸調用的時候，這裏是判斷是不是村一級的數據，村一級的數據沒有a標籤
                if (select.size() != 0)
                {
                    parseNextLevel(select.last(), level + 1);
                }
            }
        }
    }

    /**
     * 寫一行數據到數據文件中去
     * @param element 爬取到的數據元素
     * @param level 城市級別
     */
    private static void printInfo(Element element, int level)
    {
        try
        {
            bufferedWriter.write(element.select("td").last().text() + "{" + level + "}["
                + element.select("td").first().text() + "]");
            bufferedWriter.newLine();
            bufferedWriter.flush();
        } catch (IOException e)
        {
            e.printStackTrace();
        }
    }

    private static Document connect(String url)
    {
        if (url == null || url.isEmpty())
        {
            throw new IllegalArgumentException("The input url('" + url + "') is invalid!");
        }
        try
        {
            return Jsoup.connect(url).timeout(100 * 1000).get();
        } catch (IOException e)
        {
            e.printStackTrace();
            return null;
        }
    }
}

數據爬取過程即是一個漫長的過程，只須要慢慢等待吧，呵呵,因爲程序運行時間較長，請不要在控制檯打印輸出，不然可能會影響程序運行....

最終獲取到數據的格式以下（"{}"中表示城市級別，"[]"中內容表示城市編碼）：

拿到以上數據之後，本身想幹什麼均可以自我去實現了，以上的代碼能夠直接運行，從數據源爬取後，能夠直接轉換成本身所要的格式。

後續處理的最終結果，請參見博文：http://www.cnblogs.com/liushaofeng89/p/4937714.html

若是你以爲本博文對你有所幫助，請記得點擊右下方的"推薦"哦，麼麼噠...

轉載請註明出處：http://www.cnblogs.com/liushaofeng89/p/4873086.html

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。