純真IP數據庫格式詳解 附demo

純真版IP數據庫,優勢是記錄多,查詢速度快,它只用一個文件QQWry.dat就包含了全部記錄,方便嵌入到其餘程序中,也方便升級。缺點是你想要編輯它倒是比較麻煩的,因爲其文件格式的限制,你要直接添加IP記錄就不容易了php

基本結構
QQWry.dat 文件在結構上分爲3塊:文件頭,記錄區,索引區。通常咱們要查找IP時,先在索引區查找記錄偏移,而後再到記錄區讀出信息。因爲記錄區的記錄是不定長的, 因此直接在記錄區中搜索是不可能的。因爲記錄數比較多,若是咱們遍歷索引區也會是有點慢的,通常來講,咱們能夠用二分查找法搜索索引區,其速度比遍歷索引 區快若干數量級。圖1是QQWry.dat的文件結構圖。數據庫

 


圖1. QQWry.dat文件結構
要注意的是,QQWry.dat裏面所有采用了little-endian字節序網絡

一. 瞭解文件頭
QQWry.dat的文件頭只有8個字節,其結構很是簡單,首四個字節是第一條索引的絕對偏移,後四個字節是最後一條索引的絕對偏移。函數

二. 瞭解記錄區
每 條IP記錄都由國家和地區名組成,國家地區在這裏並非太確切,由於可能會查出來「清華大學計算機系」之類的,這裏清華大學就成了國家名了,因此這個國家 地區名和IP數據庫製做的時候有關係。因此記錄的格式有點像QName,有一個全局部分和局部部分組成,咱們這裏仍是沿用國家名和地區名的說法。this

於 是咱們想象着一條記錄的格式應該是: [IP地址][國家名][地區名],固然,這個沒有什麼問題,可是這只是最簡單的狀況。很顯然,國家名和地區名可能會有不少的重複,若是每條記錄都保存一 個完整的名稱拷貝是很是不理想的,因此咱們就須要重定向以節省空間。因此爲了獲得一個國家名或者地區名,咱們就有了兩個可能:第一就是直接的字符串表示的 國家名,第二就是一個4字節的結構,第一個字節代表了重定向的模式,後面3個字節是國家名或者地區名的實際偏移位置。對於國家名來講,狀況還可能更復雜 些,由於這樣的重定向最多可能有兩次。編碼

那麼什麼是重定向模式?根據上面所說,一條記錄的格式是[IP地址][國家記錄][地區記錄],若是國家記錄是重定向的話,那麼地區記錄是有可能沒有的,因而就有了兩種狀況,我管他叫作模式1和模式2。咱們對這些格式的狀況舉圖說明:spa

 


圖2. IP記錄的最簡單形式
圖2表示了最簡單的IP記錄格式,我想沒有什麼能夠解釋的設計

 


圖3. 重定向模式1
圖3演示了重定向模式1的狀況。咱們看到在模式1的狀況下,地區記錄也跟着國家記錄走了,在IP地址以後只剩下了國家記錄的4字節,後面3個字節構成了一個指針,指向了實際的國家名,而後又跟着地址名。模式1的標識字節是0x01。3d

 


圖4. 重定向模式2
圖 4演示了重定向模式2的狀況。咱們看到了在模式2的狀況下(其標識字節是0x02),地區記錄沒有跟着國家記錄走,所以在國家記錄以後4個字節以後仍是有 地區記錄。我想你已經明白了模式1和模式2的區別,即:模式1的國家記錄後面不會再有地區記錄,模式2的國家記錄後會有地區記錄。下面咱們來看一下更復雜 的狀況。指針

 


圖5. 混和狀況1
圖 5演示了當國家記錄爲模式1的時候可能出現的更復雜狀況,在這種狀況下,重定向指向的位置仍然是個重定向,不過第二次重定向爲模式2。你們不用擔憂,沒有 模式3了,這個重定向也最多隻有兩次,而且若是發生了第二次重定向,則其必定爲模式2,並且這種狀況只會發生在國家記錄上,對於地區記錄,模式1和模式2 是同樣的,地區記錄也不會發生2次重定向。不過,這個圖還能夠更復雜,如圖7:

 


圖6. 混和狀況2
圖6是模式1下最複雜的混和狀況,不過我想應該也很好理解,只不過地區記錄也來重定向而已,有一點我要提醒你,若是重定向的地址是0,則表示未知的地區名。

所 以咱們總結以下:一條IP記錄由[IP地址][國家記錄][地區記錄]組成,對於國家記錄,能夠有三種表示方式:字符串形式,重定向模式1和重定向模式 2。對於地區記錄,能夠有兩種表示方式:字符串形式和重定向,另外有一條規則:重定向模式1的國家記錄後不能跟地區記錄。按照這個總結,在這些方式中合理 組合,就構成了IP記錄的全部可能狀況。

設計的理由
在咱們繼續去了解索引區的結構以前,咱們先來了解一下爲什麼記錄區的結構要如此設 計。我想你可能想到了答案:字符串重用。沒錯,在這種結構下,對於一個國家名和地區名,我只須要保存其一次就能夠了。咱們舉例說明,爲了表示方便,咱們用 小寫字母表明IP記錄,C表示國家名,A表示地區名:

有兩條記錄a(C1, A1), b(C2, A2),若是C1 = C2, A1 = A2,那麼咱們就可使用圖3顯示的結構來實現重用
有三條記錄a(C1, A1), b(C2, A2), c(C3, A3),若是C1 = C2, A2 = A3,如今咱們想存儲記錄b,那麼咱們能夠用圖6的結構來實現重用
有兩條記錄a(C1, A1), b(C2, A2),若是C1 = C2,如今咱們想存儲記錄b,那麼咱們能夠採用模式2表示C2,用字符串表示A2

你能夠舉出更多的狀況,你也會發如今這種結構下,不一樣的字符串只須要存儲一次。

瞭解索引區
在"瞭解文件頭"部分,咱們說明了文件頭其實是兩個指針,分別指向了第一條索引和最後一條索引的絕對偏移。如圖8所示:

 


圖8. 文件頭指向索引區圖示
實 在是很簡單,不是嗎?從文件頭你就能夠定位到索引區,而後你就能夠開始搜索IP了!每條索引長度爲7個字節,前4個字節是起始IP地址,後三個字節就指向 了IP記錄。這裏有些概念須要說明一下,什麼是起始IP,那麼有沒有結束IP? 假設有這麼一條記錄:166.111.0.0 - 166.111.255.255,那麼166.111.0.0就是起始IP,166.111.255.255就是結束IP,結束IP就是IP記錄中的那頭 4個字節,這下你應該就清楚了吧。因而乎,每條索引配合一條記錄,構成了一個IP範圍,若是你要查找166.111.138.138所在的位置,你就會發 現166.111.138.138落在了166.111.0.0 - 166.111.255.255 這個範圍內,那麼你就能夠順着這條索引去讀取國家和地區名了。那麼咱們給出一個最詳細的圖解吧:

 


圖9. 文件詳細結構
現 在一切都清楚了是否是?也許還有一點你不清楚,QQWry.dat的版本信息存在哪裏呢? 答案是:最後一條IP記錄實際上就是版本信息,最後一條記錄顯示出來就是這樣:255.255.255.0 255.255.255.255 純真網絡 2004年6月25日IP數據。OK,到如今你應該所有清楚了。

PHP Demo 不記得demo出處了

<?php
class IP {
    var $fh;        //IP數據庫文件句柄
    var $first;        //第一條索引
    var $last;        //最後一條索引
    var $total;        //索引總數

    //構造函數
    function __construct(){
        $this->fh = fopen('./qqwry.dat', 'rb');                //qqwry.dat文件
        $this->first = $this->getLong4();
        $this->last  = $this->getLong4();
        $this->total = ($this->last - $this->first) / 7;    //每條索引7字節
    }

    //檢查IP合法性
    function checkIp($ip){
        $arr = explode('.', $ip);
        if( count($arr) !=4 ){
            return false;
        }
        else{
            for( $i=0; $i<4; $i++){
                if( $arr[$i] <'0' || $arr[$i] > '255' ) {
                    return false;
                }
            }
        }
        return true;
    }

    function getLong4(){
        //讀取little-endian編碼的4個字節轉化爲長整型數
        $result = unpack('Vlong', fread($this->fh, 4));
        return $result['long'];
    }

    function getLong3() {
        //讀取little-endian編碼的3個字節轉化爲長整型數
        $result = unpack('Vlong', fread($this->fh, 3).chr(0));
        return $result['long'];
    }

    //查詢信息
    function getInfo($data = "") {
        $char = fread($this->fh, 1);
        while( ord($char) != 0) {        //國家地區信息以0結束
            $data .= $char;
            $char = fread($this->fh, 1);
        }
        return $data;
    }

    //查詢地區信息
    function getArea() {
        $byte = fread($this->fh, 1);    //標誌字節
        switch (ord($byte)) {
            case 0: $area = ''; break;    //沒有地區信息
            case 1:        //地區被重定向
                fseek($this->fh, $this->getLong3());
                $area = $this->getInfo(); break;
            case 2:        //地區被重定向
            fseek($this->fh, $this->getLong3());
            $area = $this->getInfo(); break;
            default: $area = $this->getInfo($byte);  break;        //地區沒有被重定向
        }
        return $area;
    }

    function ip2addr($ip) {
        if( !$this->checkIp($ip) ){
            return false;
        }

        $ip = pack('N', intval(ip2long($ip)) );

        //二分查找
        $l = 0;
        $r = $this->total;

        while($l <= $r) {
            $m = floor(($l + $r) / 2);                //計算中間索引
            fseek($this->fh, $this->first + $m * 7);
            $beginip = strrev(fread($this->fh, 4)); //中間索引的開始IP地址
            fseek($this->fh, $this->getLong3());
            $endip = strrev(fread($this->fh, 4));    //中間索引的結束IP地址

            if( $ip < $beginip) {    //用戶的IP小於中間索引的開始IP地址時
                $r = $m - 1;
            }
            else{
                if( $ip > $endip) {    //用戶的IP大於中間索引的結束IP地址時
                    $l = $m + 1;
                }
                else{                //用戶IP在中間索引的IP範圍內時
                    $findip = $this->first + $m * 7;
                    break;
                }
            }
        }

        //查詢國家地區信息
        fseek($this->fh, $findip);
        $location['beginip'] = long2ip($this->getLong4());    //用戶IP所在範圍的開始地址
        $offset = $this->getlong3();
        fseek($this->fh, $offset);
        $location['endip'] = long2ip($this->getLong4());    //用戶IP所在範圍的結束地址
        
        $byte = fread($this->fh, 1);                //標誌字節
        switch( ord($byte) ){
            case 1:            //國家和區域信息都被重定向
                $countryOffset = $this->getLong3();    //重定向地址
                fseek($this->fh, $countryOffset);
                $byte = fread($this->fh, 1);        //標誌字節
                switch( ord($byte) ){
                    case 2: //國家信息被二次重定向
                        fseek($this->fh, $this->getLong3());
                        $location['country'] = $this->getInfo();
                        fseek($this->fh, $countryOffset + 4);
                        $location['area'] = $this->getArea();
                        break;
                    default: //國家信息沒有被二次重定向
                        $location['country'] = $this->getInfo($byte);
                        $location['area'] = $this->getArea();
                        break;
                }
                break;

            case 2:            //國家信息被重定向
                fseek($this->fh, $this->getLong3());
                $location['country'] = $this->getInfo();
                fseek($this->fh, $offset + 8);
                $location['area'] = $this->getArea();
                break;

            default:        //國家信息沒有被重定向
                $location['country'] = $this->getInfo($byte);
                $location['area'] = $this->getArea();
                break;
        }

        //gb2312 to utf-8(去除無信息時顯示的CZ88.NET)
        foreach ($location as $k => $v) {
            $location[$k] = str_replace('CZ88.NET', '', iconv('gb2312', 'utf-8', $v));
        }

        return $location;
    }

    //析構函數
    function __destruct() {
        fclose($this->fh);
    }
    
}

$ip = new IP();
$addr = $ip->ip2addr('113.247.15.120');
print_r($addr);
相關文章
相關標籤/搜索