PHP如何快速讀取大文件

在PHP中,對於文件的讀取時,最快捷的方式莫過於使用一些諸如file、file_get_contents之類的函數,簡簡單單的幾行代碼就能 很漂亮的完成咱們所須要的功能。但當所操做的文件是一個比較大的文件時,這些函數可能就顯的力不從心, 下面將從一個需求入手來講明對於讀取大文件時,經常使用的操做方法。php

需求需求shell

有一個800M的日誌文件,大約有500多萬行, 用PHP返回最後幾行的內容。安全

實現方法服務器

1. 直接採用file函數來操做函數

因爲 file函數是一次性將全部內容讀入內存,而PHP爲了防止一些寫的比較糟糕的程序佔用太多的內存而致使系統內存不足,使服務器出現宕機,因此默認狀況下限制只能最大使用內存16M,這是經過php.ini裏的 memory_limit = 16M 來進行設置,這個值若是設置-1,則內存使用量不受限制。spa

下面是一段用file來取出這具文件最後一行的代碼:命令行

1    <?php
2    ini_set('memory_limit', '-1');
3    $file = 'access.log';
4    $data = file($file);
5    $line = $data[count($data) - 1];
6    echo $line;
7    ?>

整個代碼執行完成耗時 116.9613 (s)。指針

我機器是2個G的內存,當按下F5運行時,系統直接變灰,差很少20分鐘後才恢復過來,可見將這麼大的文件所有直接讀入內存,後果是多少嚴重,因此不在萬 不得以,memory_limit這東西不能調得過高,不然只有打電話給機房,讓reset機器了。日誌

2.直接調用Linux的 tail 命令來顯示最 後幾行code

在Linux命令行下,能夠直接使用 tail -n 10 access.log 很輕易的顯示日誌文件最後幾行,能夠直接用PHP來調用tail命令,執行PHP代碼以下:

1    <?php
2    $file = 'access.log';
3    $file = escapeshellarg($file); // 對命令行參數進行安全轉義
4    $line = `tail -n 1 $file`;
5    echo $line;
6    ?>

整個代碼執行完成耗時 0.0034 (s)

3. 直接使用PHP的 fseek 來進行文件操做

這種方式是最爲廣泛的方式,它不須要將文件的內容所有讀入內容,而是直接經過指針來操做,因此效率是至關高效的。在使用fseek來對文件進行操做時,也有多種不一樣的方法,效率可能也是略有差異的,下面是經常使用的兩種方法:

方法一

首先經過fseek找到文件的最後一位EOF,而後找最後一行的起始位置,取這一行的數據,再找次一行的起始位置, 再取這一行的位置,依次類推,直到找到了$num行。

#實現代碼以下

01    <?php
02    $fp = fopen($file, "r");
03    $line = 10;
04    $pos = -2;
05    $t = " ";
06    $data = "";
07    while ($line > 0)
08    {
09        while ($t != "\n")
10        {
11            fseek($fp, $pos, SEEK_END);
12            $t = fgetc($fp);
13            $pos--;
14        }
15        $t = " ";
16        $data .= fgets($fp);
17        $line--;
18    }
19    fclose($fp);
20    echo $data
21    ?>

整個代碼執行完成耗時 0.0095 (s)

方法二

仍是採用fseek的方式從文件最後開始讀,但這時不是一位一位的讀,而是一塊一塊的讀,每讀一塊數據時,就將讀取後的數據放在一個buf裏,而後經過換 行符(\n)的個數來判斷是否已經讀完最後$num行數據。

#實現代碼以下

01    <?php
02    $fp = fopen($file, "r");
03    $num = 10;
04    $chunk = 4096;
05    $fs = sprintf("%u", filesize($file));
06    $max = (intval($fs) == PHP_INT_MAX) ? PHP_INT_MAX : filesize($file);
07    for ($len = 0; $len < $max; $len += $chunk)
08    {
09        $seekSize = ($max - $len > $chunk) ? $chunk : $max - $len;
10        fseek($fp, ($len + $seekSize) * -1, SEEK_END);
11        $readData = fread($fp, $seekSize) . $readData;
12        if (substr_count($readData, "\n") >= $num + 1)
13        {
14            preg_match("!(.*?\n){" . ($num) . "}$!", $readData, $match);
15            $data = $match[0];
16            break;
17        }
18    }
19    fclose($fp);
20    echo $data;
21    ?>

整個代碼執行完成耗時 0.0009(s)。

方法三

01    <?php
02    function tail($fp, $n, $base = 5)
03    {
04        assert($n > 0);
05        $pos = $n + 1;
06        $lines = array();
07        while (count($lines) <= $n)
08        {
09            try
10            {
11                fseek($fp, -$pos, SEEK_END);
12            }
13            catch (Exception $e)
14            {
15                fseek(0);
16                break;
17            }
18            $pos *= $base;
19            while (!feof($fp))
20            {
21                array_unshift($lines, fgets($fp));
22            }
23        }
24     
25        return array_slice($lines, 0, $n);
26    }
27     
28    var_dump(tail(fopen("access.log", "r+"), 10));
29    ?>

整個代碼執行完成耗時 0.0003(s)

相關文章
相關標籤/搜索