php讀取操做大文件，超出內存大小，三種方法

時間 2019-11-11

標籤 php 讀取做大文件超出內存大小三種方法欄目 PHP 简体版

原文原文鏈接

在php中，對於文件的讀取時，最快捷的方式莫過於使用一些諸如file、file_get_contents之類的函數，簡簡單單的幾行代碼就能很漂亮的完成咱們所須要的功能。但當所操做的文件是一個比較大的文件時，這些函數可能就顯的力不從心, 下面將從一個需求入手來講明對於讀取大文件時，經常使用的操做方法。php

需求linux

有一個800M的日誌文件,大約有500多萬行，用php返回最後幾行的內容。shell

實現方法

1.簡單粗暴，簡單直接採用file函數來操做安全

注：因爲 file函數是一次性將全部內容讀入內存，而php爲了防止一些寫的比較糟糕的程序佔用太多的內存而致使系統內存不足，使服務器出現宕機，因此默認狀況下限制只能最大使用內存16M,這是經過php.ini裏的 memory_limit = 16M來進行設置，這個值若是設置-1，則內存使用量不受限制.服務器

下面是一段用file來取出這具文件最後一行的代碼.函數

ini_set('memory_limit','-1');
$file = 'access.log';
$data = file($file);
$line = $data[count($data)-1];
echo $line;

整個代碼執行完成耗時 116.9613 (s). 容易產生內存耗光引發設備卡死或者無響應spa

2.直接調用linux的tail命令來顯示最後幾行命令行

在linux命令行下,能夠直接使用tail -n 10 access.log很輕易的顯示日誌文件最後幾行,能夠直接用php來調用tail命令,執行php代碼以下.指針

file = 'access.log';
$file = escapeshellarg($file); // 對命令行參數進行安全轉義
$line = `tail -n 1 $file`;
echo $line

整個代碼執行完成耗時 0.0034 (s)日誌

3. 直接使用php的fseek來進行文件操做

這種方式是最爲廣泛的方式,它不須要將文件的內容所有讀入內容,而是直接經過指針來操做,因此效率是至關高效的.在使用fseek來對文件進行操做時,也有多種不一樣的方法,效率可能也是略有差異的,下面是經常使用的兩種方法.
方法一
首先經過fseek找到文件的最後一位EOF，而後找最後一行的起始位置，取這一行的數據，再找次一行的起始位置，再取這一行的位置，依次類推，直到找到了$num行。
實現代碼以下

$fp = fopen($file, "r");
$line = 10;
$pos = -2;
$t = " ";
$data = "";
while ($line > 0) {
    while ($t != "\n") {
        fseek($fp, $pos, SEEK_END);
        $t = fgetc($fp);
        $pos --;
    }
    $t = " ";
    $data .= fgets($fp);
    $line --;
}
fclose ($fp);
echo $data

整個代碼執行完成耗時 0.0095 (s)

方法二
仍是採用fseek的方式從文件最後開始讀,但這時不是一位一位的讀,而是一塊一塊的讀,每讀一塊數據時,就將讀取後的數據放在一個buf裏,而後經過換行符(\n)的個數來判斷是否已經讀完最後$num行數據.
實現代碼以下

$fp = fopen($file, "r");
$num = 10;
$chunk = 4096;
$fs = sprintf("%u", filesize($file));
$max = (intval($fs) == PHP_INT_MAX) ? PHP_INT_MAX : filesize($file);
for ($len = 0; $len < $max; $len += $chunk) {     
    $seekSize = ($max - $len &gt; $chunk) ? $chunk : $max - $len;
    fseek($fp, ($len + $seekSize) * -1, SEEK_END);
    $readData = fread($fp, $seekSize) . $readData;
  
    if (substr_count($readData, "\n") &gt;= $num + 1) {
        preg_match("!(.*?\n){".($num)."}$!", $readData, $match);
        $data = $match[0];
        break;
    }
}
fclose($fp);
echo $data;

整個代碼執行完成耗時 0.0009(s).

方法三

function tail($fp,$n,$base=5)
{
    assert($n>0);
    $pos = $n+1;
    $lines = array();
    while(count($lines)< =$n){
        try{
            fseek($fp,-$pos,SEEK_END);
        } catch (Exception $e){
            fseek(0);
            break;
        }
        $pos *= $base;
        while(!feof($fp)){
            array_unshift($lines,fgets($fp));
        }
    }
    return array_slice($lines,0,$n);
}
var_dump(tail(fopen("access.log","r+"),10));

整個代碼執行完成耗時 0.0003(s)

或者利用linux的管道

$handle = popen("cat access.log 2>&1", 'r');
while(!feof($handle))
{
    echo $line = fgets($handle);
}
pclose($handle);

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。