用 PHP 讀取文件的正確方法

讓咱們算一算有多少種方法php

處理諸如 PHP 之類的現代編程語言的樂趣之一就是有大量的選項可用。PHP 能夠輕鬆地贏得 Perl 的座右銘「There's more than one way to do it」(並不是只有一種方法可作這件事),尤爲是在文件處理上。可是在這麼多可用的選項中,哪種是完成做業的最佳工具?固然,實際答案取決於解析文件的目標,所以值得花時間探究全部選項。html

傳統的 fopen 方法程序員

fopen 方法多是之前的 C 和 C++ 程序員最熟悉的,由於若是您使用過這些語言,那麼它們或多或少都是您已掌握多年的工具。對於這些方法中的任何一種,經過使用 fopen(用於讀取數據的函數)的標準方法打開文件,而後使用 fclose 關閉文件,如清單 1 所示。shell

清單 1. 用 fgets 打開並讀取文件編程

$file_handle = fopen("myfile", "r");
while (!feof($file_handle)) {
   $line = fgets($file_handle);
   echo $line;
}
fclose($file_handle);

 

雖然大多數具備多年編程經驗的程序員都熟悉這些函數,可是讓我對這些函數進行分解。有效地執行如下步驟:數組

  1. 打開文件。$file_handle 存儲了一個對文件自己的引用。
  2. 檢查您是否已到達文件的末尾。
  3. 繼續讀取文件,直至到達文件末尾,邊讀取邊打印每行。
  4. 關閉文件。

記住這些步驟,我將回顧在這裏使用的每一個文件函數。緩存

fopen服務器

fopen 函數將建立與文件的鏈接。我之因此說「建立鏈接」,是由於除了打開文件以外,fopen 還能夠打開一個 URL:數據結構

$fh = fopen("http://127.0.0.1/", "r");

這行代碼將建立一個與以上頁面的鏈接,並容許您開始像讀取一個本地文件同樣讀取它。編程語言

注: fopen 中使用的 "r" 將指示文件以只讀方式打開。因爲將數據寫入文件不在本文的討論範圍內,所以我將不列出全部其餘選項。可是,若是是從二進制文件讀取以得到跨平臺兼容性,則應當將 "r" 更改成 "rb"。稍後您將看到這樣的示例。

feof

feof 命令將檢測您是否已經讀到文件的末尾並返回 True 或 False。清單 1 中的循環將繼續執行,直至您達到文件「myfile」的末尾。注:若是讀取的是 URL 而且套接字因爲再也不有任何數據能夠讀取而超時,則 feof 也將返回 False。

fclose

向前跳至清單 1 的末尾,fclose 將實現與 fopen 相反的功能:它將關閉指向文件或 URL 的鏈接。執行此函數後,您將再也不可以從文件或套接字中讀取任何信息。

fgets

在清單 1 中回跳幾行,您就到達了文件處理的核心:實際讀取文件。fgets 函數是處理第一個示例的首選武器。它將從文件中提取一行數據並將其做爲字符串返回。在那以後,您能夠打印或者以別的方式處理數據。清單 1 中的示例將精細地打印整個文件。

若是決定限制處理數據塊的大小,您能夠將一個參數添加到 fgets 中限制最大行長度。例如,使用如下代碼將行長度限制爲 80 個字符:

$string = fgets($file_handle, 81);

回想 C 中的「\0」字符串末尾終止符,將長度設爲比實際所需值大一的數字。於是,若是須要 80 個字符,則以上示例使用 81。應養成如下習慣:只要對此函數使用行限制,就添加該額外字符。

fread

fgets 函數是多個文件讀取函數中唯一一個可用的。它是一個更經常使用的函數,由於逐行解析一般會有意義。事實上,幾個其餘函數也能夠提供相似功能。可是,您並不是老是須要逐行解析。

這時就須要使用 fread。fread 函數與 fgets 的處理目標略有不一樣:它趨於從二進制文件(即,並不是主要包含人類可閱讀的文本的文件)中讀取信息。因爲「行」的概念與二進制文件無關(邏輯數據結構一般都不是由新行終止),所以您必須指定須要讀入的字節數。

 

$fh = fopen("myfile", "rb");
$data = fread($file_handle, 4096);

以上代碼將讀取 4,096 字節 (4 KB) 的數據。注:無論指定多少字節,fread 都不會讀取超過 8,192 個字節 (8 KB)。

假定文件大小不超過 8 KB,則如下代碼應當能將整個文件讀入一個字符串。

 使用二進制數據

注意:此函數的示例已經使用了略微不一樣於 fopen 的參數。當處理二進制數據時,始終要記得將 b 選項包含在fopen 中。若是跳過這一點,Microsoft® Windows® 系統可能沒法正確處理文件,由於它們將以不一樣的方式處理新行。若是處理的是 Linux® 系統(或其餘某個 UNIX® 變種),則這可能看似沒什麼關係。但即便不是針對 Windows 開發的,這樣作也將得到良好的跨平臺可維護性,而且也是應當遵循的一個好習慣。

$fh = fopen("myfile", b");
$data = fread($fh, filesize("myfile"));
fclose($fh);

若是文件長度大於此值,則只能使用循環將其他內容讀入。

fscanf

回到字符串處理,fscanf 一樣遵循傳統的 C 文件庫函數。若是您不熟悉它,則 fscanf 將把字段數據從文件讀入變量中。

此函數使用的格式字符串在不少地方都有描述(如 PHP.net 中),故在此再也不贅述。能夠這樣說,字符串格式化極爲靈活。值得注意的是全部字段都放在函數的返回值中。(在 C 中,它們都被做爲參數傳遞。)

fgetss

fgetss 函數不一樣於傳統文件函數並使您能更好地瞭解 PHP 的力量。該函數的功能相似於 fgets 函數,但將去掉髮現的任何 HTML 或 PHP 標記,只留下純文本。查看以下所示的 HTML 文件。

清單 2. 樣例 HTML 文件

<html>
    <head><title>My title</title></head>
    <body>
        <p>If you understand what "Cause there ain't no one for to give you no pain"
            means then you listen to too much of the band America</p>
    </body>
</html>

而後經過 fgetss 函數過濾它。

清單 3. 使用 fgetss

$file_handle = fopen("myfile", "r");
while (!feof($file_handle)) {
   echo = fgetss($file_handle);
}
fclose($file_handle);

如下是輸出:

 

My title

        If you understand what "Cause there ain't no one for to give you no pain"
            means then you listen to too much of the band America

fpassthru 函數

不管怎樣讀取文件,您均可以使用 fpassthru 將其他數據轉儲到標準輸出通道。

fpassthru($fh);

此外,此函數將打印數據,所以無需使用變量獲取數據。

非線性文件處理:跳躍訪問

固然,以上函數只容許順序讀取文件。更復雜的文件可能要求您來回跳轉到文件的不一樣部分。這時就用得着 fseek 了。

fseek($fh, 0);

以上示例將跳轉回文件的開頭。若是不須要徹底返回 —— 咱們可設定返回千字節 —— 而後就能夠這樣寫:

fseek($fh, 1024);

 

從 PHP V4.0 開始,您有一些其餘選項。例如,若是須要從當前位置向前跳轉 100 個字節,則能夠嘗試使用:

fseek($fh, 100, SEEK_CUR);

 

相似地,可使用如下代碼向後跳轉 100 個字節:

fseek($fh, -100, SEEK_CUR);

若是須要向後跳轉至文件末尾前 100 個字節處,則應使用 SEEK_END。

fseek($fh, -100, SEEK_END);

在到達新位置後,可使用 fgets、fscanf 或任何其餘方法讀取數據。

注: 不能將 fseek 用於引用 URL 的文件處理。

提取整個文件

如今,咱們將接觸到一些 PHP 的更獨特的文件處理功能:用一兩行處理大塊數據。例如,如何提取文件並在 Web 頁面上顯示其所有內容?好的,您看到了 fgets 使用循環的示例。可是如何可以使此過程變得更簡單?用 fgetcontents 會使過程超級簡單,該方法將把整個文件放入一個字符串中。

$my_file = file_get_contents("myfilename");
echo $my_file;

雖然它不是最好的作法,可是能夠將此命令更簡明地寫爲:

echo file_get_contents("myfilename");

本文主要介紹的是如何處理本地文件,可是值得注意的是您還能夠用這些函數提取、回顯和解析其餘 Web 頁面。

echo file_get_contents("http://127.0.0.1/");

此命令等效於:

$fh = fopen("http://127.0.0.1/", "r");
fpassthru($fh);

您必定會查看此命令並認爲:「那仍是太費力」。PHP 開發人員贊成您的見解。所以能夠將以上命令縮短爲:

readfile("http://127.0.0.1/");

readfile 函數將把文件或 Web 頁面的所有內容轉儲到默認的輸出緩衝區。默認狀況下,若是失敗,此命令將打印錯誤消息。要避免此行爲(若是須要),請嘗試:

@readfile("http://127.0.0.1/");

固然,若是確實須要解析文件,則 file_get_contents 返回的單個字符串可能有些讓人吃不消。您的第一反應多是用 split() 函數將它分解一下。

$array = split("\n", file_get_contents("myfile"));

可是既然已經有一個很好的函數爲您執行此操做爲何還要這樣大費周章?PHP 的 file() 函數一步便可完成此操做:它將返回分爲若干行的字符串數組。

$array = file("myfile");

應當注意的是,以上兩個示例有一點細微差異。雖然 split 命令將刪除新行,可是當使用 file 命令(與 fgets 命令同樣)時,新行仍將被附加到數組中的字符串上。

可是,PHP 的力量還遠不止於此。您能夠在一條命令中使用 parse_ini_file 解析整個 PHP 樣式的 .ini 文件。parse_ini_file 命令接受相似清單 4 所示的文件。

清單 4. 樣例 .ini 文件

; Comment
[personal information]
name = "King Arthur"
quest = To seek the holy grail
favorite color = Blue

[more stuff]
Samuel Clemens = Mark Twain
Caryn Johnson = Whoopi Goldberg

如下命令將把此文件轉儲爲數組,而後打印該數組:

$file_array = parse_ini_file("holy_grail.ini");
print_r $file_array;

如下輸出的是結果:

清單 5. 輸出

Array
(
    [name] => King Arthur
    [quest] => To seek the Holy Grail
    [favorite color] => Blue
    [Samuel Clemens] => Mark Twain
    [Caryn Johnson] => Whoopi Goldberg
)

固然,您可能注意到此命令合併了各個部分。這是默認行爲,可是您能夠經過將第二個參數傳遞給 parse_ini_file 輕鬆地修正它:process_sections,這是一個布爾型變量。將 process_sections 設爲 True。

$file_array = parse_ini_file("holy_grail.ini", true);
print_r $file_array;

而且您將得到如下輸出:

清單 6. 輸出

Array
(
    [personal information] => Array
        (
            [name] => King Arthur
            [quest] => To seek the Holy Grail
            [favorite color] => Blue
        )

    [more stuff] => Array
        (
            [Samuel Clemens] => Mark Twain
            [Caryn Johnson] => Whoopi Goldberg
        )

)

PHP 將把數據放入能夠輕鬆解析的多維數組中。

對於 PHP 文件處理來講,這只是冰山一角。諸如 tidy_parse_file 和 xml_parse 之類的更復雜的函數能夠分別幫助您處理 HTML 和 XML 文檔。有關這些特殊函數的使用細節,請參閱 參考資料。若是您要處理那些類型的文件,則那些參考資料值得一看,但沒必要過分考慮本文中談到的每種可能遇到的文件類型,下面是一些用於處理到目前爲止介紹的函數的很好的通用規則。

最佳實踐

毫不要假定程序中的一切都將按計劃運行。例如,若是您要查找的文件已被移動該當如何?若是權限已被改變而沒法讀取其內容又當如何?您能夠經過使用 file_exists 和 is_readable 預先檢查這些問題。

清單 7. 使用 file_exists 和 is_readable

$filename = "myfile";
if (file_exists($filename) && is_readable ($filename)) {
	$fh = fopen($filename, "r");
	# Processing
	fclose($fh);
}

可是,在實踐中,用這樣的代碼可能太繁瑣了。處理 fopen 的返回值更簡單而且更準確。

if ($fh = fopen($filename, "r")) {
	# Processing
	fclose($fh);
}

因爲失敗時 fopen 將返回 False,這將確保僅當文件成功打開後才執行文件處理。固然,若是文件不存在或者不可讀,您能夠指望一個負返回值。這將使這個檢查能夠檢查全部可能遇到的問題。此外,若是打開失敗,能夠退出程序或讓程序顯示錯誤消息。

如 fopen 函數同樣,file_get_contents、file 和 readfile 函數都在打開失敗或處理文件失敗時返回 False。fgets、fgetss、fread、fscanf 和 fclose 函數在出錯時也返回 False。固然,除 fclose 之外,您可能已經對這些函數的返回值都進行了處理。使用 fclose 時,即便文件處理未正常關閉,也不會執行什麼操做,所以一般沒必要檢查 fclose 的返回值。

由您來選擇

PHP 不缺讀取和解析文件的有效方法。諸如 fread 之類的典型函數可能在大多數時候都是最佳的選擇,或者當 readfile 恰好能知足任務須要時,您可能會發現本身更爲 readfile 的簡單所吸引。它實際上取決於所要完成的操做。

若是要處理大量數據,fscanf 將能證實本身的價值並比使用 file 附帶 split 和 sprintf 命令更有效率。相反,若是要回顯只作了少量修改的大量文本,則使用 file、file_get_contents 或 readfile 可能更合適。使用 PHP 進行緩存或者建立權宜的代理服務器時可能就屬於這種狀況。

PHP 給您提供了大量處理文件的工具。深刻了解這些工具並瞭解哪些工具最適合於要處理的項目。您已擁有不少的選擇,所以好好地利用它們享受使用 PHP 處理文件的樂趣。

相關文章
相關標籤/搜索