Python讀取大文件的"坑「與內存佔用檢測

python讀寫文件的api都很簡單,一不留神就容易踩」「。筆者記錄一次踩坑歷程,而且給了一些總結,但願到你們在使用python的過程之中,可以避免一些可能產生隱患的代碼。python

1.read()與readlines():

隨手搜索python讀寫文件的教程,很常常看到read()與readlines()這對函數。因此咱們會經常看到以下代碼:api

with open(file_path, 'rb') as f:
    sha1Obj.update(f.read())

or函數

with open(file_path, 'rb') as f:
    for line in f.readlines():
        print(line)

這對方法在讀取小文件時確實不會產生什麼異常,可是一旦讀取大文件,很容易會產生MemoryError,也就是內存溢出的問題。工具

####Why Memory Error?
咱們首先來看看這兩個方法:性能

當默認參數size=-1時,read方法會讀取直到EOF,當文件大小大於可用內存時,天然會發生內存溢出的錯誤。
read方法學習

一樣的,readlines會構造一個list。list而不是iter,因此全部的內容都會保存在內存之上,一樣也會發生內存溢出的錯誤。
readlines方法測試

2.正確的用法:

在實際運行的系統之中若是寫出上述代碼是十分危險的,這種」坑「十分隱蔽。因此接下來咱們來了解一下正確用,正確的用法也很簡單,依照API之中對函數的描述來進行對應的編碼就OK了:編碼

若是是二進制文件推薦用以下這種寫法,能夠本身指定緩衝區有多少byte。顯然緩衝區越大,讀取速度越快。code

with open(file_path, 'rb') as f:
    while True:
        buf = f.read(1024)
        if buf:    
            sha1Obj.update(buf)
        else:
            break

而若是是文本文件,則能夠用readline方法或直接迭代文件(python這裏封裝了一個語法糖,兩者的內生邏輯一致,不過顯然迭代文件的寫法更pythonic )每次讀取一行,效率是比較低的。筆者簡單測試了一下,在3G文件之下,大概性能和前者差了20%.對象

with open(file_path, 'rb') as f:
    while True:
        line = f.readline()
        if buf:    
            print(line)
        else:
            break

with open(file_path, 'rb') as f:
    for line in f:
        print(line)

3.內存檢測工具的介紹:

對於python代碼的內存佔用問題,對於代碼進行內存監控十分必要。這裏筆者這裏推薦兩個小工具來檢測python代碼的內存佔用。

####memory_profiler
首先先用pip安裝memory_profiler

pip install memory_profiler

memory_profiler是利用python的裝飾器工做的,因此咱們須要在進行測試的函數上添加裝飾器。

from hashlib import sha1
import sys

@profile
def my_func():
    sha1Obj = sha1()
    with open(sys.argv[1], 'rb') as f:
        while True:
            buf = f.read(10 * 1024 * 1024)
            if buf:
                sha1Obj.update(buf)
            else:
                break

    print(sha1Obj.hexdigest())


if __name__ == '__main__':
    my_func()

以後在運行代碼時加上** -m memory_profiler**
就能夠了解函數每一步代碼的內存佔用了
依次列出每一步代碼的內存佔用狀況

guppy

依樣畫葫蘆,仍然是經過pip先安裝guppy

pip install guppy

以後能夠在代碼之中利用guppy直接打印出對應各類python類型(list、tuple、dict等)分別建立了多少對象,佔用了多少內存。

from guppy import hpy
import sys


def my_func():
    mem = hpy()
    with open(sys.argv[1], 'rb') as f:
        while True:
            buf = f.read(10 * 1024 * 1024)
            if buf:
                print(mem.heap())
            else:
                break

以下圖所示,能夠看到打印出對應的內存佔用數據:
python代碼詳細的內存佔用狀況

經過上述兩種工具guppy與memory_profiler能夠很好地來監控python代碼運行時的內存佔用問題。

4.小結:

python是一門崇尚簡潔的語言,可是正是由於它的簡潔反而更多了許多須要仔細推敲和思考的細節。但願你們在平常工做與學習之中也能多對一些細節進行總結,少踩一些沒必要要的「坑」。

相關文章
相關標籤/搜索