python序列化數據本地存放

時間 2019-11-08

原文原文鏈接

深刻#

序列化的概念很簡單。內存裏面有一個數據結構，你但願將它保存下來，重用，或者發送給其餘人。你會怎麼作？嗯, 這取決於你想要怎麼保存，怎麼重用，發送給誰。不少遊戲容許你在退出的時候保存進度，而後你再次啓動的時候回到上次退出的地方。(實際上, 不少非遊戲程序也會這麼幹。) 在這個狀況下, 一個捕獲了當前進度的數據結構須要在你退出的時候保存到磁盤上，接着在你從新啓動的時候從磁盤上加載進來。這個數據只會被建立它的程序使用，不會發送到網絡上，也不會被其它程序讀取。所以，互操做的問題被限制在保證新版本的程序可以讀取之前版本的程序建立的數據。php

在這種狀況下，pickle 模塊是理想的。它是Python標準庫的一部分, 因此它老是可用的。它很快; 它的大部分同Python解釋器自己同樣是用C寫的。它能夠存儲任意複雜的Python數據結構。html

什麼東西能用pickle模塊存儲?python

全部Python支持的原生類型 : 布爾, 整數, 浮點數, 複數, 字符串, bytes(字節串)對象, 字節數組, 以及 None.shell
由任何原生類型組成的列表，元組，字典和集合。編程
由任何原生類型組成的列表，元組，字典和集合組成的列表，元組，字典和集合(能夠一直嵌套下去，直至Python支持的最大遞歸層數).json
函數，類，和類的實例(帶警告)。數組

若是這還不夠用，pickle模塊也是可擴展的。若是你對可擴展性有興趣，請查看本章最後的進一步閱讀小節中的連接。瀏覽器

本章例子的快速筆記#

本章會使用兩個Python Shell來說故事。本章的例子都是一個單獨的故事的一部分。當我演示pickle 和 json 模塊時，你會被要求在兩個Python Shell中來回切換。數據結構

爲了讓事情簡單一點，打開Python Shell 並定義下面的變量:編程語言

>>> shell = 1

保持該窗口打開。如今打開另外一個Python Shell 並定義下面下面的變量:

>>> shell = 2

貫穿整個章節, 在每一個例子中我會使用shell變量來標識使用的是哪一個Python Shell。

⁂

保存數據到 Pickle 文件#

pickle模塊的工做對象是數據結構。讓咱們來建立一個：

①	在Python Shell #1 裏面。
②	想法是創建一個Python字典來表示一些有用的東西，好比一個Atom 供稿的entry。可是爲了炫耀一下`pickle`模塊我也想保證裏面包含了多種不一樣的數據類型。不須要太關心這些值。
③	`time` 模塊包含一個表示時間點(精確到1毫秒)的數據結構(`time_struct`)以及操做時間結構的函數。`strptime()`函數接受一個格式化過的字符串並將其轉化成一個`time_struct`。這個字符串使用的是默認格式，但你能夠經過格式化代碼來控制它。查看`time`模塊來得到更多細節。

①	仍然在Python Shell #1 中。
②	使用`open()` 函數來打開一個文件。設置文件模式爲`'wb'`來以二進制寫模式打開文件。把它放入`with` 語句中來保證在你完成的時候文件自動被關閉。
③	`pickle`模塊中的`dump()`函數接受一個可序列化的Python 數據結構, 使用最新版本的pickle協議將其序列化爲一個二進制的，Python特定的格式，而且保存到一個打開的文件裏。

①	這是Python Shell #2.
②	這裏沒有entry 變量被定義過。你在Python Shell #1 中定義了entry變量, 可是那是另外一個擁有本身狀態的徹底不一樣的環境。
③	打開你在Python Shell #1中建立的`entry.pickle`文件。`pickle`模塊使用二進制數據格式，因此你老是應該使用二進制模式打開pickle文件。
④	`pickle.load()`函數接受一個流對象, 從流中讀取序列化後的數據，建立一個新的Python對象，在新的Python對象中重建被序列化的數據，而後返回新建的Python對象。
⑤	如今entry變量是一個鍵和值看起來都很熟悉的字典。

①	切換回Python Shell #1。
②	打開`entry.pickle`文件。
③	將序列化後的數據裝載到一個新的變量, entry2。
④	Python 確認兩個字典, entry 和 entry2 是相等的。在這個shell裏, 你從零開始構造了entry, 從一個空字典開始而後手工給各個鍵賦值。你序列化了這個字典並將其保存在`entry.pickle`文件中。如今你從文件中讀取序列化後的數據並建立了原始數據結構的一個完美複製品。
⑤	相等和相同是不同的。我說的是你建立了原始數據結構的一個完美複製品, 這沒錯。但它僅僅是一個複製品。
⑥	我要指出`'tags'`鍵對應的值是一個元組，而`'internal_id'`鍵對應的值是一個`bytes`對象。緣由在這章的後面就會清楚了。

①	`pickle.dumps()`函數(注意函數名最後的`'s'`)執行和`pickle.dump()`函數相同的序列化。取代接受流對象並將序列化後的數據保存到磁盤文件，這個函數簡單的返回序列化的數據。
②	因爲pickle協議使用一個二進制數據格式，因此`pickle.dumps()`函數返回`bytes`對象。
③	`pickle.loads()`函數(再一次, 注意函數名最後的`'s'`) 執行和`pickle.load()`函數同樣的反序列化。取代接受一個流對象並去文件讀取序列化後的數據，它接受包含序列化後的數據的`bytes`對象, 好比`pickle.dumps()`函數返回的對象。
④	最終結果是同樣的: 原始字典的完美複製。

①	咱們將建立一個新的數據結構，而不是重用現存的entry數據結構。在這章的後面, 咱們將會看見當咱們試圖用json編碼更復雜的數據結構的時候會發生什麼。
②	json 是一個基於文本的格式，這意味你能夠以文本模式打開文件，並給定一個字符編碼。用utf-8老是沒錯的。
③	同`pickle`模塊同樣, `json` 模塊定義了`dump()`函數，它接受一個Python 數據結構和一個可寫的流對象。`dump()` 函數將Python數據結構序列化並寫入到流對象中。在`with`語句內工做保證當咱們完成的時候正確的關閉文件。

筆記	JSON	Python 3
	object	dictionary
	array	list
	string	string
	integer	integer
	real number	float
*	`true`	`True`
*	`false`	`False`
*	`null`	`None`
* 全部的 json 值都是大小寫敏感的。

①	好的, 是時間再看看entry 數據結構了。它包含了全部的東西: 布爾值，`None`值，字符串，字符串元組, `bytes`對象, 以及`time`結構體。
②	我知道我已經說過了，可是這值得再重複一次：json 是一個基於文本的格式。老是應使用utf-8字符編碼以文本模式打開json文件。
③	嗯，這可很差。發生什麼了？

①	爲了給一個json沒有原生支持的數據類型定義你本身的「迷你序列化格式」, 只要定義一個接受一個Python對象爲參數的函數。這個對象將會是`json.dump()`函數沒法本身序列化的實際對象 — 這個例子裏是`bytes` 對象 `b'\xDE\xD5\xB4\xF8'`。
②	你的自定義序列化函數應該檢查`json.dump()`函數傳給它的對象的類型。當你的函數只序列化一個類型的時候這不是必須的，可是它使你的函數的覆蓋的內容清楚明白，而且在你須要序列化更多類型的時候更容易擴展。
③	在這個例子裏面, 我將`bytes` 對象轉換成字典。`__class__` 鍵持有原始的數據類型(以字符串的形式, `'bytes'`), 而 `__value__` 鍵持有實際的數據。固然它不能是`bytes`對象; 大致的想法是將其轉換成某些能夠被json序列化的東西! `bytes`對象就是一個範圍在0–255的整數的序列。咱們可使用`list()` 函數將`bytes`對象轉換成整數列表。因此`b'\xDE\xD5\xB4\xF8'` 變成 `[222, 213, 180, 248]`. (算一下! 這是對的! 16進制的字節 `\xDE` 是十進制的 222, `\xD5` 是 213, 以此類推。)
④	這一行很重要。你序列化的數據結構可能包含json內建的可序列化類型和你的定製序列化器支持的類型以外的東西。在這種狀況下，你的定製序列化器拋出一個`TypeError`，那樣`json.dump()` 函數就能夠知道你的定製序列化函數不認識該類型。

①	`customserializer` 模塊是你在前一個例子中定義`to_json()`函數的地方。
②	文本模式, utf-8 編碼, yadda yadda。(你極可能會忘記這一點! 我就忘記過好幾回! 事情一切正常直到它失敗的時刻, 而它的失敗很使人矚目。)
③	這是重點: 爲了將定製轉換函數鉤子嵌入`json.dump()`函數, 只要將你的函數以default參數傳入`json.dump()`函數。(萬歲, Python裏一切皆對象!)
④	好吧, 實際上仍是不能工做。可是看一下異常。`json.dump()` 函數再也不抱怨沒法序列化`bytes`對象了。如今它在抱怨另外一個徹底不一樣的對象: `time.struct_time` 對象。

①	爲了演示目的，切換到Python Shell #2 而且刪除在這一章前面使用`pickle`模塊建立的entry數據結構。
②	最簡單的狀況下，`json.load()`函數同`pickle.load()`函數的結果如出一轍。你傳入一個流對象，它返回一個新的Python對象。
③	有好消息也有壞消息。好消息先來: `json.load()` 函數成功的讀取了你在Python Shell #1中建立的`entry.json`文件而且生成了一個包含那些數據的新的Python對象。接着是壞消息: 它沒有重建原始的 entry 數據結構。`'internal_id'` 和 `'published_date'` 這兩個值被重建爲字典 — 具體來講, 你在`to_json()`轉換函數中使用json兼容的值建立的字典。

①	這函數也一樣接受一個參數返回一個值。可是參數不是字符串，而是一個Python對象 — 反序列化一個json編碼的字符串爲Python的結果。
②	你只須要檢查這個對象是否包含`to_json()`函數建立的`'__class__'`鍵。若是是的，`'__class__'`鍵對應的值將告訴你如何將值解碼成原來的Python數據類型。
③	爲了解碼由`time.asctime()`函數返回的字符串，你要使用`time.strptime()`函數。這個函數接受一個格式化過的時間字符串(格式能夠自定義，但默認值同`time.asctime()`函數的默認值相同) 而且返回`time.struct_time`.
④	爲了將整數列表轉換回`bytes` 對象, 你可使用 `bytes()` 函數。

①	爲了將`from_json()`函數嵌入到反序列化過程當中，把它做爲object_hook 參數傳入到`json.load()`函數中。接受函數做爲參數的函數; 真方便!
②	entry 數據結構如今有一個值爲`bytes`對象的`'internal_id'`鍵。它也包含一個`'published_date'`鍵，其值爲`time.struct_time`對象。

①	即便在序列化過程當中加入了`to_json()`鉤子函數, 也在反序列化過程當中加入`from_json()`鉤子函數, 咱們仍然沒有從新建立原始數據結構的完美複製品。爲何沒有？
②	在原始的entry 數據結構中, `'tags'`鍵的值爲一個三個字符串組成的元組。
③	可是重現建立的entry2 數據結構中, `'tags'` 鍵的值是一個三個字符串組成的列表。json 並不區分元組和列表；它只有一個相似列表的數據類型，數組，而且`json`模塊在序列化過程當中會安靜的將元組和列表兩個都轉換成json 數組。大多數狀況下，你能夠忽略元組和列表的區別，可是在使用`json` 模塊時應記得有這麼一回使。

python序列化數據本地存放

深刻#

本章例子的快速筆記#

保存數據到 Pickle 文件#

從Pickle文件讀取數據#

不使用文件來進行序列化#

字節串和字符串又一次擡起了它們醜陋的頭。#

調試Pickle 文件#

序列化Python對象以供其它語言讀取#

將數據保存至 json 文件#

將Python數據類型映射到json#

序列化json不支持的數據類型#

從json文件加載數據#

進一步閱讀#