python序列化-複習

序列化  

From https://www.liaoxuefeng.com/php

 
在程序運行的過程當中,全部的變量都是在內存中,好比,定義一個dict:
d = dict(name='Bob', age=20, score=88) 

能夠隨時修改變量,好比把name改爲'Bill',可是一旦程序結束,變量所佔用的內存就被操做系統所有回收。若是沒有把修改後的'Bill'存儲到磁盤上,下次從新運行程序,變量又被初始化爲'Bob'html

咱們把變量從內存中變成可存儲或傳輸的過程稱之爲序列化,在Python中叫pickling,在其餘語言中也被稱之爲serialization,marshalling,flattening等等,都是一個意思。python

序列化以後,就能夠把序列化後的內容寫入磁盤,或者經過網絡傳輸到別的機器上。sql

反過來,把變量內容從序列化的對象從新讀到內存裏稱之爲反序列化,即unpickling。編程

Python提供兩個模塊來實現序列化:cPicklepickle。這兩個模塊功能是同樣的,區別在於cPickle是C語言寫的,速度快,pickle是純Python寫的,速度慢,跟cStringIOStringIO一個道理。用的時候,先嚐試導入cPickle,若是失敗,再導入picklejson

try: import cPickle as pickle except ImportError: import pickle 

首先,咱們嘗試把一個對象序列化並寫入文件:網絡

>>> d = dict(name='Bob', age=20, score=88) >>> pickle.dumps(d) "(dp0\nS'age'\np1\nI20\nsS'score'\np2\nI88\nsS'name'\np3\nS'Bob'\np4\ns." 

pickle.dumps()方法把任意對象序列化成一個str,而後,就能夠把這個str寫入文件。或者用另外一個方法pickle.dump()直接把對象序列化後寫入一個file-like Object:編程語言

>>> f = open('dump.txt', 'wb') >>> pickle.dump(d, f) >>> f.close() 

看看寫入的dump.txt文件,一堆亂七八糟的內容,這些都是Python保存的對象內部信息。函數

當咱們要把對象從磁盤讀到內存時,能夠先把內容讀到一個str,而後用pickle.loads()方法反序列化出對象,也能夠直接用pickle.load()方法從一個file-like Object中直接反序列化出對象。咱們打開另外一個Python命令行來反序列化剛纔保存的對象:編碼

>>> f = open('dump.txt', 'rb') >>> d = pickle.load(f) >>> f.close() >>> d {'age': 20, 'score': 88, 'name': 'Bob'} 

變量的內容又回來了!

固然,這個變量和原來的變量是徹底不相干的對象,它們只是內容相同而已。

Pickle的問題和全部其餘編程語言特有的序列化問題同樣,就是它只能用於Python,而且可能不一樣版本的Python彼此都不兼容,所以,只能用Pickle保存那些不重要的數據,不能成功地反序列化也不要緊。

JSON

若是咱們要在不一樣的編程語言之間傳遞對象,就必須把對象序列化爲標準格式,好比XML,但更好的方法是序列化爲JSON,由於JSON表示出來就是一個字符串,能夠被全部語言讀取,也能夠方便地存儲到磁盤或者經過網絡傳輸。JSON不只是標準格式,而且比XML更快,並且能夠直接在Web頁面中讀取,很是方便。

JSON表示的對象就是標準的JavaScript語言的對象,JSON和Python內置的數據類型對應以下:

JSON類型 Python類型
{} dict
[] list
"string" 'str'或u'unicode'
1234.56 int或float
true/false True/False
null None

Python內置的json模塊提供了很是完善的Python對象到JSON格式的轉換。咱們先看看如何把Python對象變成一個JSON:

>>> import json >>> d = dict(name='Bob', age=20, score=88) >>> json.dumps(d) '{"age": 20, "score": 88, "name": "Bob"}' 

dumps()方法返回一個str,內容就是標準的JSON。相似的,dump()方法能夠直接把JSON寫入一個file-like Object

要把JSON反序列化爲Python對象,用loads()或者對應的load()方法,前者把JSON的字符串反序列化,後者從file-like Object中讀取字符串並反序列化:

>>> json_str = '{"age": 20, "score": 88, "name": "Bob"}' >>> json.loads(json_str) {u'age': 20, u'score': 88, u'name': u'Bob'} 

有一點須要注意,就是反序列化獲得的全部字符串對象默認都是unicode而不是str。因爲JSON標準規定JSON編碼是UTF-8,因此咱們老是能正確地在Python的strunicode與JSON的字符串之間轉換。

JSON進階

Python的dict對象能夠直接序列化爲JSON的{},不過,不少時候,咱們更喜歡用class表示對象,好比定義Student類,而後序列化:

import json class Student(object): def __init__(self, name, age, score): self.name = name self.age = age self.score = score s = Student('Bob', 20, 88) print(json.dumps(s)) 

運行代碼,絕不留情地獲得一個TypeError

Traceback (most recent call last): ... TypeError: <__main__.Student object at 0x10aabef50> is not JSON serializable 

錯誤的緣由是Student對象不是一個可序列化爲JSON的對象。

若是連class的實例對象都沒法序列化爲JSON,這確定不合理!

別急,咱們仔細看看dumps()方法的參數列表,能夠發現,除了第一個必須的obj參數外,dumps()方法還提供了一大堆的可選參數:

https://docs.python.org/2/library/json.html#json.dumps

這些可選參數就是讓咱們來定製JSON序列化。前面的代碼之因此沒法把Student類實例序列化爲JSON,是由於默認狀況下,dumps()方法不知道如何將Student實例變爲一個JSON的{}對象。

可選參數default就是把任意一個對象變成一個可序列爲JSON的對象,咱們只須要爲Student專門寫一個轉換函數,再把函數傳進去便可:

def student2dict(std): return { 'name': std.name, 'age': std.age, 'score': std.score } print(json.dumps(s, default=student2dict)) 

這樣,Student實例首先被student2dict()函數轉換成dict,而後再被順利序列化爲JSON。

不過,下次若是遇到一個Teacher類的實例,照樣沒法序列化爲JSON。咱們能夠偷個懶,把任意class的實例變爲dict

print(json.dumps(s, default=lambda obj: obj.__dict__)) 

由於一般class的實例都有一個__dict__屬性,它就是一個dict,用來存儲實例變量。也有少數例外,好比定義了__slots__的class。

一樣的道理,若是咱們要把JSON反序列化爲一個Student對象實例,loads()方法首先轉換出一個dict對象,而後,咱們傳入的object_hook函數負責把dict轉換爲Student實例:

def dict2student(d): return Student(d['name'], d['age'], d['score']) json_str = '{"age": 20, "score": 88, "name": "Bob"}' print(json.loads(json_str, object_hook=dict2student)) 

運行結果以下:

<__main__.Student object at 0x10cd3c190> 

打印出的是反序列化的Student實例對象。

小結

Python語言特定的序列化模塊是pickle,但若是要把序列化搞得更通用、更符合Web標準,就可使用json模塊。

json模塊的dumps()loads()函數是定義得很是好的接口的典範。當咱們使用時,只須要傳入一個必須的參數。可是,當默認的序列化或反序列機制不知足咱們的要求時,咱們又能夠傳入更多的參數來定製序列化或反序列化的規則,既作到了接口簡單易用,又作到了充分的擴展性和靈活性。

相關文章
相關標籤/搜索