我最近在涉及大量數據處理的項目中頻繁使用 sqlite3。我最初的嘗試根本不涉及任何數據庫,全部的數據都將保存在內存中,包括字典查找、迭代和條件等查詢。這很好,但能夠放入內存的只有那麼多,而且將數據從磁盤從新生成或加載到內存是一個繁瑣又耗時的過程。html
我決定試一試sqlite3。由於只需打開與數據庫的鏈接,這樣能夠增長可處理的數據量,並將應用程序的加載時間減小到零。此外,我能夠經過 SQL 查詢替換不少Python邏輯語句。python
我想分享一些關於此次經歷的心得和發現。git
TL;DRgithub
若是你須要在數據庫中一次性插入不少行,那麼你真不該該使用 execute。sqlite3 模塊提供了批量插入的方式:executemany。sql
而不是像這樣作:數據庫
1
2
|
for row in iter_data():
connection.execute('INSERT INTO my_table VALUES (?)', row)
|
你能夠利用這個事實,即 executemany 接受元組的生成器做爲參數:安全
1
2
3
4
|
connection.executemany(
'INSERT INTO my_table VALUE (?)',
iter_data()
)
|
這不只更簡潔,並且更高效。實際上,sqlite3 在幕後利用 executemany 實現 execute,但後者插入一行而不是多行。性能
我寫了一個小的基準測試,將一百萬行插入空表(數據庫在內存中):測試
一開始我常常搞混的事情就是,光標管理。在線示例和文檔中一般以下:fetch
1
2
3
|
connection = sqlite3.connect(':memory:')
cursor = connection.cursor()
# Do something with cursor
|
但大多數狀況下,你根本不須要光標,你能夠直接使用鏈接對象(本文末尾會提到)。
像execute和executemany相似的操做能夠直接在鏈接上調用。如下是一個證實此事的示例:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
|
import sqlite3
connection = sqlite3(':memory:')
# Create a table
connection.execute('CREATE TABLE events(ts, msg)')
# Insert values
connection.executemany(
'INSERT INTO events VALUES (?,?)',
[
(1, 'foo'),
(2, 'bar'),
(3, 'baz')
]
)
# Print inserted rows
for row in connnection.execute('SELECT * FROM events'):
print(row)
|
你可能常常會看到使用fetchone或fetchall來處理SELECT查詢結果的示例。可是我發現處理這些結果的最天然的方式是直接在光標上迭代:
1
2
|
for row in connection.execute('SELECT * FROM events'):
print(row)
|
這樣一來,只要你獲得足夠的結果,你就能夠終止查詢,而且不會引發資源浪費。固然,若是事先知道你須要多少結果,能夠改用LIMIT SQL語句,但Python生成器是很是方便的,可讓你將數據生成與數據消耗分離。
即便在處理SQL事務的中間,也會發生討厭的事情。爲了不手動處理回滾或提交,你能夠簡單地使用鏈接對象做爲上下文管理器。 在如下示例中,咱們建立了一個表,並錯誤地插入了重複的值:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
|
import sqlite3
connection = sqlite3.connect(':memory:')
with connection:
connection.execute(
'CREATE TABLE events(ts, msg, PRIMARY KEY(ts, msg))')
try:
with connection:
connection.executemany('INSERT INTO events VALUES (?, ?)', [
(1, 'foo'),
(2, 'bar'),
(3, 'baz'),
(1, 'foo'),
])
except (sqlite3.OperationalError, sqlite3.IntegrityError) as e:
print('Could not complete operation:', e)
# No row was inserted because transaction failed
for row in connection.execute('SELECT * FROM events'):
print(row)
connection.close()
|
…當它真的有用時
在你的程序中有幾個 pragma 可用於調整 sqlite3 的行爲。特別地,其中一個能夠改善性能的是synchronous:
1
|
connection.execute('PRAGMA synchronous = OFF')
|
你應該知道這多是危險的。若是應用程序在事務中間意外崩潰,數據庫可能會處於不一致的狀態。因此請當心使用! 可是若是你要更快地插入不少行,那麼這多是一個選擇。
假設你須要在數據庫上建立幾個索引,而你須要在插入不少行的同時建立索引。把索引的建立推遲到全部行的插入以後能夠致使實質性的性能改善。
使用 Python 字符串操做將值包含到查詢中是很方便的。可是這樣作很是不安全,而 sqlite3 給你提供了更好的方法來作到這一點:廈門叉車
1
2
3
4
5
6
7
|
# Do not do this!
my_timestamp = 1
c.execute("SELECT * FROM events WHERE ts = '%s'" % my_timestamp)
# Do this instead
my_timestamp = (1,)
c.execute('SELECT * FROM events WHERE ts = ?', my_timestamp)
|
此外,使用Python%s(或格式或格式的字符串常量)的字符串插值對於executemany來講並非老是可行。因此在此嘗試沒有什麼真正意義!
請記住,這些小技巧可能會(也可能不會)給你帶來好處,具體取決於特定的用例。你應該永遠本身去嘗試,決定是否值得這麼作。