LightKV-高性能key-value存儲組件

時間 2019-11-17

標籤 lightkv 高性能 key value 存儲組件简体版

原文原文鏈接

LightKV是基於Java NIO的輕量級，高性能，高可靠的key-value存儲組件。html

1、起源

Android平臺常見的本地存儲方式, SDK內置的有SQLite，SharedPreference等，開源組件有ACache, DiskLruCahce等，有各自的特色和適用性。
SharedPreference以其自然的 key-value API，二級存儲（內存HashMap, 磁盤xml文件）等特色，爲廣大開發者所青睞。
然而，任何工具都是有適用性的，參見文章《不要濫用SharedPreference》。
固然，其中一些缺點是其定位決定的，好比說不適合存儲大的key-value, 這個無可厚非；
不過有一些地方能夠改進，好比存儲格式：xml解析速度慢，空間佔用大，特殊字符須要轉義等特色，對於高頻變化的存儲，實非良策。
故此，有必要寫一個改良版的key-value存儲組件。java

2、LightKV原理

2.1 存儲格式

value

關於value類型，咱們須要支持一些經常使用的基礎類型：boolean, int, long, float, double, 以及String 和數組(byte[])。
尤爲是後者，更多的複合類型（好比對象）均可以經過String和數組轉化。
做爲底層的組件，支持最基本的類型能夠簡化複雜度。
對於String和byte[], 存儲時先存長度，再存內容。github

key

咱們觀察到，在實際使用中key一般是預先定義好的；
故此，咱們能夠捨棄必定的通用性，用int來做爲key, 而非用String。
有舍必有得，用int做爲key，能夠用更少的空間承載更多的信息。算法

public interface DataType {
    int OFFSET = 16;
    int MASK = 0xF0000;
    int ENCODE = 1 << 20;

    int BOOLEAN = 1 << OFFSET;
    int INT = 2 << OFFSET;
    int FLOAT = 3 << OFFSET;
    int LONG = 4 << OFFSET;
    int DOUBLE = 5 << OFFSET;
    int STRING = 6 << OFFSET;
    int ARRAY = 7 << OFFSET;
}
複製代碼

int的低16位用來定義key,
17-19位用來定義類型，
20位預留，
21位標記是否編碼（後面會講到），
32位（最高位）標記是否有效：爲1時爲無效，讀取時會跳過。segmentfault

內存緩存

SharePreference相對於ACache，DiskLruCache等多了一層內存的存儲，因而他們的定位也就涇渭分明瞭：
後者一般用於存儲大對象或者文件等，他們只負責提供磁盤存儲，至於讀到內存以後若是使用和管理，則不是他們的職責了。
太大的對象會佔用太多的內存，而SharePreference是長期持有引用，沒有空間限制和淘汰機制的，所以SharePreference適用於「輕量級存儲」，而由此所帶來的收益就是讀取速度很快。
LightKV定位也是「輕量級存儲」，因此也會在內存中存儲key-value，只不過這裏用SparseArray來存儲。數組

2.2 存儲操做

方案1、增量&異步

增量操做

新增：在尾部追加key|value便可；
刪除：爲了不字節移動，能夠用標記的方法——將key的最高位標記爲1；
修改：若是value長度不變，尋址到對應的位置，寫入value便可；不然，先「刪除」，再「新增」；
GC: 解析文件內容時記錄刪除的內容的長度，大於設定閾值則清空文件，作一次全量寫入。安全

mmap

要想增量修改文件，須要具有隨機寫入的能力：
Java NIO會是不錯的選擇，甚至，能夠用mmap(內存映射文件)。
mmap還有一些優勢：
一、直接操做內核空間：避免內核空間和用戶空間之間的數據拷貝；
二、自動定時刷新：避免頻繁的磁盤操做；
三、進程退出時刷新：系統層面的調用，不用擔憂進程退出致使數據丟失。app

若是要說不足，就是在映射文件階段比常規的IO的打開文件消耗更多。
因此API中建議大文件時採用mmap，小文件的讀寫用建議用常規IO；而網上介紹mmap也可能是舉例大文件的拷貝。
事實上若是小文件是高頻寫入的話，也是值得一試的，
好比騰訊的日誌組件 xlog 和存儲組件 MMKV, 都用了mmap。

mmap的寫入方式其實相似於異步寫入，只是不須要本身開線程去刷數據到磁盤，而是由操做系統去調度。
這樣的方式有利有弊：好處是寫入快，減小磁盤損耗；
缺點就是，和SharePreference的apply同樣，不具有原子性，沒有入原子性，一致性就得不到保障。
好比，數據寫入內存後，在數據刷新到磁盤以前，發生系統級錯誤（如系統崩潰）或設備異常（如斷電，磁盤損壞等），此時會丟失數據；
若是寫入內存後，刷入磁盤前，有別的代碼讀取了剛纔寫入的內存，就有可能致使數據不一致。

不過，一般狀況下，發生系統級錯誤和設備異常的機率較低，因此仍是比較可靠的。

方案2、全量&同步

對於一些核心數據，咱們但願用更可靠的方式存儲。
怎麼定義可靠呢？
首先原子性是要有的，因此只能同步寫入了；
而後是可用性和完整性：
程序異常，系統異常，或者硬件故障等均可能致使數據丟失或者錯誤；
需添加一些機制確保異常和故障發生時數據仍然完整可用。

查看SharedPreference源碼，其容錯策略是，
寫入前重命名主文件爲備份文件的名字，成功寫入則刪除備份文件，
而打開文件階段，若是發現有備份文件，將備份文件重命名爲主文件的名字。
從而，假如寫入數據時發生故障，再次重啓APP時能夠從備份文件中恢復數據。
這樣的容錯策略，整體來講是不錯的方案，能保證大多數據狀況下的數據可用性。
咱們沒有采用該方案，主要是考慮該方案操做相對複雜，以及其餘一些顧慮。

咱們採用的策略是：冗餘備份+數據校驗。

冗餘備份

冗餘備份來提升數據數據可用性的思想在不少地方有體現，好比 RAID 1 磁盤陣列。
一樣，咱們能夠經過一分內存寫兩個文件，這樣當一個文件失效，還有另一個文件可用。
比方說一個文件失效的機率時十萬分之一，則兩個文件同時失效的機率是百億分之一。
總之，冗餘備份能夠大大減小數據丟失的機率。
有得必有失，其代價就是雙倍磁盤空間和寫入時間。

不過咱們的定位是「輕量級存儲」，若是隻存「核心數據」，數據量不會很大，因此總的來講收益大於代價。
就寫入時間方面，相比SharedPreference而言，重命名和刪除文件也是一種IO，其本質是更新文件的「元數據」。
寫磁盤以頁（page）爲單位，一頁一般爲4K。

向文件寫入1個字節和2497字節，在磁盤寫入階段是等價的（都須要佔用4K的字節）。
數據量較少時，寫入兩份文件，相比於「重命名->寫數據->刪除文件」的操做，區別不大。

數據校驗

數據校驗的方法一般是對數據進行一些的運算，將運算結果放在數據後；讀取時作一樣運算，而後和以前的結果對比。
常見的方法有奇偶校驗，CRC, MD5, SHA等。
奇偶校驗多被應用於計算機硬件的錯誤檢測中; 軟件層面，一般是計算散列。
衆多Hash算法中，咱們選擇 64bit 的 MurmurHash,
關於MurmurHash可查看筆者的另外一篇文章《漫談散列函數》。

在考慮分組寫入還全量寫入，分組校驗仍是全量校驗時，
分組的話，細節多，代碼複雜，仍是選擇全量的方式吧。
也就是，收集全部key|value到buffer, 而後計算hash, 放到數據後，一併寫入次磁盤。

魚和熊掌

不一樣的應用場景有不一樣的需求。
LightKV同時提供了快速寫入的mmap方式，和更可靠寫入的同步寫入方式。
它們有相同的API，只是存儲機制不同。

public abstract class LightKV {
    final SparseArray<Object> mData = new SparseArray<>();
    //......
}

public class AsyncKV extends LightKV {
    private FileChannel mChannel;
    private MappedByteBuffer mBuffer;
    //......
}

public class SyncKV extends LightKV {
    private FileChannel mAChannel;
    private FileChannel mBChannel;
    private ByteBuffer mBuffer;
    //......
}
複製代碼

AsyncKV因爲不具有一致性，因此也沒有必要冗餘備份了，寫一份就好，以求更高的寫入效率和更少磁盤寫入。
SyncKV因爲要作冗餘備份，因此須要打開兩個文件，而buffer用同一份便可；
二者的特色在前面「方案一」和「方案二」中有所闡述了，根據具體需求靈活使用便可。

2.3 混淆操做

對於用XML來存儲的SharePreferences來講，打開其文件便可一覽全部key-value,
即便開發者對value進行編碼，key仍是能夠看到的。
SharePreferences的文件不是存在App下的目錄，在沙盒之中嗎？
無root權限下，對於其餘應用（非系統），沙盒確實是不可訪問的；
可是對於APP逆向者（黑色產業？）來講，SharePreferences文件不過是囊中之物，或可從中一窺APP的關鍵，以助其破解APP。
故此，混淆內容文件，或可增長一點破解成本。
對於APP來講，沒有絕對的安全，只是破解成本與收益之間的博弈，這裏就很少做展開了。

LightKV因爲採用流式存儲，並且key是用int類型，因此不容易看出其文件內容；
可是若是value是明文字符串，仍是能夠看到部份內容的，以下圖：

LightKV提供了混淆value(String和byte[]類型）的接口：

public interface Encoder {
        byte[] encode(byte[] src);
        byte[] decode(byte[] des);
    }
複製代碼

開發者能夠按照本身的規則實現編碼和解碼。
經過該接口能夠作不少擴展：

一、嚴格的加密；
二、數據壓縮；
三、內容混淆（事實上前兩者都有混淆的功能）

混淆後，打開文件，都是亂碼。

值得一提的是，只能對String和byte[]類型的value混淆。
由於基礎類如long, double等,以二進制形式寫入,用文本的形式打開,本就是很差閱讀的,無需再做混淆。

3、使用方法

前面咱們看到，SyncKV和AsyncKV都繼承於LightKV, 兩者在內存中的存儲格式是一致的，都是SparseArray, 因此get方法封裝在LightKV中，而後各自實現put方法。
方法列表以下圖：

和SharePreferences相似，也有contains, remove, clear 和 commit 方法，甚至於，具體用法也很相似：

public class AppData {
    private static final SharedPreferences sp = 
        GlobalConfig.getAppContext().getSharedPreferences("app_data", Context.MODE_PRIVATE);
    
    private static final SharedPreferences.Editor editor = sp.edit();

    private static final String ACCOUNT = "account";
    private static final String TOKEN = "token";

    private static void putString(String key, String value) {
        editor.putString(key, value);
        editor.commit();
    }

    private static String getString(String key) {
        return sp.getString(key, "");
    }
}
複製代碼

public class AppData {
    private static final SyncKV DATA =
            new LightKV.Builder(GlobalConfig.getAppContext(), "app_data")
                    .logger(AppLogger.getInstance())
                    .executor(AsyncTask.THREAD_POOL_EXECUTOR)
                    .encoder(new ConfuseEncoder())
                    .sync();

    public interface Keys {
        int SHOW_COUNT = 1 | DataType.INT;
        int ACCOUNT = 2 | DataType.STRING | DataType.ENCODE;
        int TOKEN = 3 | DataType.STRING | DataType.ENCODE;
    }

    public static SyncKV data() {
        return DATA;
    }

    public static String getString(int key) {
        return DATA.getString(key);
    }

    public static void putString(int key, String value) {
        DATA.putString(key, value);
        DATA.commit();
    }
}
複製代碼

固然，以上只是衆多封裝方法中的一種，具體使用中，不一樣的開發者有不一樣的偏好。

對於LightKV而言，key的定義方法以下：
一、最好一個文件對應一個統必定義key的類，如上面的「Keys」；
二、key的賦值，按類型從1到65534均可以定義，而後和對應的DataType作「|」運算（解析的時候須要據此判斷類型）。

相對於SharePreferences，LightKV有更多的初始化選項，故而用構造者模式來構建對象。下面逐一說明各個參數和對應的特性。

3.1 內容混淆

若須要對value混淆，只需在構造LightKV時傳入Encoder,
而後聲明key時和DataType.ENCODE作「|」運算便可。
保存和讀取時，LightKV會將key和DataType.ENCODE作「&」運算，若不爲0，則調用Encoder進行編碼（保存）或解碼（讀取）。

3.2 異步加載

SharePreferences的加載在新建立的的線程中加載的, 在完成加載以前阻塞讀和寫：
LightKV一樣實現了異步加載, 並且能夠指定 Executor，固然也能夠選擇不異步加載（不傳Executor便可）。
須要提醒的是，雖然提供了異步加載，可是有時候沒有異步加載的效果。
好比對象初始化的同時當即調用get或者put方法，會阻塞當前線程直到加載完成，這樣和同步加載沒什麼區別。

建議寫法，在進程初始化的時候調用data(), 以觸發數據的加載：

fun inti(context: Context) {
        // 僅初始化對象，不作get和put
        AppData.data()

        // 其餘初始化工做
    }
複製代碼

3.3 錯誤日誌

public interface Logger {
        void e(String tag, Throwable e);
    }
複製代碼

大多數組件都不能保證運行期不發生異常，發生異常時，開發者一般會把異常信息打印到日誌文件（有的還會上傳雲端）。
故此，LightKV提供了打印日誌接口，傳入實現類便可。

3.4 選擇模式

在Builder的最後，調用 sync() 和 async() 可分辨建立AsyncKV和SyncKV。
各自的特色前面也交代過了，靈活選取便可。
若是不是存一些十分重要的數據（好比賬號信息等），用AsyncKV便可。

3.5 訪問數據

寫完初始化參數，定義好key, 編寫 get 和 set方法以後,
就能夠訪問數據了：

String account = AppData.getString(AppData.Keys.ACCOUNT)
if(TextUtils.isEmpty(account)){
      AppData.putString(AppData.Keys.ACCOUNT, "foo@gmail.com")
}
複製代碼

3.6 Kotlin下的用法

藉助Kotlin的委託屬性，筆者拓展了LightKV的API, 提供了更方便的用法。

object AppData : KVData() {
    override val data: LightKV by lazy {
        LightKV.Builder(GlobalConfig.appContext, "app_data")
                .logger(AppLogger)
                .executor(AsyncTask.THREAD_POOL_EXECUTOR)
                .encoder(GzipEncoder)
                .async()
    }

    var showCount by int(1)
    var account by string(2)
    var token by string(3)
    var secret by array(4 or DataType.ENCODE)
}
複製代碼

val account = AppData.account
if (TextUtils.isEmpty(account)) {
   AppData.account = "foo@gmail.com"
}
複製代碼

與Java版的API相比，key的聲明更加簡單，並且能夠像訪問變量同樣訪問key對應的value。

4、評測

倉促之間，準備的測試用例可能不是很科學，僅供參考-_-

測試用例中，對支持的7種類型各配置5個key, 共35對key|value。
測試機器：小米 note 1, 16G存儲

4.1 存儲空間

存儲方式	文件大小(kb)
AsyncKV	4
SyncKV	1.7
SharePreferences	3.3

AsyncKV因爲採用mmap的打開方式，須要映射一塊磁盤空間到內存，爲了減小碎片，故而一次映射一頁（4K）。
SyncKV因爲存儲格式比較緊湊，因此文件大小相比SharePreferences要小；
可是因爲SyncKV採用雙備份，因此總大小和SharePreferences差很少。

數據量都少於4K時，其實三者相差無幾；
當存儲內容變多時，AsyncKV反而會更少佔用，由於其存儲格式和SyncKV同樣，可是隻用存一份。

4.2 加載性能

存儲方式	加載耗時(毫秒）
AsyncKV	10.46
SyncKV	1.56
SharePreferences	4.99

前面也提到，mmap在打開文件比常規打開文件消耗更多，故而API文檔中建議大文件時才用mmap。
測試結果確實顯示mmap在讀取階段確實比較耗時，可是，若是打開後頻繁寫入，那就體現出mmap的優點了。

4.3 寫入性能

理想中的寫入是各組key|value全寫到內存，而後統一調用一次commit, 這樣寫入是最快的。
然而實際使用中，各組key|value的寫入一般是隨機的，因此下面測試結果，都是每次put後當即提交。
AsyncKV例外，由於其定位就是減小IO，讓系統內核本身去提交更新。

存儲方式	寫入耗時(毫秒）
AsyncKV	2.25
SyncKV	75.34
SharePreferences-apply	6.90
SharePreferences-commit	279.14

AsyncKV 和 SharePreferences-apply 這兩種方式，提交到內存後當即返回，因此耗時較少；
SyncKV 和 SharePreferences-commit，都是在當前線程提交內存和磁盤，故而耗時較長。
不管是同步寫入仍是異步寫入，LightKV都要比SharePreferences快。

5、總結

SharePreferences是Android平臺輕量且方便的key-value存儲組件，然而很多能夠改進的地方。
LightKV以SharePreferences爲參考，從效率，安全和易用性等方面，提供更好的存儲方式。

6、下載

dependencies {
    implementation 'com.horizon.lightkv:lightkv:1.0.7'
}
複製代碼

項目地址： github.com/No89757/Lig…

參考文章： www.cnblogs.com/mingfeng002… cloud.tencent.com/developer/a… segmentfault.com/r/125000000… www.jianshu.com/p/ad9756fe2… www.jianshu.com/p/07664dc4c…

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。