字符串數據類型是Redis
裏最經常使用的類型了,它的鍵和值都是字符串,使用起來很是的方便。雖然字符串數據類型的值都統稱爲字符串了,可是在實際存儲時會根據值的不一樣自動選擇合適的編碼。字符串對象的編碼一共有三種:int
、raw
、embstr
。c++
Redis用統一的數據結構來表示一個對象,具體定義以下:面試
typedef struct redisObject {
unsigned type:4;
unsigned encoding:4;
// 當內存超限時採用LRU算法清除內存中的對象
unsigned lru:LRU_BITS; /* LRU time (relative to global lru_clock) or * LFU data (least significant 8 bits frequency * and most significant 16 bits access time). */
// 該對象被引用數
int refcount;
// 對象的值指針
void *ptr;
} robj;
複製代碼
其中type
字段表明對象的類型,取值一共有7種:redis
/* A redis object, that is a type able to hold a string / list / set */
/* The actual Redis Object */
#define OBJ_STRING 0 /* 字符串對象. */
#define OBJ_LIST 1 /* 列表對象. */
#define OBJ_SET 2 /* 集合對象. */
#define OBJ_ZSET 3 /* 有序集合對象. */
#define OBJ_HASH 4 /* 哈希對象. */
/* The "module" object type is a special one that signals that the object * is one directly managed by a Redis module. In this case the value points * to a moduleValue struct, which contains the object value (which is only * handled by the module itself) and the RedisModuleType struct which lists * function pointers in order to serialize, deserialize, AOF-rewrite and * free the object. * * Inside the RDB file, module types are encoded as OBJ_MODULE followed * by a 64 bit module type ID, which has a 54 bits module-specific signature * in order to dispatch the loading to the right module, plus a 10 bits * encoding version. */
#define OBJ_MODULE 5 /* 模塊對象. */
#define OBJ_STREAM 6 /* 流對象. */
複製代碼
而後是encoding
字段,表明着對象值的實際編碼類型,取值一共有11種:算法
/* Objects encoding. Some kind of objects like Strings and Hashes can be * internally represented in multiple ways. The 'encoding' field of the object * is set to one of this fields for this object. */
#define OBJ_ENCODING_RAW 0 /* 簡單動態字符串 */
#define OBJ_ENCODING_INT 1 /* long類型的整數 */
#define OBJ_ENCODING_HT 2 /* 字典 */
#define OBJ_ENCODING_ZIPMAP 3 /* 壓縮字典 */
#define OBJ_ENCODING_LINKEDLIST 4 /* 再也不使用的舊列表,使用雙端鏈表. */
#define OBJ_ENCODING_ZIPLIST 5 /* 壓縮列表 */
#define OBJ_ENCODING_INTSET 6 /* 整數集合 */
#define OBJ_ENCODING_SKIPLIST 7 /* 跳躍表和字典 */
#define OBJ_ENCODING_EMBSTR 8 /* embstr編碼的簡單動態字符串 */
#define OBJ_ENCODING_QUICKLIST 9 /* 編碼爲ziplist的列表 */
#define OBJ_ENCODING_STREAM 10 /* 編碼爲listpacks的基數樹 */
複製代碼
前面已經提到字符串對象只用到了long類型的整數
、簡單動態字符串
、embstr編碼的簡單動態字符串
這三種編碼。數據庫
當字符串對象的值是一個整數且能夠用long來表示時,字符串對象的編碼就會是OBJ_ENCODING_INT
編碼。數組
能夠看到,當值很是大的時候仍是用OBJ_ENCODING_RAW
來存儲的。數據結構
當字符串對象的值是一個字符串且長度大於44
字節時,字符串對象的編碼就會是OBJ_ENCODING_RAW
編碼。具體結構在下文。ide
當字符串對象的值是一個字符串且長度小於等於44
字節時,字符串對象的編碼就會是OBJ_ENCODING_EMBSTR
編碼。OBJ_ENCODING_EMBSTR
編碼和OBJ_ENCODING_RAW
編碼的區別主要有如下幾點:學習
OBJ_ENCODING_RAW
編碼的對象在分配內存時會分配兩次,分別建立redisObject
對象和SDS
對象。而OBJ_ENCODING_EMBSTR
編碼則是一次就分配好。OBJ_ENCODING_RAW
編碼的對象釋放內存也須要兩次,OBJ_ENCODING_EMBSTR
編碼則是一次。OBJ_ENCODING_EMBSTR
編碼的數據都存儲在連續的內存上,OBJ_ENCODING_RAW
編碼則不是。/* Create a string object with EMBSTR encoding if it is smaller than * OBJ_ENCODING_EMBSTR_SIZE_LIMIT, otherwise the RAW encoding is * used. * * The current limit of 44 is chosen so that the biggest string object * we allocate as EMBSTR will still fit into the 64 byte arena of jemalloc. */
#define OBJ_ENCODING_EMBSTR_SIZE_LIMIT 44
robj *createStringObject(const char *ptr, size_t len) {
if (len <= OBJ_ENCODING_EMBSTR_SIZE_LIMIT)
return createEmbeddedStringObject(ptr,len);
else
return createRawStringObject(ptr,len);
}
複製代碼
字符串是Redis
裏很是常見的類型,而用C
實現的Redis
和Java
不同。在C
裏字符串是用長度爲N+1
的字符數組實現的,且使用空字符串'\0'
做爲結束符號。獲取字符串的長度須要遍歷一遍,找到空字符串'\0'
才知道字符串的長度,複雜度是O(N)
。優化
若是有一個長度很是大的字符串,單線程的Redis
獲取它的長度就可能會阻塞好久,這是不能接受的,因此Redis
須要一種更高效的字符串類型。
Redis
實現了一個叫SDS(simple dynamic string)
的字符串類型,其中有兩個變量來分別表明字符串的長度和字符數組未使用的字符數量,這樣就能夠用O(1)
的複雜度來獲取字符串的長度了,並且一樣也是使用空字符串'\0'
做爲結束符號。
struct sdshdr {
// 字符串長度
int len;
// 字符數組未使用的字符數量
int free;
// 保存字符串的字符數組
char buf[];
}
複製代碼
SDS
在字符數組空間不足於容納新字符串的時候會自動擴容。
若是把一個C
字符串拼接到一個SDS
後面,當字符數組空間不足時,SDS
會先擴容到恰好能夠容納新字符串的長度,而後再擴充新字符串的空字符長度,最終SDS
的字符數組長度等於 2 * 新字符串 + 1(結束符號'\0')
。不過當新字符串的大小超過1MB
後,擴充的空字符長度大小會固定爲1MB
。
之因此會有這個機制,是由於Redis
做爲一個NoSQL
數據庫,會頻繁的修改字符串,擴容機制至關於給SDS
作了一個緩衝池。把SDS
連續增加N
次字符串須要內存重分配N
次優化成了SDS
連續增加N
次字符串最多須要內存重分配N
次,這其實和Java
裏的StringBuilder
實現思想是同樣的。
我看過兩本關於Redis
的書,裏面都是講Redis
如何實戰的,並無講Redis
的設計和實現。這也就致使了面試很尷尬,由於面試官最喜歡問原理相關的東西了,因此之後學習技術的時候不要從實戰類的書籍開始了,仍是先看懂原理比較好。
這是《Redis設計與實現》
裏字符串一節的總結。