爬蟲文件存儲-3：Redis

時間 2020-05-21

原文原文鏈接

前提條件：redis

安裝並運行redis服務端程序，安裝RedisPy庫數據庫

說明：Redis 是 StrictRedis 的子類，它的主要功能是用於向後兼容舊版本庫裏的幾個方法，官方推薦使用 StrictRedis。json

1.鏈接app

# 方法1
from redis import StrictRedis redis = StrictRedis(host='localhost',port=6379,db=0,password='foobar2000') redis.set('name', 'Bob') print(redis.get('name'))

# 方法2
pool = ConnectionPool(host='localhost', port=6379, db=0, password='foobar2000')
 redis = StrictRedis(connection_pool=pool)
 redis.set('name', 'Bob') print(redis.get('name'))

「」
另外 ConnectionPool 還支持經過 URL 來構建，URL 的格式支持以下三種：
redis://[:password]@host:port/db
rediss://[:password]@host:port/db
unix://[:password]@/path/to/socket.sock?db=db
這三種 URL 分別表示建立 Redis TCP 鏈接、Redis TCP+SSL 鏈接、Redis Unix Socket 鏈接
「」

2.key操做dom

方法socket	做用測試	參數說明優化	示例編碼	示例說明加密	示例結果
exists(name)	判斷一個key是否存在	name: key名	`redis.exists('name')`	是否存在name這個key	True
delete(name)	刪除一個key	name: key名	`redis.delete('name')`	刪除name這個key	1
type(name)	判斷key類型	name: key名	`redis.type('name')`	判斷name這個key類型	b'string'
keys(pattern)	獲取全部符合規則的key	pattern: 匹配規則	`redis.keys('n*')`	獲取全部以n開頭的key	[b'name']
randomkey()	獲取隨機的一個key		`randomkey()`	獲取隨機的一個key	b'name'
rename(src, dst)	將key重命名	src: 原key名 dst: 新key名	`redis.rename('name', 'nickname')`	將name重命名爲nickname	True
dbsize()	獲取當前數據庫中key的數目		`dbsize()`	獲取當前數據庫中key的數目	100
expire(name, time)	設定key的過時時間，單位秒	name: key名 time: 秒數	`redis.expire('name', 2)`	將name這key的過時時間設置2秒	True
ttl(name)	獲取key的過時時間，單位秒，-1爲永久不過時	name: key名	`redis.ttl('name')`	獲取name這key的過時時間	-1
move(name, db)	將key移動到其餘數據庫	name: key名 db: 數據庫代號	`move('name', 2)`	將name移動到2號數據庫	True
flushdb()	刪除當前選擇數據庫中的全部key		`flushdb()`	刪除當前選擇數據庫中的全部key	True
flushall()	刪除全部數據庫中的全部key		`flushall()`	刪除全部數據庫中的全部key	True

3.string操做

Redis 中存在最基本的鍵值對形式存儲

方法	做用	參數說明	示例	示例說明	示例結果
set(name, value)	給數據庫中key爲name的string賦予值value	name: key名 value: 值	`redis.set('name', 'Bob')`	給name這個key的value賦值爲Bob	True
get(name)	返回數據庫中key爲name的string的value	name: key名	`redis.get('name')`	返回name這個key的value	b'Bob'
getset(name, value)	給數據庫中key爲name的string賦予值value並返回上次的value	name: key名 value: 新值	`redis.getset('name', 'Mike')`	賦值name爲Mike並獲得上次的value	b'Bob'
*mget(keys, args)**	返回多個key對應的value	keys: key的列表	`redis.mget(['name', 'nickname'])`	返回name和nickname的value	[b'Mike', b'Miker']
setnx(name, value)	若是key不存在才設置value	name: key名	`redis.setnx('newname', 'James')`	若是newname這key不存在則設置值爲James	第一次運行True，第二次False
setex(name, time, value)	設置能夠對應的值爲string類型的value，並指定此鍵值對應的有效期	name: key名 time: 有效期 value: 值	`redis.setex('name', 1, 'James')`	將name這key的值設爲James，有效期1秒	True
setrange(name, offset, value)	設置指定key的value值的子字符串	name: key名 offset: 偏移量 value: 值	`redis.set('name', 'Hello') redis.setrange('name', 6, 'World')`	設置name爲Hello字符串，並在index爲6的位置補World	11，修改後的字符串長度
mset(mapping)	批量賦值	mapping: 字典	`redis.mset({'name1': 'Durant', 'name2': 'James'})`	將name1設爲Durant，name2設爲James	True
msetnx(mapping)	key均不存在時才批量賦值	mapping: 字典	`redis.msetnx({'name3': 'Smith', 'name4': 'Curry'})`	在name3和name4均不存在的狀況下才設置兩者值	True
incr(name, amount=1)	key爲name的value增值操做，默認1，key不存在則被建立並設爲amount	name: key名 amount:增加的值	`redis.incr('age', 1)`	age對應的值增1，若不存在則會建立並設置爲1	1，即修改後的值
decr(name, amount=1)	key爲name的value減值操做，默認1，key不存在則被建立並設置爲-amount	name: key名 amount:減小的值	`redis.decr('age', 1)`	age對應的值減1，若不存在則會建立並設置爲-1	-1，即修改後的值
append(key, value)	key爲name的string的值附加value	key: key名	`redis.append('nickname', 'OK')`	向key爲nickname的值後追加OK	13，即修改後的字符串長度
substr(name, start, end=-1)	返回key爲name的string的value的子串	name: key名 start: 起始索引 end: 終止索引，默認-1截取到末尾	`redis.substr('name', 1, 4)`	返回key爲name的值的字符串，截取索引爲1-4的字符	b'ello'
getrange(key, start, end)	獲取key的value值從start到end的子字符串	key: key名 start: 起始索引 end: 終止索引	`redis.getrange('name', 1, 4)`	返回key爲name的值的字符串，截取索引爲1-4的字符	b'ello'

4.列表操做

List，即列表。Redis 還提供了列表存儲，列表內的元素能夠重複，並且能夠從兩端存儲

方法	做用	參數說明	示例	示例說明	示例結果
*rpush(name, values)**	在key爲name的list尾添加值爲value的元素，能夠傳多個	name: key名 values: 值	`redis.rpush('list', 1, 2, 3)`	給list這個key的list尾添加一、二、3	3，list大小
*lpush(name, values)**	在key爲name的list頭添加值爲value的元素，能夠傳多個	name: key名 values: 值	`redis.lpush('list', 0)`	給list這個key的list頭添加0	4，list大小
llen(name)	返回key爲name的list的長度	name: key名	`redis.llen('list')`	返回key爲list的列表的長度	4
lrange(name, start, end)	返回key爲name的list中start至end之間的元素	name: key名 start: 起始索引 end: 終止索引	`redis.lrange('list', 1, 3)`	返回起始爲1終止爲3的索引範圍對應的list	`[b'3', b'2', b'1']`
ltrim(name, start, end)	截取key爲name的list，保留索引爲start到end的內容	name:key名 start: 起始索引 end: 終止索引	`ltrim('list', 1, 3)`	保留key爲list的索引爲1到3的元素	True
lindex(name, index)	返回key爲name的list中index位置的元素	name: key名 index: 索引	`redis.lindex('list', 1)`	返回key爲list的列表index爲1的元素	b'2'
lset(name, index, value)	給key爲name的list中index位置的元素賦值，越界則報錯	name: key名 index: 索引位置 value: 值	`redis.lset('list', 1, 5)`	將key爲list的list索引1位置賦值爲5	True
lrem(name, count, value)	刪除count個key的list中值爲value的元素	name: key名 count: 刪除個數 value: 值	`redis.lrem('list', 2, 3)`	將key爲list的列表刪除2個3	1，即刪除的個數
lpop(name)	返回並刪除key爲name的list中的首元素	name: key名	`redis.lpop('list')`	返回並刪除名爲list的list第一個元素	b'5'
rpop(name)	返回並刪除key爲name的list中的尾元素	name: key名	`redis.rpop('list')`	返回並刪除名爲list的list最後一個元素	b'2'
blpop(keys, timeout=0)	返回並刪除名稱爲在keys中的list中的首元素，若是list爲空，則會一直阻塞等待	keys: key列表 timeout: 超時等待時間，0爲一直等待	`redis.blpop('list')`	返回並刪除名爲list的list的第一個元素	[b'5']
brpop(keys, timeout=0)	返回並刪除key爲name的list中的尾元素，若是list爲空，則會一直阻塞等待	keys: key列表 timeout: 超時等待時間，0爲一直等待	`redis.brpop('list')`	返回並刪除名爲list的list的最後一個元素	[b'2']
rpoplpush(src, dst)	返回並刪除名稱爲src的list的尾元素，並將該元素添加到名稱爲dst的list的頭部	src: 源list的key dst: 目標list的key	`redis.rpoplpush('list', 'list2')`	將key爲list的list尾元素刪除並返回並將其添加到key爲list2的list頭部	b'2'

5.集合操做

Set，即集合。Redis 還提供了集合存儲，集合中的元素都是不重複的

方法	做用	參數說明	示例	示例說明	示例結果
*sadd(name, values)**	向key爲name的set中添加元素	name: key名 values: 值，可爲多個	`redis.sadd('tags', 'Book', 'Tea', 'Coffee')`	向key爲tags的set中添加Book、Tea、Coffee三個內容	3，即插入的數據個數
*srem(name, values)**	從key爲name的set中刪除元素	name: key名 values: 值，可爲多個	`redis.srem('tags', 'Book')`	從key爲tags的set中刪除Book	1，即刪除的數據個數
spop(name)	隨機返回並刪除key爲name的set中一個元素	name: key名	`redis.spop('tags')`	從key爲tags的set中隨機刪除並返回該元素	b'Tea'
smove(src, dst, value)	從src對應的set中移除元素並添加到dst對應的set中	src: 源set dst: 目標set value: 元素值	`redis.smove('tags', 'tags2', 'Coffee')`	從key爲tags的set中刪除元素Coffee並添加到key爲tags2的set	True
scard(name)	返回key爲name的set的元素個數	name: key名	`redis.scard('tags')`	獲取key爲tags的set中元素個數	3
sismember(name, value)	測試member是不是key爲name的set的元素	name:key值	`redis.sismember('tags', 'Book')`	判斷Book是否爲key爲tags的set元素	True
*sinter(keys, args)**	返回全部給定key的set的交集	keys: key列表	`redis.sinter(['tags', 'tags2'])`	返回key爲tags的set和key爲tags2的set的交集	{b'Coffee'}
*sinterstore(dest, keys, args)**	求交集並將交集保存到dest的集合	dest:結果集合 keys:key列表	`redis.sinterstore('inttag', ['tags', 'tags2'])`	求key爲tags的set和key爲tags2的set的交集並保存爲inttag	1
*sunion(keys, args)**	返回全部給定key的set的並集	keys: key列表	`redis.sunion(['tags', 'tags2'])`	返回key爲tags的set和key爲tags2的set的並集	{b'Coffee', b'Book', b'Pen'}
*sunionstore(dest, keys, args)**	求並集並將並集保存到dest的集合	dest:結果集合 keys:key列表	`redis.sunionstore('inttag', ['tags', 'tags2'])`	求key爲tags的set和key爲tags2的set的並集並保存爲inttag	3
*sdiff(keys, args)**	返回全部給定key的set的差集	keys: key列表	`redis.sdiff(['tags', 'tags2'])`	返回key爲tags的set和key爲tags2的set的差集	{b'Book', b'Pen'}
*sdiffstore(dest, keys, args)**	求差集並將差集保存到dest的集合	dest:結果集合 keys:key列表	`redis.sdiffstore('inttag', ['tags', 'tags2'])`	求key爲tags的set和key爲tags2的set的差集並保存爲inttag	3
smembers(name)	返回key爲name的set的全部元素	name: key名	`redis.smembers('tags')`	返回key爲tags的set的全部元素	{b'Pen', b'Book', b'Coffee'}
srandmember(name)	隨機返回key爲name的set的一個元素，但不刪除元素	name: key值	`redis.srandmember('tags')`	隨機返回key爲tags的set的一個元素

6.有序集合

Sorted Set，即有序集合，它相比集合多了一個分數字段，利用它咱們能夠對集合中的數據進行排序

注意：在redis-py 3.0以前，添加一個有序集合的值，代碼：
import redis
client = redis.Redis()
client.zadd('key', value1, score1, value2, score2)
在redis-py 3.0及之後的版本，上面這種寫法會致使以下的報錯：
redis.exceptions.DataError: ZADD allows either 'nx' or 'xx', not both
或者：AttributeError: 'str' object has no attribute 'items'

在新版本中，正確的寫法爲：
import redis
client = redis.Redis()
client.zadd('key', {value1: score1, value2: score2})

方法	做用	參數說明	示例	示例說明	示例結果
*zadd(name, args, kwargs)**	向key爲name的zset中添加元素member，score用於排序。若是該元素存在，則更新其順序	name: key名 args: 可變參數	`redis.zadd('grade', 100, 'Bob', 98, 'Mike')`	向key爲grade的zset中添加Bob，score爲100，添加Mike，score爲98	2，即添加的元素個數
*zrem(name, values)**	刪除key爲name的zset中的元素	name: key名 values: 元素	`redis.zrem('grade', 'Mike')`	從key爲grade的zset中刪除Mike	1，即刪除的元素個數
zincrby(name, value, amount=1)	若是在key爲name的zset中已經存在元素value，則該元素的score增長amount，不然向該集合中添加該元素，其score的值爲amount	name: key名 value: 元素 amount: 增加的score值	`redis.zincrby('grade', 'Bob', -2)`	key爲grade的zset中Bob的score減2	98.0，即修改後的值
zrank(name, value)	返回key爲name的zset中元素的排名（按score從小到大排序）即下標	name: key名 value: 元素值	`redis.zrank('grade', 'Amy')`	獲得key爲grade的zset中Amy的排名	1
zrevrank(name, value)	返回key爲name的zset中元素的倒數排名（按score從大到小排序）即下標	name: key名 value: 元素值	`redis.zrevrank('grade', 'Amy')`	獲得key爲grade的zset中Amy的倒數排名	2
zrevrange(name, start, end, withscores=False)	返回key爲name的zset（按score從大到小排序）中的index從start到end的全部元素	name: key值 start: 開始索引 end: 結束索引 withscores: 是否帶score	`redis.zrevrange('grade', 0, 3)`	返回key爲grade的zset前四名元素	[b'Bob', b'Mike', b'Amy', b'James']
zrangebyscore(name, min, max, start=None, num=None, withscores=False)	返回key爲name的zset中score在給定區間的元素	name:key名 min: 最低score max:最高score start: 起始索引 num: 個數 withscores: 是否帶score	`redis.zrangebyscore('grade', 80, 95)`	返回key爲grade的zset中score在80和95之間的元素	[b'Amy', b'James']
zcount(name, min, max)	返回key爲name的zset中score在給定區間的數量	name:key名 min: 最低score max: 最高score	`redis.zcount('grade', 80, 95)`	返回key爲grade的zset中score在80到95的元素個數	2
zcard(name)	返回key爲name的zset的元素個數	name: key名	`redis.zcard('grade')`	獲取key爲grade的zset中元素個數	3
zremrangebyrank(name, min, max)	刪除key爲name的zset中排名在給定區間的元素	name:key名 min: 最低位次 max: 最高位次	`redis.zremrangebyrank('grade', 0, 0)`	刪除key爲grade的zset中排名第一的元素	1，即刪除的元素個數
zremrangebyscore(name, min, max)	刪除key爲name的zset中score在給定區間的元素	name:key名 min: 最低score max:最高score	`redis.zremrangebyscore('grade', 80, 90)`	刪除score在80到90之間的元素	1，即刪除的元素個數

7.哈希操做

Hash，即哈希。咱們能夠用name指定一個哈希表的名稱，而後表內存儲了各個鍵值對

方法	做用	參數說明	示例	示例說明	示例結果
hset(name, key, value)	向key爲name的hash中添加映射	name: key名 key: 映射鍵名 value: 映射鍵值	`hset('price', 'cake', 5)`	向key爲price的hash中添加映射關係，cake的值爲5	1，即添加的映射個數
hsetnx(name, key, value)	向key爲name的hash中添加映射，若是映射鍵名不存在	name: key名 key: 映射鍵名 value: 映射鍵值	`hsetnx('price', 'book', 6)`	向key爲price的hash中添加映射關係，book的值爲6	1，即添加的映射個數
hget(name, key)	返回key爲name的hash中field對應的value	name: key名 key: 映射鍵名	`redis.hget('price', 'cake')`	獲取key爲price的hash中鍵名爲cake的value	5
*hmget(name, keys, args)**	返回key爲name的hash中各個鍵對應的value	name: key名 keys: 映射鍵名列表	`redis.hmget('price', ['apple', 'orange'])`	獲取key爲price的hash中apple和orange的值	[b'3', b'7']
hmset(name, mapping)	向key爲name的hash中批量添加映射	name: key名 mapping: 映射字典	`redis.hmset('price', {'banana': 2, 'pear': 6})`	向key爲price的hash中批量添加映射	True
hincrby(name, key, amount=1)	將key爲name的hash中映射的value增長amount	name: key名 key: 映射鍵名 amount: 增加量	`redis.hincrby('price', 'apple', 3)`	key爲price的hash中apple的值增長3	6，修改後的值
hexists(name, key)	key爲namehash中是否存在鍵名爲key的映射	name: key名 key: 映射鍵名	`redis.hexists('price', 'banana')`	key爲price的hash中banana的值是否存在	True
*hdel(name, keys)**	key爲namehash中刪除鍵名爲key的映射	name: key名 key: 映射鍵名	`redis.hdel('price', 'banana')`	從key爲price的hash中刪除鍵名爲banana的映射	True
hlen(name)	從key爲name的hash中獲取映射個數	name: key名	`redis.hlen('price')`	從key爲price的hash中獲取映射個數	6
hkeys(name)	從key爲name的hash中獲取全部映射鍵名	name: key名	`redis.hkeys('price')`	從key爲price的hash中獲取全部映射鍵名	[b'cake', b'book', b'banana', b'pear']
hvals(name)	從key爲name的hash中獲取全部映射鍵值	name: key名	`redis.hvals('price')`	從key爲price的hash中獲取全部映射鍵值	[b'5', b'6', b'2', b'6']
hgetall(name)	從key爲name的hash中獲取全部映射鍵值對	name: key名	`redis.hgetall('price')`	從key爲price的hash中獲取全部映射鍵值對	{b'cake': b'5', b'book': b'6', b'orange': b'7', b'pear': b'6'}

8.導入/導出

確保已經安裝好了 RedisDump，RedisDump 提供兩個可執行命令，redis-dump 用於導出數據，redis-load 用於導入數據

redis-dump咱們能夠首先輸入以下命令查看全部可選項：redis-dump -h運行結果以下：Usage: redis-dump [global options] COMMAND [command options] -u, --uri=S Redis URI (e.g. redis://hostname[:port]) -d, --database=S Redis database (e.g. -d 15) -s, --sleep=S Sleep for S seconds after dumping (for debugging) -c, --count=S Chunk size (default: 10000) -f, --filter=S Filter selected keys (passed directly to redis' KEYS command) -O, --without_optimizations Disable run time optimizations -V, --version Display version -D, --debug --nosafe能夠看到其參數，-u 表明 Redis 鏈接字符串，-d 表明數據庫代號，默認所有，-s 表明導出以後的休眠時間，-c 表明分塊大小，默認是 10000，-f 表明導出時的過濾器，-O 表明禁用運行時優化，-V 顯示版本，-D 開啓調試。咱們拿本地的 Redis 作測試，運行在 6379 端口上，密碼爲 foobared，導出命令以下：redis-dump -u :foobared@localhost:6379若是沒有密碼的話能夠不加密碼前綴，命令以下：redis-dump -u localhost:6379運行以後能夠將本地 0-15號數據庫的全部數據輸出出來，例如：{"db":0,"key":"name","ttl":-1,"type":"string","value":"James","size":5}{"db":0,"key":"name2","ttl":-1,"type":"string","value":"Durant","size":6}{"db":0,"key":"name3","ttl":-1,"type":"string","value":"Durant","size":6}{"db":0,"key":"name4","ttl":-1,"type":"string","value":"HelloWorld","size":10}{"db":0,"key":"name5","ttl":-1,"type":"string","value":"James","size":5}{"db":0,"key":"name6","ttl":-1,"type":"string","value":"James","size":5}{"db":0,"key":"age","ttl":-1,"type":"string","value":"1","size":1}{"db":0,"key":"age2","ttl":-1,"type":"string","value":"-5","size":2}每條數據都包含五個字段，db 即數據庫代號，key 即鍵名，ttl 即該鍵值對的有效時間，type 即鍵值類型，size 即佔用空間。若是想要將其輸出爲 Json 行文件，可使用以下命令：redis-dump -u :foobared@localhost:6379 > ./redis_data.jl這樣咱們就能夠成功將 Redis 的全部數據庫的全部數據導出成 Json 行文件了。另外咱們可使用 -d 參數指定某個數據庫的導出，例如只導出 1 號數據庫的內容：redis-dump -u :foobared@localhost:6379 -d 1 > ./redis.data.jl若是隻想導出特定的內容，如想導出 adsl 開頭的數據，能夠加入 -f 參數用來過濾，命令以下：redis-dump -u :foobared@localhost:6379 -f adsl:* > ./redis.data.jl其中 -f 的參數即 Redis 的 keys 命令的參數，能夠寫一些過濾規則。redis-load咱們一樣能夠首先輸入以下命令查看全部可選項：redis-load -h運行結果以下：redis-load --help Try: redis-load [global options] COMMAND [command options] -u, --uri=S Redis URI (e.g. redis://hostname[:port]) -d, --database=S Redis database (e.g. -d 15) -s, --sleep=S Sleep for S seconds after dumping (for debugging) -n, --no_check_utf8 -V, --version Display version -D, --debug --nosafe能夠看到其參數，-u 表明 Redis 鏈接字符串，-d 表明數據庫代號，默認所有，-s 表明導出以後的休眠時間，-n 表明不檢測 UTF-8 編碼，-V 顯示版本，-D 開啓調試。咱們能夠將 Json 行文件導入到 Redis 數據庫中：< redis_data.json redis-load -u :foobared@localhost:6379這樣就能夠成功將 Json 行文件導入到數據庫中了。另外以下命令一樣能夠達到一樣的效果：cat redis_data.json | redis-load -u :foobared@localhost:6379