(點擊上方公衆號,可快速關注)html
來源:KillerManA 前端
連接:http://www.jianshu.com/p/e792eea5056cjava
最近在用python作數據統計,這裏總結了一些最近使用時查找和總結的一些小技巧,但願能幫助在作這方面時的一些童鞋。有些技巧是很日常的用法,平時咱們沒有注意,可是在特定場景,這些小方法仍是能帶來很大的幫助。python
1.在字典中將鍵映射到多個值上面web
{'b': [4, 5, 6], 算法
'a': [1, 2, 3]}數據庫
有時候咱們在統計相同key值的時候,但願把全部相同key的條目添加到以key爲鍵的一個字典中,而後再進行各類操做,這時候咱們就能夠使用下面的代碼進行操做:微信
from collections import defaultdict
d = defaultdict(list)
print(d)
d['a'].append(1)
d['a'].append(2)
d['a'].append(3)
d['b'].append(4)
d['b'].append(5)
d['b'].append(6)
print(d)
print(d.get("a"))
print(d.keys())
print([d.get(i) for i in d])
這裏是使用了collections中的方法,這裏面還擁有不少有用的方法,咱們有時間在繼續進行深刻了解。
上面代碼運行結果:
defaultdict(, {})
defaultdict(, {'b': [4, 5, 6], 'a': [1, 2, 3]})
[1, 2, 3]
dict_keys(['b', 'a'])
[[4, 5, 6], [1, 2, 3]]
咱們將數據填入以後,至關於進行快速分組,而後遍歷每一個組就能夠統計一些咱們須要的數據。
2.迅速轉換字典鍵值對
data = {...}
zip(data.values(), data.keys())
data是咱們的格式數據,使用zip後進行快速鍵值轉換,而後能夠使用max,min之類函數進行數據操做。
3.經過公共鍵對字典進行排序
from operator import itemgetter
data = [
{'name': "bran", "uid": 101},
{'name': "xisi", "uid": 102},
{'name': "land", "uid": 103}
]
print(sorted(data, key=itemgetter("name")))
print(sorted(data, key=itemgetter("uid")))
數據格式就是data,咱們想要對name或者uid進行排序咱們就是用代碼中的方法。
運行結果:
[{'name': 'bran', 'uid': 101}, {'name': 'land', 'uid': 103}, {'name': 'xisi', 'uid': 102}]
[{'name': 'bran', 'uid': 101}, {'name': 'xisi', 'uid': 102}, {'name': 'land', 'uid': 103}]
正如咱們指望中的同樣
4.對列表中的多個字典根據某一字段進行分組
注意注意,在進行分組前要首先對數據進行排序處理,排序字段根據實際要求來選擇
即將處理的數據:
rows = [
{'name': "bran", "uid": 101, "class": 13},
{'name': "xisi", "uid": 101, "class": 11},
{'name': "land", "uid": 103, "class": 10}
]
指望處理結果:
{
101: [{'name': 'xisi', 'class': 11, 'uid': 101},{'name': 'bran', 'class': 13, 'uid': 101}],
103: [{'name': 'land', 'class': 10, 'uid': 103}]
}
咱們按照uid進行分組,這裏只是演示,uid通常也不會重複。
這個比較複雜一點,咱們一部一步來分解
some = [('a', [1, 2, 3]), ('b', [4, 5, 6])]
print(dict(some))
結果:
{'b': [4, 5, 6], 'a': [1, 2, 3]}
這裏咱們的目的是將元組轉換成字典,這個很簡單,應該都能看懂。接着咱們來下一步對待處理數據進行排序:
data_one = sorted(rows, key=itemgetter("class"))
print(data_one)
data_two = sorted(rows, key=lambda x: (x["uid"], x["class"]))
print(data_two)
這裏咱們提供兩種排序方式原理相同,只是樣式稍有區別,第一種data_one是直接使用itemgetter,按照咱們前面使用過得,直接按照某一字段進行排序,但是有時候咱們會有另外一種要求:
先按照某一字段排序,當第一字段重複時,再按照另外一字段排序。
這時咱們就用第二種方法,進行多字段值排序。
排序結果以下:
[{'name': 'land', 'class': 10, 'uid': 103}, {'name': 'xisi', 'class': 11, 'uid': 101}, {'name': 'bran', 'class': 13, 'uid': 101}]
[{'name': 'xisi', 'class': 11, 'uid': 101}, {'name': 'bran', 'class': 13, 'uid': 101}, {'name': 'land', 'class': 10, 'uid': 103}]
結果你們慢慢看一下,仍是略有差異。
接下來就進行最後一步了,將咱們剛纔講的兩種方式結合起來使用:
data = dict([(g, list(k)) for g, k in groupby(data_two, key=lambda x: x["uid"])])
print(data)
咱們對排序好的數據進行分組,而後生成元組列表,最後將其轉換成字典,這裏大功告成,咱們成功將數據進行分組。
今天這些小技巧在處理一些數據方面仍是頗有幫助的,但願能幫到在這方面有須要的童鞋~
【今日微信公號推薦↓】
更多推薦請看《值得關注的技術和設計公衆號》
其中推薦了包括技術、設計、極客 和 IT相親相關的熱門公衆號。技術涵蓋:Python、Web前端、Java、安卓、iOS、PHP、C/C++、.NET、Linux、數據庫、運維、大數據、算法、IT職場等。點擊《值得關注的技術和設計公衆號》,發現精彩!