python 數據統計，分組的一些小技巧

時間 2019-11-24

標籤 python 數據統計分組些小技巧欄目 Python 简体版

原文原文鏈接

--> python 數據統計，分組的一些小技巧

python 數據統計，分組的一些小技巧

2016-07-19 Python開發者 Python開發者

（點擊上方公衆號，可快速關注）html

來源：KillerManA 前端

連接：http://www.jianshu.com/p/e792eea5056cjava

最近在用python作數據統計，這裏總結了一些最近使用時查找和總結的一些小技巧，但願能幫助在作這方面時的一些童鞋。有些技巧是很日常的用法，平時咱們沒有注意，可是在特定場景，這些小方法仍是能帶來很大的幫助。python

1.在字典中將鍵映射到多個值上面web

{'b': [4, 5, 6], 算法

'a': [1, 2, 3]}數據庫

有時候咱們在統計相同key值的時候，但願把全部相同key的條目添加到以key爲鍵的一個字典中，而後再進行各類操做，這時候咱們就能夠使用下面的代碼進行操做：微信

from collections import defaultdict

d = defaultdict(list)

print(d)

d['a'].append(1)

d['a'].append(2)

d['a'].append(3)

d['b'].append(4)

d['b'].append(5)

d['b'].append(6)

print(d)

print(d.get("a"))

print(d.keys())

print([d.get(i) for i in d])

這裏是使用了collections中的方法，這裏面還擁有不少有用的方法，咱們有時間在繼續進行深刻了解。

上面代碼運行結果：

defaultdict(, {})

defaultdict(, {'b': [4, 5, 6], 'a': [1, 2, 3]})

[1, 2, 3]

dict_keys(['b', 'a'])

[[4, 5, 6], [1, 2, 3]]

咱們將數據填入以後，至關於進行快速分組，而後遍歷每一個組就能夠統計一些咱們須要的數據。

2.迅速轉換字典鍵值對

data = {...}

zip(data.values(), data.keys())

data是咱們的格式數據，使用zip後進行快速鍵值轉換，而後能夠使用max，min之類函數進行數據操做。

3.經過公共鍵對字典進行排序

from operator import itemgetter

data = [

    {'name': "bran", "uid": 101},

    {'name': "xisi", "uid": 102},

    {'name': "land", "uid": 103}

]

print(sorted(data, key=itemgetter("name")))

print(sorted(data, key=itemgetter("uid")))

數據格式就是data，咱們想要對name或者uid進行排序咱們就是用代碼中的方法。

運行結果：

[{'name': 'bran', 'uid': 101}, {'name': 'land', 'uid': 103}, {'name': 'xisi', 'uid': 102}]

[{'name': 'bran', 'uid': 101}, {'name': 'xisi', 'uid': 102}, {'name': 'land', 'uid': 103}]

正如咱們指望中的同樣

4.對列表中的多個字典根據某一字段進行分組

注意注意，在進行分組前要首先對數據進行排序處理，排序字段根據實際要求來選擇

即將處理的數據：

rows = [

    {'name': "bran", "uid": 101, "class": 13},

    {'name': "xisi", "uid": 101, "class": 11},

    {'name': "land", "uid": 103, "class": 10}

]

指望處理結果：

{

101: [{'name': 'xisi', 'class': 11, 'uid': 101},{'name': 'bran', 'class': 13, 'uid': 101}],

103: [{'name': 'land', 'class': 10, 'uid': 103}]

}

咱們按照uid進行分組，這裏只是演示，uid通常也不會重複。

這個比較複雜一點，咱們一部一步來分解

some = [('a', [1, 2, 3]), ('b', [4, 5, 6])]

print(dict(some))

結果：

{'b': [4, 5, 6], 'a': [1, 2, 3]}

這裏咱們的目的是將元組轉換成字典，這個很簡單，應該都能看懂。接着咱們來下一步對待處理數據進行排序：

data_one = sorted(rows, key=itemgetter("class"))

print(data_one)

data_two = sorted(rows, key=lambda x: (x["uid"], x["class"]))

print(data_two)

這裏咱們提供兩種排序方式原理相同，只是樣式稍有區別，第一種data_one是直接使用itemgetter，按照咱們前面使用過得，直接按照某一字段進行排序，但是有時候咱們會有另外一種要求：

先按照某一字段排序，當第一字段重複時，再按照另外一字段排序。

這時咱們就用第二種方法，進行多字段值排序。

排序結果以下：

[{'name': 'land', 'class': 10, 'uid': 103}, {'name': 'xisi', 'class': 11, 'uid': 101}, {'name': 'bran', 'class': 13, 'uid': 101}]

[{'name': 'xisi', 'class': 11, 'uid': 101}, {'name': 'bran', 'class': 13, 'uid': 101}, {'name': 'land', 'class': 10, 'uid': 103}]