【Python數據分析】四級成績分佈 -matplotlib,xlrd 應用

時間 2019-11-18

標籤 Python數據分析四級成績分佈 matplotlib xlrd 應用欄目 Python 简体版

原文原文鏈接

最近得到了一些四級成績數據，大概500多個，因而突發奇想是否可以看看這些成績數據是否知足所謂的正態分佈呢？說幹就幹，因而有了這篇文章。
文章順帶介紹了xlrd模塊的一些用法和matplotlib畫自定義數據的條形圖和隨機的條形圖的一些方法，而且提供了一些相關連接，可做爲學習matplotlib和numpy的資源，但願對讀者也有幫助。html

更優美的格式見這裏python

工具

Python 3.5
xlrd模塊
numpy模塊及一些依賴模塊（安裝請自行查詢方法，絕大部分pip就可搞定）
matplotlib繪圖模塊

xlrd基本用法

一、導入模塊

1	import xlrd

二、打開Excel文件讀取數據

1	data = xlrd.open_workbook('excelFile.xls')

三、使用技巧

獲取一個工做表數組

1
2
3

table = data.sheets()[0] #經過索引順序獲取
table = data.sheet_by_index(0) #經過索引順序獲取
table = data.sheet_by_name(u'Sheet1')#經過名稱獲取

獲取整行和整列的值（數組）dom

table.row_values(i)
table.col_values(i)
``` 
* 獲取行數和列數
```python
nrows = table.nrows
ncols = table.ncols

循環行列表數據svn

1 2	for i in range(nrows ): print table.row_values(i)

單元格函數

1 2	cell_A1 = table.cell(0,0).value cell_C4 = table.cell(2,3).value

使用行列索引工具

1 2	cell_A1 = table.row(0)[0].value cell_A2 = table.col(1)[0].value

簡單的寫入學習

row = 0
col = 0
 #類型 0 empty,1 string, 2 number, 3 date, 4 boolean, 5 error
ctype = 1 value = '單元格的值'
xf = 0 # 擴展的格式化
table.put_cell(row, col, ctype, value, xf)
table.cell(0,0) #單元格的值'
table.cell(0,0).value #單元格的值'

畫折線圖

import xlrd
import numpy as np
import matplotlib.pyplot as plt

data = xlrd.open_workbook('D:\\Python Workspace\\Data\\cet4.xls')

table = data.sheets()[0] #sheet 0

col5 = table.col_values(5)[1:] #取第5列的成績，並去掉列屬性名稱

count = [0 for i in range(0,650)] #初始化count
x = [i for i in range(0,650)]

for i in col5:
 num = int(i)
 count[num] += 1 #統計每一個人數的人數

plt.xlabel('Score')
plt.ylabel('Number of people')
plt.title('Distribution of CET-4 Scores')
plt.ylim(0,8)
plt.plot([i for i in range(250,650) if count[i] != 0],[i for i in count[250:] if i != 0],linewidth=1) #畫出折線圖
plt.show()

圖1spa

畫直方圖並與正態分佈直方圖對比

import xlrd
import numpy as np
from math import *
import pylab as pl
import matplotlib.pyplot as plt

data = xlrd.open_workbook('D:\\Python Workspace\\Data\\cet4.xls')

table = data.sheets()[0]   #sheet 0

col5 = table.col_values(5)[1:]

ha = [int(i) for i in col5]     #成績數據
mu = np.mean(ha)      #平均值
sigma = np.std(ha)    #標準差
data = np.random.normal(mu,sigma,1000)  #生成正態分佈隨機數據

x = np.linspace(0,700,1000)
y = (1. / sqrt(2 * np.pi) / sigma)*np.exp( -((x-mu)**2/(2*sigma**2)) )

plt.hist(data,bins=100,facecolor='g',alpha=0.44)
plt.hist(ha,bins=70,facecolor='r',histtype='stepfilled')
plt.plot(x,y,color='b')   #正態分佈曲線

plt.xlabel('Score')
plt.ylabel('Number of people')
plt.title('Distribution of CET-4 Scores')
plt.show()

圖2
且可求得數據的均值和標準差分別爲：476.743785851和104.816562585
由圖可見，綠色條形圖是$\mu$=476.743785851，$\sigma$=104.816562585的正態分佈條形圖，而紅色是四級成績數據的分佈圖，雖然因爲數據較少(500多個數據），因此擬合較差，可是能夠看出成績數據仍是基本知足正態分佈的。
不知道爲啥，正態曲線沒有畫出來，單獨畫正態曲線是能夠畫出來的，有待研究。.net