首先要導入numpy庫:import numpy as nppython
類型 | 類型代碼 | 說明 |
int八、uint8 | i一、u1 | 有符號和無符號8位整型(1字節) |
int1六、uint16 | i二、u2 | 有符號和無符號16位整型(2字節) |
int3二、uint32 | i四、u4 | 有符號和無符號32位整型(4字節) |
int6四、uint64 | i八、u8 | 有符號和無符號64位整型(8字節) |
float16 | f2 | 半精度浮點數 |
float32 | f四、f | 單精度浮點數 |
float64 | f八、d | 雙精度浮點數 |
float128 | f1六、g | 擴展精度浮點數 |
complex64 | c8 | 分別用兩個32位表示的複數 |
complex128 | c16 | 分別用兩個64位表示的複數 |
complex256 | c32 | 分別用兩個128位表示的複數 |
bool | ? | 布爾型 |
object | O | python對象 |
string | Sn | 固定長度字符串,每一個字符1字節,如S10 |
unicode | Un | 固定長度Unicode,字節數由系統決定,如U10 |
表2.1.A.1 NumPy類型數組
生成函數 | 做用 |
np.array( x)安全 np.array( x, dtype)數據結構 |
將輸入數據轉化爲一個ndarrayapp 將輸入數據轉化爲一個類型爲type的ndarrayless |
np.asarray( array ) | 將輸入數據轉化爲一個新的(copy)ndarray |
np.ones( N )dom np.ones( N, dtype)ide np.ones_like( ndarray )函數 |
生成一個N長度的一維全一ndarray工具 生成一個N長度類型是dtype的一維全一ndarray 生成一個形狀與參數相同的全一ndarray |
np.zeros( N) np.zeros( N, dtype) np.zeros_like(ndarray) |
生成一個N長度的一維全零ndarray 生成一個N長度類型位dtype的一維全零ndarray 相似np.ones_like( ndarray ) |
np.empty( N ) np.empty( N, dtype) np.empty(ndarray) |
生成一個N長度的未初始化一維ndarray 生成一個N長度類型是dtype的未初始化一維ndarray 相似np.ones_like( ndarray ) |
np.eye( N ) np.identity( N ) |
建立一個N * N的單位矩陣(對角線爲1,其他爲0) |
np.arange( num) np.arange( begin, end) np.arange( begin, end, step) |
生成一個從0到num-1步數爲1的一維ndarray 生成一個從begin到end-1步數爲1的一維ndarray 生成一個從begin到end-step的步數爲step的一維ndarray |
np.mershgrid(ndarray, ndarray,...) |
生成一個ndarray * ndarray * ...的多維ndarray |
np.where(cond, ndarray1, ndarray2) |
根據條件cond,選取ndarray1或者ndarray2,返回一個新的ndarray |
np.in1d(ndarray, [x,y,...]) |
檢查ndarray中的元素是否等於[x,y,...]中的一個,返回bool數組 |
矩陣函數 | 說明 |
np.diag( ndarray) np.diag( [x,y,...]) |
以一維數組的形式返回方陣的對角線(或非對角線)元素 將一維數組轉化爲方陣(非對角線元素爲0) |
np.dot(ndarray, ndarray) | 矩陣乘法 |
np.trace( ndarray) | 計算對角線元素的和 |
排序函數 |
說明 |
np.sort( ndarray) |
排序,返回副本 |
np.unique(ndarray) |
返回ndarray中的元素,排除重複元素以後,並進行排序 |
np.intersect1d( ndarray1, ndarray2) np.union1d( ndarray1, ndarray2) np.setdiff1d( ndarray1, ndarray2) np.setxor1d( ndarray1, ndarray2) |
返回兩者的交集並排序。 返回兩者的並集並排序。 返回兩者的差。 返回兩者的對稱差 |
一元計算函數 | 說明 |
np.abs(ndarray) np.fabs(ndarray) |
計算絕對值 計算絕對值(非複數) |
np.mean(ndarray) |
求平均值 |
np.sqrt(ndarray) |
計算x^0.5 |
np.square(ndarray) |
計算x^2 |
np.exp(ndarray) |
計算e^x |
log、log十、log二、log1p |
計算天然對數、底爲10的log、底爲2的log、底爲(1+x)的log |
np.sign(ndarray) |
計算正負號:1(正)、0(0)、-1(負) |
np.ceil(ndarray) np.floor(ndarray) np.rint(ndarray) |
計算大於等於改值的最小整數 計算小於等於該值的最大整數 四捨五入到最近的整數,保留dtype |
np.modf(ndarray) |
將數組的小數和整數部分以兩個獨立的數組方式返回 |
np.isnan(ndarray) |
返回一個判斷是不是NaN的bool型數組 |
np.isfinite(ndarray) np.isinf(ndarray) |
返回一個判斷是不是有窮(非inf,非NaN)的bool型數組 返回一個判斷是不是無窮的bool型數組 |
cos、cosh、sin、sinh、tan、tanh |
普通型和雙曲型三角函數 |
arccos、arccosh、arcsin、arcsinh、arctan、arctanh |
反三角函數和雙曲型反三角函數 |
np.logical_not(ndarray) |
計算各元素not x的真值,至關於-ndarray |
多元計算函數 |
說明 |
np.add(ndarray, ndarray) np.subtract(ndarray, ndarray) np.multiply(ndarray, ndarray) np.divide(ndarray, ndarray) np.floor_divide(ndarray, ndarray) np.power(ndarray, ndarray) np.mod(ndarray, ndarray) |
相加 相減 乘法 除法 圓整除法(丟棄餘數) 次方 求模 |
np.maximum(ndarray, ndarray) np.fmax(ndarray, ndarray) np.minimun(ndarray, ndarray) np.fmin(ndarray, ndarray) |
求最大值 求最大值(忽略NaN) 求最小值 求最小值(忽略NaN) |
np.copysign(ndarray, ndarray) |
將參數2中的符號賦予參數1 |
np.greater(ndarray, ndarray) np.greater_equal(ndarray, ndarray) np.less(ndarray, ndarray) np.less_equal(ndarray, ndarray) np.equal(ndarray, ndarray) np.not_equal(ndarray, ndarray) |
> >= < <= == != |
logical_and(ndarray, ndarray) logical_or(ndarray, ndarray) logical_xor(ndarray, ndarray) |
& | ^ |
np.dot( ndarray, ndarray) | 計算兩個ndarray的矩陣內積 |
np.ix_([x,y,m,n],...) | 生成一個索引器,用於Fancy indexing(花式索引) |
文件讀寫 | 說明 |
np.save(string, ndarray) | 將ndarray保存到文件名爲 [string].npy 的文件中(無壓縮) |
np.savez(string, ndarray1, ndarray2, ...) | 將全部的ndarray壓縮保存到文件名爲[string].npy的文件中 |
np.savetxt(sring, ndarray, fmt, newline='\n') | 將ndarray寫入文件,格式爲fmt |
np.load(string) | 讀取文件名string的文件內容並轉化爲ndarray對象(或字典對象) |
np.loadtxt(string, delimiter) | 讀取文件名string的文件內容,以delimiter爲分隔符轉化爲ndarray |
ndarray.ndim | 獲取ndarray的維數 |
ndarray.shape | 獲取ndarray各個維度的長度 |
ndarray.dtype | 獲取ndarray中元素的數據類型 |
ndarray.T | 簡單轉置矩陣ndarray |
函數 | 說明 |
ndarray.astype(dtype) | 轉換類型,若轉換失敗則會出現TypeError |
ndarray.copy() | 複製一份ndarray(新的內存空間) |
ndarray.reshape((N,M,...)) | 將ndarray轉化爲N*M*...的多維ndarray(非copy) |
ndarray.transpose((xIndex,yIndex,...)) | 根據維索引xIndex,yIndex...進行矩陣轉置,依賴於shape,不能用於一維矩陣(非copy) |
ndarray.swapaxes(xIndex,yIndex) | 交換維度(非copy) |
計算函數 | 說明 |
ndarray.mean( axis=0 ) | 求平均值 |
ndarray.sum( axis= 0) | 求和 |
ndarray.cumsum( axis=0) ndarray.cumprod( axis=0) |
累加 累乘 |
ndarray.std() ndarray.var() |
方差 標準差 |
ndarray.max() ndarray.min() |
最大值 最小值 |
ndarray.argmax() ndarray.argmin() |
最大值索引 最小值索引 |
ndarray.any() ndarray.all() |
是否至少有一個True 是否所有爲True |
ndarray.dot( ndarray) |
計算矩陣內積 |
排序函數 |
說明 |
ndarray.sort(axis=0) |
排序,返回源數據 |
ndarray[n] | 選取第n+1個元素 |
ndarray[n:m] | 選取第n+1到第m個元素 |
ndarray[:] | 選取所有元素 |
ndarray[n:] | 選取第n+1到最後一個元素 |
ndarray[:n] | 選取第0到第n個元素 |
ndarray[ bool_ndarray ] 注:bool_ndarray表示bool類型的ndarray |
選取爲true的元素 |
ndarray[[x,y,m,n]]... |
選取順序和序列爲x、y、m、n的ndarray |
ndarray[n,m] ndarray[n][m] |
選取第n+1行第m+1個元素 |
ndarray[n,m,...] ndarray[n][m].... |
選取n行n列....的元素 |
函數 | 說明 |
seed() seed(int) seed(ndarray) |
肯定隨機數生成種子 |
permutation(int) permutation(ndarray) |
返回一個一維從0~9的序列的隨機排列 返回一個序列的隨機排列 |
shuffle(ndarray) | 對一個序列就地隨機排列 |
rand(int) randint(begin,end,num=1) |
產生int個均勻分佈的樣本值 從給定的begin和end隨機選取num個整數 |
randn(N, M, ...) | 生成一個N*M*...的正態分佈(平均值爲0,標準差爲1)的ndarray |
normal(size=(N,M,...)) | 生成一個N*M*...的正態(高斯)分佈的ndarray |
beta(ndarray1,ndarray2) | 產生beta分佈的樣本值,參數必須大於0 |
chisquare() | 產生卡方分佈的樣本值 |
gamma() | 產生gamma分佈的樣本值 |
uniform() | 產生在[0,1)中均勻分佈的樣本值 |
2.1.C.1 random經常使用函數
函數 | 說明 |
det(ndarray) | 計算矩陣列式 |
eig(ndarray) | 計算方陣的本徵值和本徵向量 |
inv(ndarray) pinv(ndarray) |
計算方陣的逆 計算方陣的Moore-Penrose僞逆 |
qr(ndarray) | 計算qr分解 |
svd(ndarray) | 計算奇異值分解svd |
solve(ndarray) | 解線性方程組Ax = b,其中A爲方陣 |
lstsq(ndarray) | 計算Ax=b的最小二乘解 |
2.1.D.1 linalg經常使用函數
pandas 是基於NumPy 的一種工具,該工具是爲了解決數據分析任務而建立的。Pandas 歸入了大量庫和一些標準的數據模型,提供了高效地操做大型數據集所需的工具。pandas提供了大量能使咱們快速便捷地處理數據的函數和方法。
>>> from pandas import Series, DataFrame
>>> import pandas as pd
函數 | 說明 |
pd.isnull(series) pd.notnull(series) |
判斷是否爲空(NaN) 判斷是否不爲空(not NaN) |
2.2.A.1 pandas經常使用函數
屬性 | 說明 |
values | 獲取數組 |
index | 獲取索引 |
name | values的name |
index.name | 索引的name |
函數 | 說明 |
Series([x,y,...])Series({'a':x,'b':y,...}, index=param1) | 生成一個Series |
Series.copy() | 複製一個Series |
Series.reindex([x,y,...], fill_value=NaN) Series.reindex([x,y,...], method=NaN) Series.reindex(columns=[x,y,...]) |
重返回一個適應新索引的新對象,將缺失值填充爲fill_value 返回適應新索引的新對象,填充方式爲method 對列進行從新索引 |
Series.drop(index) | 丟棄指定項 |
Series.map(f) | 應用元素級函數 |
排序函數 | 說明 |
Series.sort_index(ascending=True) | 根據索引返回已排序的新對象 |
Series.order(ascending=True) | 根據值返回已排序的對象,NaN值在末尾 |
Series.rank(method='average', ascending=True, axis=0) | 爲各組分配一個平均排名 |
df.argmax() df.argmin() |
返回含有最大值的索引位置 返回含有最小值的索引位置 |
2.2.B.2 Series經常使用函數
reindex的method選項:DataFrame是一個表格型的數據結構,它含有一組有序的列,每列能夠是不一樣的值類型(數值、字符串、布爾值等)。DataFrame既有行索引也有列索引,它能夠被看作由Series組成的字典(共用同一個索引)。
DataFrame能夠經過相似字典的方式或者.columnname的方式將列獲取爲一個Series。行也能夠經過位置或名稱的方式進行獲取。
爲不存在的列賦值會建立新列。
>>> del frame['xxx'] # 刪除列
屬性 | 說明 |
values | DataFrame的值 |
index | 行索引 |
index.name | 行索引的名字 |
columns | 列索引 |
columns.name | 列索引的名字 |
ix | 返回行的DataFrame |
ix[[x,y,...], [x,y,...]] | 對行從新索引,而後對列從新索引 |
T | frame行列轉置 |
2.2.C.1 DataFrame經常使用屬性
函數 | 說明 |
DataFrame(dict, columns=dict.index, index=[dict.columnnum]) DataFrame(二維ndarray) DataFrame(由數組、列表或元組組成的字典) DataFrame(NumPy的結構化/記錄數組) DataFrame(由Series組成的字典) DataFrame(由字典組成的字典) DataFrame(字典或Series的列表) DataFrame(由列表或元組組成的列表) DataFrame(DataFrame) DataFrame(NumPy的MaskedArray) |
構建DataFrame 數據矩陣,還能夠傳入行標和列標 每一個序列會變成DataFrame的一列。全部序列的長度必須相同 相似於「由數組組成的字典」 每一個Series會成爲一列。若是沒有顯式制定索引,則各Series的索引會被合併成結果的行索引 各內層字典會成爲一列。鍵會被合併成結果的行索引。 各項將會成爲DataFrame的一行。索引的並集會成爲DataFrame的列標。 相似於二維ndarray 沿用DataFrame 相似於二維ndarray,但掩碼結果會變成NA/缺失值
|
df.reindex([x,y,...], fill_value=NaN, limit) df.reindex([x,y,...], method=NaN) df.reindex([x,y,...], columns=[x,y,...],copy=True) |
返回一個適應新索引的新對象,將缺失值填充爲fill_value,最大填充量爲limit 返回適應新索引的新對象,填充方式爲method 同時對行和列進行從新索引,默認複製新對象。 |
df.drop(index, axis=0) | 丟棄指定軸上的指定項。 |
排序函數 | 說明 |
df.sort_index(axis=0, ascending=True) df.sort_index(by=[a,b,...]) |
根據索引排序 |
彙總統計函數 | 說明 |
df.count() | 非NaN的數量 |
df.describe() | 一次性產生多個彙總統計 |
df.min() df.min() |
最小值 最大值 |
df.idxmax(axis=0, skipna=True) df.idxmin(axis=0, skipna=True) |
返回含有最大值的index的Series 返回含有最小值的index的Series |
df.quantile(axis=0) | 計算樣本的分位數 |
df.sum(axis=0, skipna=True, level=NaN) df.mean(axis=0, skipna=True, level=NaN) df.median(axis=0, skipna=True, level=NaN) df.mad(axis=0, skipna=True, level=NaN) df.var(axis=0, skipna=True, level=NaN) df.std(axis=0, skipna=True, level=NaN) df.skew(axis=0, skipna=True, level=NaN) df.kurt(axis=0, skipna=True, level=NaN) df.cumsum(axis=0, skipna=True, level=NaN) df.cummin(axis=0, skipna=True, level=NaN) df.cummax(axis=0, skipna=True, level=NaN) df.cumprod(axis=0, skipna=True, level=NaN) df.diff(axis=0) df.pct_change(axis=0) |
返回一個含有求和小計的Series 返回一個含有平均值的Series 返回一個含有算術中位數的Series 返回一個根據平均值計算平均絕對離差的Series 返回一個方差的Series 返回一個標準差的Series 返回樣本值的偏度(三階距) 返回樣本值的峯度(四階距) 返回樣本的累計和 返回樣本的累計最大值 返回樣本的累計最小值 返回樣本的累計積 返回樣本的一階差分 返回樣本的百分比數變化 |
計算函數 | 說明 |
df.add(df2, fill_value=NaN, axist=1) df.sub(df2, fill_value=NaN, axist=1) df.div(df2, fill_value=NaN, axist=1) df.mul(df2, fill_value=NaN, axist=1) |
元素級相加,對齊時找不到元素默認用fill_value 元素級相減,對齊時找不到元素默認用fill_value 元素級相除,對齊時找不到元素默認用fill_value 元素級相乘,對齊時找不到元素默認用fill_value |
df.apply(f, axis=0) | 將f函數應用到由各行各列所造成的一維數組上 |
df.applymap(f) | 將f函數應用到各個元素上 |
df.cumsum(axis=0, skipna=True) | 累加,返回累加後的dataframe |
2.2.C.2 Dataframe經常使用函數
索引方式 | 說明 |
df[val] | 選取DataFrame的單個列或一組列 |
df.ix[val] | 選取Dataframe的單個行或一組行 |
df.ix[:,val] | 選取單個列或列子集 |
df.ix[val1,val2] | 將一個或多個軸匹配到新索引 |
reindex方法 | 將一個或多個軸匹配到新索引 |
xs方法 | 根據標籤選取單行或者單列,返回一個Series |
icol、irow方法 | 根據整數位置選取單列或單行,並返回一個Series |
get_value、set_value | 根據行標籤和列標籤選取單個值 |
2.2.C.3 Dataframe經常使用索引方式
默認狀況下,Dataframe和Series之間的算術運算會將Series的索引匹配到的Dataframe的列,沿着列一直向下傳播。若索引找不到,則會從新索引產生並集。
pandas的索引對象負責管理軸標籤和其餘元數據(好比軸名稱等)。構建Series或DataFrame時,所用到的任何數組或其餘序列的標籤都會被轉換成一個Index。Index對象不可修改,從而在多個數據結構之間安全共享。
主要的Index對象 | 說明 |
Index | 最普遍的Index對象,將軸標籤表示爲一個由Python對象組成的NumPy數組 |
Int64Index | 針對整數的特殊Index |
MultiIndex | 「層次化」索引對象,表示單個軸上的多層索引。能夠看作由元組組成的數組 |
DatetimeIndex | 存儲納秒級時間戳(用NumPy的Datetime64類型表示) |
PeriodIndex | 針對Period數據(時間間隔)的特殊Index |
2.2.D.1 主要的Index屬性
函數 | 說明 |
Index([x,y,...]) | 建立索引 |
append(Index) | 鏈接另外一個Index對象,產生一個新的Index |
diff(Index) | 計算差集,產生一個新的Index |
intersection(Index) | 計算交集 |
union(Index) | 計算並集 |
isin(Index) | 檢查是否存在與參數索引中,返回bool型數組 |
delete(i) | 刪除索引i處元素,獲得新的Index |
drop(str) | 刪除傳入的值,獲得新Index |
insert(i,str) | 將元素插入到索引i處,獲得新Index |
is_monotonic() | 當各元素大於前一個元素時,返回true |
is_unique() | 當Index沒有重複值時,返回true |
unique() | 計算Index中惟一值的數組 |
2.2.D.2 經常使用Index函數