《利用python進行數據分析》之numpy

 

 

在NumPy中使用numpy.string_類型做字符串數據時要當心,由於numpy會修正它的大小或刪除輸入而不發出警告。

numpy數組的切片是原數組的視圖,對視圖的修改會反映到原數組,想要拷貝時須要顯示覆制ndarray[:].copy()。區別於使用布爾值索引時,老是生成數據的拷貝

切片裏只有一個冒號時切出來的數據是一維的,arr[2,:]

In [1]:
import numpy as np
from functools import partial
println = partial(print,sep="\n"+"*"*50+"\n")
In [2]:
arr = np.random.randn(7) * 5
remainder, whole_part = np.modf(arr)
println(arr,remainder,whole_part)
 
[ 3.43229669 -5.86140048 -6.59627105 -3.89258116 -0.2048788   1.86099143
 -9.50394027]
**************************************************
[ 0.43229669 -0.86140048 -0.59627105 -0.89258116 -0.2048788   0.86099143
 -0.50394027]
**************************************************
[ 3. -5. -6. -3. -0.  1. -9.]
In [3]:
#where 語句

arr = np.random.randn(4,4)
result = np.where(arr>0,2,arr)
println(arr,result)
 
[[-0.34360613 -0.00900969  0.51009993  2.42392996]
 [-1.10378649  0.76299971  1.7754222  -0.63318608]
 [ 0.73008744  0.45350325  0.24415811  1.48311092]
 [ 0.78689937  1.07869427  1.72881987  0.00863349]]
**************************************************
[[-0.34360613 -0.00900969  2.          2.        ]
 [-1.10378649  2.          2.         -0.63318608]
 [ 2.          2.          2.          2.        ]
 [ 2.          2.          2.          2.        ]]
In [4]:
#布爾值數組

arr = np.random.randn(100)
#第一個打印值是數組大於零的值的和,第二個打印值是大於零的個數,arr>0得出的是布爾數組
println(arr[arr>0].sum(),(arr>0).sum())
 
34.14799260621775
**************************************************
48
In [5]:
println((arr>0).any(),(arr>0).all())
 
True
**************************************************
False
In [6]:
#模擬隨機漫步

nwalks = 5000 #樣本數
nsteps = 1000
draws = np.random.randint(0,2,size=(nwalks,nsteps)) #0或1
steps = np.where(draws>0,1,-1) #1或-1
walks = steps.cumsum(1) #步數相加
print(walks)
 
[[  1   2   1 ... -10 -11 -12]
 [ -1  -2  -1 ...  26  27  26]
 [ -1   0   1 ...   4   3   4]
 ...
 [ -1  -2  -1 ...   2   3   4]
 [ -1  -2  -1 ... -14 -15 -16]
 [  1   2   1 ...   4   5   6]]
In [7]:
#想算出走到30或-30的時間,先把未走到的樣本剔除
index_hit30 = (np.abs(walks)>=30).any(1)
hit30 = walks[index_hit30]

#第一次走到30或-30的時間
hit30_time = (np.abs(hit30)>=30).argmax(1)
println(index_hit30,hit30_time.mean())
 
[False  True  True ... False  True False]
**************************************************
501.0872403560831
In [2]:
#最值及排序

data = np.sin(np.arange(20).reshape(4,-1))
max_index = np.argmax(data,axis=0)
println(data,max_index,data[max_index,range(data.shape[1])])
 
[[ 0.          0.84147098  0.90929743  0.14112001 -0.7568025 ]
 [-0.95892427 -0.2794155   0.6569866   0.98935825  0.41211849]
 [-0.54402111 -0.99999021 -0.53657292  0.42016704  0.99060736]
 [ 0.65028784 -0.28790332 -0.96139749 -0.75098725  0.14987721]]
**************************************************
[3 0 0 1 2]
**************************************************
[0.65028784 0.84147098 0.90929743 0.98935825 0.99060736]
In [4]:
sort_index = np.argsort(data[0])
sort_index
Out[4]:
array([4, 0, 3, 1, 2])
In [5]:
data[0,sort_index]
Out[5]:
array([-0.7568025 ,  0.        ,  0.14112001,  0.84147098,  0.90929743])
相關文章
相關標籤/搜索