量化投資學習筆記08——統計學基礎補漏

《量化投資:以python爲工具》第二部分筆記
經過分析有限樣本數據來推測整體的特徵是統計推斷要解決的主要問題,也是整個統計分析的精髓所在。
數據分爲定性數據和定量數據。
數據的位置
算術平均數:全部數據相加後除以數據量。
幾何平均數:全部數據相乘後開n次方。
中位數:數據排序後位於中間的數值,若爲偶數個,則爲中間兩個數的平均數。
衆數:數據中數量最多的數。
百分位數:數據中相應百分比的數小於該數。
數據的離散度
極差:最大值與最小值之差。
平均絕對誤差:數據與平均值的差的絕對值的平均值。
方差:數據與均值之差的平方的平均值(但除以n-1而不是除以n)。
標準差:方差的平方根。
能夠用numpy的random模塊中的choice()來生成特定的服從特定機率質量函數的隨機數。
隨機變量的指望值是隨機變量全部可能值之乘積,是整體的中心位置。方差則是隨機變量與指望之差的平方的指望值。
伯努利分佈:np.random.binomial進行屢次伯努利實驗的結果。
正態分佈:正態分佈變量的線性變換仍然符合正態分佈。np.random.normal來生成。
卡方分佈:n個獨立的正態分佈變量的平方之和符合卡方分佈。n爲自由度。卡方分佈爲偏態分佈,以0爲起點,非對稱的。
t分佈:以0爲中心,對稱分佈,自由度越小,分佈越分散。
F分佈:非對稱分佈。
聯合機率分佈:兩個變量分別取值時的機率。指望值也相似。變量的獨立性:聯合機率值等於兩個變量分別的機率值之積時,兩變量獨立。
兩變量之間的關係能夠用協方差來衡量,描述兩隨機變量與各自指望值之差的共同變更情況。若爲正,兩變量同方向變更,反之則兩變量向相反方向變更。但協方差受比例的影響,不能直接衡量兩變量之間相關性的強弱。引入相關係數,用協方差除以兩變量的標準差之積。取值範圍爲[-1,1]。絕對值越大線性相關性越強,爲0表明線性不相關,但也有可能有非線性相關。
推斷統計包括參數估計和假設檢驗。
參數估計是用樣本數據來估計變量的機率分佈。參數估計有點估計和區間估計兩種形式。
點估計更加直觀,但與真實值有誤差。區間估計每每包含準確值,但沒那麼直觀。
假設檢驗的着重點在於檢驗參數的取值是否等於某個目標值。兩個隱含的思想:小几率事件和反證法。
t檢驗:標準差未知,服從正態分佈的整體的均值。經常使用的有單樣本t檢驗,配對樣本t檢驗,獨立樣本t檢驗。
多個變量之間的定性分析——方差分析,其重點不在預測,而在於分析和比較各組間的差別。
python用statsmodel中的anova來實現方差分析。
迴歸分析,當一個連續型變量變化時,另外一個連續型變量會變多少。python擬合線性模型用statsmodels中的ols類完成。
總結一下:機率統計學主要是三個部分,統計描述用來對數據進行描述,主要是描述數據的集中和離散狀況,隨機變量分佈狀況。統計推斷,對變量的狀況進行推斷,包括參數估計和假設檢驗。還有迴歸分析,研究變量之間的相關關係。具體的用到再說。
本章代碼:https://github.com/zwdnet/MyQuant/tree/master/08python

我發文章的四個地方,歡迎你們在朋友圈等地方分享,歡迎點「在看」。
個人我的博客地址:https://zwdnet.github.io
個人博客園博客地址: https://www.cnblogs.com/zwdnet/
個人知乎文章地址: https://www.zhihu.com/people/zhao-you-min/posts
個人微信我的訂閱號:趙瑜敏的口腔醫學學習園地git

相關文章
相關標籤/搜索