sklearn學習筆記

五、model經常使用屬性和功能

model=LinearRegression()
model.fit(data_x,data_y)
print(model.coef_)  #y=0.1*x+0.3   coef_ 對應0.1, intercept對應0.3
print(model.intercept_)
print(model.get_params()) #{'copy_X': True, 'fit_intercept': True, 'n_jobs': 1, 'normalize': False}
print(model.score(data_x,data_y))  #R^2 coefficient of determination

四、sklearn.datasets中有豐富的數據,能夠加以利用

 

三、機器學習常見學習效果指標說明    

https://blog.csdn.net/qq5q13638/article/details/78379817算法

Accuracy:準確度,app

Sensitivity(tpr):敏感度,這個的計算方式是dom

Specificity:特異度機器學習

Positive predictive value 陽性結果中真陽性的比率函數

Negative predictive value:陰性預測值
Brier Score:能夠理解成判斷結果與真實結果的平均距離吧~距離越小代表結果越好學習

AUC:Area Under roc Cure ,越大越好
這個概念能夠是數據挖掘或者機器學習中較爲重要的指標之一(甚至比accuracy還要更加劇要一些),其字面意思就是在ROC曲線下面的面積atom

 

機器學習過程當中,構建策略後,相同代碼、數據,每次回測結果不一致,且差異很大,是什麼緣由?該如何處理?spa

https://zhuanlan.zhihu.com/p/27787096  .net

評估機器學習模型的穩定性(Stability)和評估機器學習的表現(Performance)有本質上的不一樣,不能簡單的經過評估準確率這種指標來講一個機器學習穩定與否。舉個最簡單的例子,假設一個模型一下子表現特別好,一下子比較特別差,咱們敢用這個模型於實際生產中嗎?說白了,穩定性仍是因爲數據的方差Variance決定。code

那麼有小夥伴說了,咱們或許能夠用交叉驗證(cross-validation)來評估一個算法模型的穩定性。沒錯這是個正確的思路,但最大的問題,就是交叉驗證太慢了

解答:一樣數據,用svm回測,學習100個月,預測100多個月,每次結果不一致,有一些差異

是由於每次y是隨機產生的,致使結果不一致。

二、sklearn的屬性,經過from sklearn.  獲得。

pipeline  model_selection  linear_model  base  calibration  cluster  covariance  cross_decomposition  交叉分解

datasets  decomposition  discriminant_analysis 判別分析  dummy  ensemble  exceptions  externals

feature_extraction  feature_selection  gaussian_process  grid_search  isotonic  kernel_approximation (核近似,模塊基於傅立葉變換實現了幾個近似核函數圖)

kernel_ridge  learning_curve  manifold  metrics  mixture  multiclass  multioutput  naive_bayes  neighbors  neural_network

preprocessing  random_projection  semi_supervised  setup  svm  tests  tree  utils

 

一、dir(sklearn)

import sklearn
dir(sklearn)
Out[3]: 
[ 'base','clone','config_context', 'exceptions','externals',
 'get_config', 'logger', 'logging', 'os', 're', 'set_config', 'setup_module', 'sys', 'utils', 'warnings'
相關文章
相關標籤/搜索