Kaggle新手入門之路(完結)

學完了Coursera上Andrew Ng的Machine Learning後,火燒眉毛地想去參加一場Kaggle的比賽,卻發現從理論到實踐的轉變實在是太困難了,在此記錄學習過程.html

 

一:安裝Anaconda

教程大多推薦使用Jupyter Notebook來進行數據科學的相關編程,咱們經過Anaconda來安裝Jupyter Notebook和須要用到的一些python庫,按照如下方法從新安裝了Anaconda,平臺Win10python

Anaconda安裝git

二:Jupyter Notebook

參照如下兩篇文章配置好了Jupyter Notebook,學習了相關的基本操做github

Jupyter能夠作哪些事情算法

Jupyter Notebook經常使用快捷鍵apache

  • 啓動:在cmd或Anaconda Prompt下輸入jupyter notebook
  • 新建:Files頁面右側'New'
  • 運行當前cell:Ctrl+Enter
  • 代碼補全:Tab
  • 查看方法文檔:Shift+Tab
  • 複選cell:Shift+上下鍵
  • 刪除cell:雙擊D
  • 撤銷刪除:Z
  • 保存當前Notebook:S
  • 關閉文檔:Home頁面選中文檔後'Shutdown'
  • 關閉服務器:終端中按兩次Ctrl+C
  • 顯示matplotlib圖表:%matplotlib inline
  • 中斷運行:I

三:Numpy

numpy中文教程編程

官方文檔api

  • Numpy是一個用於進行數組運算的庫
  • Numpy中最重要的對象是稱爲ndarray的N維數組類型
  • 通常使用以下語句導入:import numpy as np
  • 建立數組:numpy.array(object, dtype = None, copy = True, order = None, subok = False, ndmin = 0)
  • 能夠用np.dtype()定義結構體
  • 數組維度:ndarray.shape
  • 數組維數:ndarray.ndim
  • 調整數組維度:ndarray.reshape(shape)
  • 建立未初始化數組:numpy.empty(shape, dtype = float, order = 'C')
  • 建立零數組:numpy.zeros(shape, dtype = float, order = 'C')
  • 建立一數組:numpy.ones(shape, dtype = float, order = 'C')
  • 用現有數據建立數組:numpy.asarray(a, dtype = None, order = None)
  • 按數值範圍建立數組:numpy.arange(start = 0, stop, step = 1, dtype),相似的有linspace()和logspace()
  • 切片:b=a[start:stop:step],能夠用...表明剩餘維度
  • 整數索引:每一個整數數組表示該維度的下標值,b=a[[r1, r2], [c1, c2]]
  • 布爾索引:返回是布爾運算的結果的對象,能夠用&或|鏈接()分隔的條件
  • 在 NumPy 中能夠對形狀不類似的數組進行操做,由於它擁有廣播功能,個人理解是,廣播是一種維度的單方向拉伸
  • 數組迭代:numpy.nditer(ndarray)或ndarray.flat
  • 數組長度:len(arr)
  • 訪問第i個元素:一維數組用a[i],多維數組用a.flat[i]
  • 數組轉置:ndarray.T
  • 數組分割:numpy.split(ary, indices_or_sections, axis),第二項的值爲整數則代表要建立的等大小的子數組的數量,是一維數組則代表要建立新子數組的點。
  • 追加值:numpy.append(arr, values, axis)
  • 插入值:numpy.insert(arr, idx, values, axis)
  • 刪除值:numpy.delete(arr, values, axis)
  • 去重數組:numpy.unique(arr, return_index, return_inverse, return_counts)
  • 字符串函數:numpy.char類
  • 三角函數:numpy.sin(arr),numpy.cos(arr),numpy.tan(arr)
  • 四捨五入:numpy.around(arr,decimals)
  • 向下取整:numpy.floor(arr)
  • 向上取整:numpy.ceil(arr)
  • 取倒數:numpy.reciprocal(arr),注意對於大於1的整數返回值爲0
  • 冪運算:numpy.power(arr,pow),pow能夠是一個數,也能夠是和arr對應的數組
  • 取餘:numpy.mod(a,b),b能夠是一個數,也能夠是和a對應是數組
  • 最小值:numpy.amin(arr,axis)
  • 最大值:numpy.amax(arr,axis)
  • 數值跨度:numpy.ptp(arr,axis)
  • 算術平均值:numpy.mean(arr,axis)
  • 標準差:numpy.std(arr)
  • 方差:numpy.var(arr)
  • 副本的改變會影響原數組(賦值),視圖的改變不會影響原數組(ndarray.view(),切片,ndarray.copy())
  • 線性代數:numpy.linalg模塊

四:Matplotlib

官方教程數組

官方教程中文翻譯服務器

matplotlib入門教程

Jupyter Notebook Viewer的matplotlib lecture 

建議先看官方教程,經過折線圖熟悉基本操做,而後看入門教程第三章到第六章掌握各類圖的畫法

 

  • 通常使用以下語句導入:import matplotlib.pyplot as plt
  • 繪圖:plt.plot(x,y),可選color,marker,label等參數,默認的x座標爲從0開始且與y長度相同的數組,x座標與y座標通常使用numpy數組,也能夠用列表
  • 設置線條:plt.setp()
  • 軸名稱:plt.xlable('str'),plt.ylable('str)
  • 添加文本:plt.txt(xpos,ypos,'str')
  • 添加格子:plt.grid(True)
  • 展現圖片:plt.show()
  • 圖題:plt.title('str')
  • 圖示:plt.legend(),結合plot()中的label參數使用
  • 獲取子圖:plt.sublot(nrows,ncols,index)或plt.subplot2grid((nrows,ncols),(rows,cols)),可選colspan和rowspan屬性
  • 建立畫布:plt.figure()
  • 數學表達式:TeX表達式
  • 非線性軸:plt.xscale('scale'),plt.yscale('scale'),可選參數log,symlog,logit等
  • 填充顏色:plt.fill(x,y)和plt.fill_between(x,y,where=...)
  • 條形圖:plt.bar(x,y),注意多個條形圖的默認顏色相同,應選擇不一樣的顏色方便區分
  • 直方圖:plt.hist(x,bins),直方圖是一種顯示區段內數據數量的圖像,x爲數據,bins爲數據區段,可選histtype,rwidth等屬性
  • 散點圖:plt.scatter(x,y),散點圖一般用於尋找相關性或分組,可選color,marker,label等屬性
  • 堆疊圖:plt.stackplot(x,y1,y2,y3...),堆疊圖用於顯示部分對總體隨時間的關係,經過利用plt.plot([],[],color,label)添加與堆疊圖中顏色相同的空行,可使堆疊圖的意義更加清晰,可選colors等屬性
  • 餅圖:plt.pie(slice),餅圖用於顯示部分對總體的關係,可選labels,colors,explode,autupct等屬性

 

五:Pandas

10 Minutes to Pandas

十分鐘搞定pandas(上文翻譯版)

利用python進行數據分析

上面兩個教程用於速成,下面這本書是pandas的做者寫的,用於仔細瞭解

 

  • 通常使用以下語句導入:import pandas as pd
  • Pandas是基於NumPy 的一種工具,提供了一套名爲DataFrame的數據結構,比較契合統計分析中的表結構,可用Numpy或其它方式進行計算
  • 建立Series:pd.Series=(data,index),Series是一維數組
  • 建立DataFrame:pd.DataFrame(data,index,colums),也能夠傳遞一個字典結構來填充data和colums,DataFrame相似於二維表格,簡稱df
  • 查看df頭尾行:df.head(i),df.tail(i),如不填參數則分別返回除了前五行/倒數前五行的內容
  • 查看索引/列/數據:df.index,df.colums,df.values
  • 快速統計彙總:df.descrbe()
  • 數據轉置:df.T
  • 按軸排序:df.sort_index(axis=0,ascending=True)
  • 按值排序:df.sort_values(colums,axis=0,ascending=Ture)
  • 獲取:df['columnname']或df.columnname,會返回某列
  • 經過條件選取某列:df = df[df('columns') == 'a']
  • 對行切片:df[start:stop:step],利用df[n:n+1]便可獲取某行
  • 經過標籤選擇某行:df.loc[index,columname]
  • 經過位置選擇某行:df.iloc[indexpos,columnpos],df.iloc[i,:]可獲取一行,df.iloc[:,i]可獲取一列
  • 布爾索引:df[bool],能夠對單獨的列進行斷定,也能夠對整個DataFrame進行斷定
  • 在pandas中使用np.nan代替缺失值,這些值不會被包含在計算中
  • 對index和columns進行增刪改:df.reindex(index,columns)
  • 去掉含有缺失值的行:df.dropna(how='any'),能夠選擇how='all'只去掉全部值均缺失的行
  • 補充缺失值:df.fillna(value)
  • 數據應用:df.apply(func),能夠是現有函數也能夠是lambda函數
  • 鏈接:pd.contact(obj),obj能夠是Series,DataFrame,Panel
  • 合併:pd.merge(left,right)
  • 追加:df.append(data)
  • 分組:df.groupby(columnname).func(),一般爲分組/執行函數/組合結果
  • 時間:pandas有着重採樣等豐富的時間操做
  • 寫入CSV文件:df.to_csv(filename)
  • 讀取CSV文件:df.read_csv(filename),結果爲DataFrame

六:Scikit-learn

python機器學習實踐與kaggle實戰

Sklearn快速入門

官方文檔

官方文檔中文翻譯

 

  • sklearn 把全部機器學習的模式整合統一塊兒來了,學會了一個模式就能夠通吃其餘不一樣類型的學習模式
  • 步驟通常分爲導入模塊-建立數據-創建模型-訓練-預測

特徵工程:

在機器學習中,很重要的一步是對特徵的處理,咱們參考下文,先給出一些經常使用的特徵處理方法在sklearn中的用法

使用sklearn作單機特徵工程

 

  • 標準化(須要使用距離來度量類似性或用PCA降維時):
    from sklearn.preprocessing import StandardScaler
    data_train = StandardScaler().fit_transform(data_train)
    data_test = StandardScaler().fit_transform(data_test)
  • 區間縮放:
    from sklearn.preprocessing import MinMaxScaler
    data = MinMaxScaler().fit_transform(data)
  • 歸一化(利於計算梯度降低,消除量綱):
    from sklearn.preprocessing import Normalizer
    data = Normalizer().fit_transform(data)
  • 定量特徵二值化(大於epsilon爲1,小於等於epsilon爲0):
    from sklearn.preprocessing import Binarizer
    data = Binarizer(threshold = epsilon).fit_transform(data)
  • 類別型特徵轉換爲數值型特徵:

實際上就是保留數值型特徵,並將不一樣的類別轉換爲啞變量(獨熱編碼),可參考:python中DictVectorizer的使用

from sklearn.feature_extraction import DictVectorizer
vec = DictVectorizer(sparse = False)
X_train = vec.fit_transform(X_train.to_dict(orient = 'recoed'))
  • 卡方檢驗:
    from sklearn.feature_selection import SelectKBest
    from sklearn.feature_selection import chi2
    #選擇K個最好的特徵,返回選擇特徵後的數據
    skb = SelectKBest(chi2, k = 10).fit(X_train, y_train)
    X_train = skb.transform(X_train)
    X_test = skb.transform(X_test)

     

  • 互信息法:
    from sklearn.feature_selection import SelectKBest
    from minepy import MINE
    
    #因爲MINE的設計不是函數式的,定義mic方法將其爲函數式的,返回一個二元組,二元組的第2項設置成固定的P值0.5
    def mic(x, y):
        m = MINE()
        m.compute_score(x, y)
        return (m.mic(), 0.5)
    
    #選擇K個最好的特徵,返回特徵選擇後的數據
    SelectKBest(lambda X, Y: array(map(lambda x:mic(x, Y), X.T)).T, k=2).fit_transform(iris.data, iris.target)
  • 主成分分析(PCA):
    from sklearn.decomposition import PCA
    estimator = PCA(n_components=2)#幾個主成分
    X_pca = estimator.fit_transform(X_data)

     

學習算法:

劃分訓練集和測試集:

from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = 33)

訓練:

from sklearn import LearnAlgorithm#導入對應的學習算法包
la = LearnAlgorithm()
la.fit(X_train, y_train)
y_predict = la.predict(x_test)

隨機梯度降低法(SGD):

from sklearn.linear_model import SGDClassifier
sgd = SGDClassifier()
from sklearn.linear_model import SGDRegressor
sgd = SGDRegressor(loss='squared_loss', penalty=None, random_state=42)

支持向量機(SVM):

支持向量分類(SVC):

from sklearn.svm import SVC
svc_linear = SVC(kernel='linear')#線性核,能夠選用不一樣的核

支持向量迴歸(SVR):

from sklearn.svm import SVR
svr_linear = SVR(kernel='linear')#線性核,能夠選用不一樣的核如poly,rbf

樸素貝葉斯(NaiveBayes):

from sklearn.naive_bayes import MultinomialNB
mnb = MultinomialNB()

決策樹(DecisionTreeClassifier):

from sklearn.tree import DecisionTreeClassifier
dtc = DecisionTreeClassifier(criterion='entropy', max_depth=3, min_samples_leaf=5)#最大深度和最小樣本數,用於防止過擬合

隨機森林(RandomForestClassifier):

from sklearn.ensemble import RandomForestClassifier
rfc = RandomForestClassifier(max_depth=3, min_samples_leaf=5)

梯度提高樹(GBDT):

from sklearn.ensemble import GradientBoostingClassifier
gbc = GradientBoostingClassifier(max_depth=3, min_samples_leaf=5)

極限迴歸森林(ExtraTreesRegressor):

from sklearn.ensemble import ExtraTreesRegressor()
etr = ExtraTreesRegressor()

評估:

from sklearn import metrics
accuracy_rate = metrics.accuracy_score(y_test, y_predict)
metrics.classification_report(y_test, y_predict, target_names = data.target_names)#能夠獲取準確率,召回率等數據

K折交叉檢驗:

from sklearn.cross_validation import cross_val_score,KFold
cv = KFold(len(y), K, shuffle=True, random_state = 0)
scores = cross_val_score(clf, X, y, cv = cv)

from sklearn.cross_validation import cross_val_score
scores = cross_val_score(dt, X_train, y_train, cv = K)

注意這裏的X,y須要爲ndarray類型,若是是DataFrame則須要用df.values和df.values.flatten()轉化

Pipeline機制:

pipeline機制實現了對所有步驟的流式化封裝和管理,應用於參數集在數據集上的重複使用.Pipeline對象接受二元tuple構成的list,第一個元素爲自定義名稱,第二個元素爲sklearn中的transformer或estimator,即處理特徵和用於學習的方法.以樸素貝葉斯爲例,根據處理特徵的不一樣方法有如下代碼:

clf_1 = Pipeline([('count_vec', CountVectorizer()), ('mnb', MultinomialNB())])
clf_2 = Pipeline([('hash_vec', HashingVectorizer(non_negative=True)), ('mnb', MultinomialNB())])
clf_3 = Pipeline([('tfidf_vec', TfidfVectorizer()), ('mnb', MultinomialNB())])

特徵選擇:

from sklearn import feature_selection
fs =  feature_selection.SelectPercentile(feature_selection.chi2, percentile=per)
X_train_fs = fs.fit_transform(X_train, y_train)

咱們以特徵選擇和5折交叉檢驗爲例,實現一個完整的參數選擇過程:

from sklearn import feature_selection
from sklearn.cross_validation import cross_val_score
percentiles = range(1,100)
results= []
for i in percentiles:
    fs =  feature_selection.SelectPercentile(feature_selection.chi2, percentile=i)
    X_train_fs = fs.fit_transform(X_train, y_train)
    scores = cross_val_score(dt, X_train_fs, y_train, cv = 5)
    results = np.append(results, scores.mean())

opt = np.where(results == results.max())[0]
fs = feature_selection.SelectPercentile(feature_selection.chi2, percentile=opt)
X_train_fs = fs.fit_transform(X_train, y_train)
dt.fit(X_train_fs, y_train)
y_predict = dt.predict(x_test)

超參數:

超參數指機器學習模型裏的框架參數,在競賽和工程中都很是重要

集成學習(Ensemble Learning):

經過對多個模型融合以提高總體性能,如隨機森林,XGBoost,參考下文:

Ensemble Learning-模型融合-Python實現

多線程網格搜索:

用於尋找最優參數,可參考下文:

Sklearn-GridSearchCV網格搜索

from sklearn.cross_validation import train_test_split
from sklearn.grid_search import GridSearchCV
X_train, X_test, y_train, y_test = train_test_split(news.data[:3000], news.target[:3000], test_size=0.25, random_state=33)

from sklearn.svm import SVC
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import Pipeline

clf = Pipeline([('vect', TfidfVectorizer(stop_words='english', analyzer='word')), ('svc', SVC())])

parameters = {'svc__gamma': np.logspace(-2, 1, 4), 'svc__C': np.logspace(-1, 1, 3)}

gs = GridSearchCV(clf, parameters, verbose=2, refit=True, cv=3, n_jobs=-1)

%time _=gs.fit(X_train, y_train)
gs.best_params_, gs.best_score_
print gs.score(X_test, y_test)

 

七:Kaggle

學習完以上內容後,能夠參考下文,已經能夠完成一些較爲簡單的kaggle contest了

機器學習系列(3)_邏輯迴歸應用之Kaggle泰坦尼克之災

相關文章
相關標籤/搜索