hands on matchine learning

機器學習分類

  1. unsupervised learning
  • Clustering —k-Meanspython

    —Hierarchical Cluster Analysis (HCA)-層次聚類分析git

    ​—Expectation Maximization算法

  • Visualization and dimensionality reduction 降維方法dom

    —Principal Component Analysis (PCA)主成成分分析機器學習

    —Kernel PCA學習

    —Locally-Linear Embedding (LLE) 局部線性嵌入測試

    —t-distributed Stochastic Neighbor Embedding (t-SNE) t分佈隨機近鄰嵌入code

  • Association rule learning 關聯規則挖掘component

    —Apriori 算法ip

    —Eclat(大成功)

  1. Semisupervised learning(半監督學習)

    大量無標籤數據和少許標記數據

    照片標記的時候

  2. 強化學習

    獎勵和懲罰機制

  3. 批學習和在線學習(batch learning and online learning)

    從是否用新到來的數據進行學習來區分

    • 批學習每次把全部數據都放進去學習,若是數據集過大則不適用
    • 在線學習:每次學習以後能夠刪除數據,佔用計算資源也少
      • 學習率:接收新數據,以及遺忘舊數據的頻率
  4. 基於實例的學習和基於模型的學習

    • 基於實例的學習:在郵件標記系統中,比較新郵件與已標記爲垃圾郵件的類似度,由此來決定是否爲垃圾郵件
    • 基於模型的學習:先訓練出模型(好比線性模型或者是多項式模型之類的),而後將新的數據輸入模型獲得結果

      機器學習問題解決思路

frame the problem

搞清楚真正的目標是什麼。如何用結果去幫公司盈利之類的。

A sequence of data processing components is called a data pipeline.

data pipeline:一系列的數據處理組件被稱爲數據管道

隨機排列數:np.random.permutation()

若是要固定隨機的方式,能夠在一開始使用np.random.seed(42)

train_test_split:把數據集按比例分紅訓練集和測試集

繪製帶有colorbar的圖,用圈的大小表示人口數量,用顏色表示放假的高低,紅色最高,藍色最低

housing.plot(kind="scatter", x="longitude", y="latitude", alpha=0.4,
s=housing["population"]/100, label="population",
c="median_house_value", cmap=plt.get_cmap("jet"), colorbar=True,
)
plt.legend()

相關文章
相關標籤/搜索