Clustering —k-Meanspython
—Hierarchical Cluster Analysis (HCA)-層次聚類分析git
—Expectation Maximization算法
Visualization and dimensionality reduction 降維方法dom
—Principal Component Analysis (PCA)主成成分分析機器學習
—Kernel PCA學習
—Locally-Linear Embedding (LLE) 局部線性嵌入測試
—t-distributed Stochastic Neighbor Embedding (t-SNE) t分佈隨機近鄰嵌入code
Association rule learning 關聯規則挖掘component
—Apriori 算法ip
—Eclat(大成功)
Semisupervised learning(半監督學習)
大量無標籤數據和少許標記數據
照片標記的時候
強化學習
獎勵和懲罰機制
批學習和在線學習(batch learning and online learning)
從是否用新到來的數據進行學習來區分
基於實例的學習和基於模型的學習
基於模型的學習:先訓練出模型(好比線性模型或者是多項式模型之類的),而後將新的數據輸入模型獲得結果
搞清楚真正的目標是什麼。如何用結果去幫公司盈利之類的。
A sequence of data processing components is called a data pipeline.
data pipeline:一系列的數據處理組件被稱爲數據管道
隨機排列數:np.random.permutation()
若是要固定隨機的方式,能夠在一開始使用np.random.seed(42)
train_test_split:把數據集按比例分紅訓練集和測試集
繪製帶有colorbar的圖,用圈的大小表示人口數量,用顏色表示放假的高低,紅色最高,藍色最低
housing.plot(kind="scatter", x="longitude", y="latitude", alpha=0.4, s=housing["population"]/100, label="population", c="median_house_value", cmap=plt.get_cmap("jet"), colorbar=True, ) plt.legend()