問題 8¶

考慮上面的表明性數據點在每個產品類型的花費總數，你認爲這些客戶分類表明了哪類客戶？爲何？須要參考在項目最開始獲得的統計值來給出理由。

提示： 一個被分到'Cluster X'的客戶最好被用 'Segment X'中的特徵集來標識的企業類型表示。

回答:

Cluster 0更像是零售商，由於他們的中心點Segment 0的各項特徵值都是50%左右，低於平均值，沒有某個特徵特別高，而量又沒有特別大，比較符合零售商什麼都賣，可是入貨不算多的特色
Cluster 1更像是奶茶店，而且他們的中心點Segment 1的值牛奶和、雜物和清潔紙的量超過了75%並且超過了平均數，而其餘的數量較少，奶茶店牛奶和紙巾的消耗必然不少，因此更有多是奶茶店

問題 9¶

對於每個樣本點 問題 8 中的哪個分類可以最好的表示它？你以前對樣本的預測和如今的結果相符嗎？

運行下面的代碼單元以找到每個樣本點被預測到哪個簇中去。

# 顯示預測結果
for i, pred in enumerate(sample_preds):
    print "Sample point", i, "predicted to be in Cluster", pred

Sample point 0 predicted to be in Cluster 1
Sample point 1 predicted to be in Cluster 1
Sample point 2 predicted to be in Cluster 1

回答:

主要是Cluster 1，Milk，Grocery，Detergents_Paper消耗較大，更像奶茶店
不相符，經驗偏少

結論¶

在最後一部分中，你要學習如何使用已經被分類的數據。首先，你要考慮不一樣組的客戶客戶分類，針對不一樣的派送策略受到的影響會有什麼不一樣。其次，你要考慮到，每個客戶都被打上了標籤（客戶屬於哪個分類）能夠給客戶數據提供一個多一個特徵。最後，你會把客戶分類與一個數據中的隱藏變量作比較，看一下這個分類是否辨識了特定的關係。

問題 10¶

在對他們的服務或者是產品作細微的改變的時候，公司常常會使用A/B tests以肯定這些改變會對客戶產生積極做用仍是消極做用。這個批發商但願考慮將他的派送服務從每週5天變爲每週3天，可是他只會對他客戶當中對此有積極反饋的客戶採用。這個批發商應該如何利用客戶分類來知道哪些客戶對它的這個派送策略的改變有積極的反饋，若是有的話？你須要給出在這個情形下A/B 測試具體的實現方法，以及最終得出結論的依據是什麼？
提示： 咱們能假設這個改變對全部的客戶影響都一致嗎？咱們怎樣纔可以肯定它對於哪一個類型的客戶影響最大？

回答：

不一樣客戶需求不一樣，改變策略對全部客戶影響確定有差別。
可是咱們能夠假設改變策略對全部客戶影響一致，每一個簇中選擇一些樣本進行A/B測試，過一段時間看客戶反應。

問題 11¶

經過聚類技術，咱們可以將原有的沒有標記的數據集中的附加結構分析出來。由於每個客戶都有一個最佳的劃分（取決於你選擇使用的聚類算法），咱們能夠把用戶分類做爲數據的一個工程特徵。假設批發商最近迎來十位新顧客，而且他已經爲每位顧客每一個產品類別年度採購額進行了預估。進行了這些估算以後，批發商該如何運用它的預估和非監督學習的結果來對這十個新的客戶進行更好的預測？

提示：在下面的代碼單元中，咱們提供了一個已經作好聚類的數據（聚類結果爲數據中的cluster屬性），咱們將在這個數據集上作一個小實驗。嘗試運行下面的代碼看看咱們嘗試預測‘Region’的時候，若是存在聚類特徵'cluster'與不存在相比對最終的得分會有什麼影響？這對你有什麼啓發？

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split

# 讀取包含聚類結果的數據
cluster_data = pd.read_csv("cluster.csv")
y = cluster_data['Region']
X = cluster_data.drop(['Region'], axis = 1)

# 劃分訓練集測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=24)

clf = RandomForestClassifier(random_state=24)
clf.fit(X_train, y_train)
print "使用cluster特徵的得分", clf.score(X_test, y_test)

# 移除cluster特徵
X_train = X_train.copy()
X_train.drop(['cluster'], axis=1, inplace=True)
X_test = X_test.copy()
X_test.drop(['cluster'], axis=1, inplace=True)
clf.fit(X_train, y_train)
print "不使用cluster特徵的得分", clf.score(X_test, y_test)

使用cluster特徵的得分 0.666666666667
不使用cluster特徵的得分 0.64367816092

回答：

使用cluster特徵的得分高於不使用，提升預測準確率
聚類完爲每一個樣本打上標籤可做爲特徵預測其餘變量

可視化內在的分佈¶

在這個項目的開始，咱們討論了從數據集中移除'Channel'和'Region'特徵，這樣在分析過程當中咱們就會着重分析用戶產品類別。經過從新引入Channel這個特徵到數據集中，並施加和原來數據集一樣的PCA變換的時候咱們將可以發現數據集產生一個有趣的結構。

運行下面的代碼單元以查看哪個數據點在降維的空間中被標記爲'HoReCa' (旅館/餐館/咖啡廳)或者'Retail'。另外，你將發現樣本點在圖中被圈了出來，用以顯示他們的標籤。

# 根據‘Channel‘數據顯示聚類的結果
vs.channel_results(reduced_data, outliers, pca_samples)

問題 12¶

你選擇的聚類算法和聚類點的數目，與內在的旅館/餐館/咖啡店和零售商的分佈相比，有足夠好嗎？根據這個分佈有沒有哪一個簇可以恰好劃分紅'零售商'或者是'旅館/飯店/咖啡館'？你以爲這個分類和前面你對於用戶分類的定義是一致的嗎？

回答：

聚類點的數目爲2個，從上圖可看出Dimension 1等於-0.5左右能夠將全部客戶分爲2類，基本一致

歡迎掃碼關注，或搜索大數據與知識圖譜，按期分享大數據與知識圖譜相關知識點：

	Fresh	Milk	Grocery	Frozen	Detergents_Paper	Delicatessen
count	440.000000	440.000000	440.000000	440.000000	440.000000	440.000000
mean	12000.297727	5796.265909	7951.277273	3071.931818	2881.493182	1524.870455
std	12647.328865	7380.377175	9503.162829	4854.673333	4767.854448	2820.105937
min	3.000000	55.000000	3.000000	25.000000	3.000000	3.000000
25%	3127.750000	1533.000000	2153.000000	742.250000	256.750000	408.250000
50%	8504.000000	3627.000000	4755.500000	1526.000000	816.500000	965.500000
75%	16933.750000	7190.250000	10655.750000	3554.250000	3922.000000	1820.250000
max	112151.000000	73498.000000	92780.000000	60869.000000	40827.000000	47943.000000

	Fresh	Milk	Grocery	Frozen	Detergents_Paper	Delicatessen
0	6353	8808	7684	2405	3516	7844
1	6006	11093	18881	1159	7425	2098
2	3067	13240	23127	3941	9959	731

	Fresh	Milk	Grocery	Frozen	Detergents_Paper	Delicatessen
0	8.756682	9.083416	8.946896	7.785305	8.165079	8.967504
1	8.700514	9.314070	9.845911	7.055313	8.912608	7.648740
2	8.028455	9.490998	10.048756	8.279190	9.206232	6.594413

	Fresh	Milk	Grocery	Frozen	Detergents_Paper	Delicatessen
65	4.442651	9.950323	10.732651	3.583519	10.095388	7.260523
66	2.197225	7.335634	8.911530	5.164786	8.151333	3.295837
81	5.389072	9.163249	9.575192	5.645447	8.964184	5.049856
95	1.098612	7.979339	8.740657	6.086775	5.407172	6.563856
96	3.135494	7.869402	9.001839	4.976734	8.262043	5.379897
128	4.941642	9.087834	8.248791	4.955827	6.967909	1.098612
171	5.298317	10.160530	9.894245	6.478510	9.079434	8.740337
193	5.192957	8.156223	9.917982	6.865891	8.633731	6.501290
218	2.890372	8.923191	9.629380	7.158514	8.475746	8.759669
304	5.081404	8.917311	10.117510	6.424869	9.374413	7.787382
305	5.493061	9.468001	9.088399	6.683361	8.271037	5.351858
338	1.098612	5.808142	8.856661	9.655090	2.708050	6.309918
353	4.762174	8.742574	9.961898	5.429346	9.069007	7.013016
355	5.247024	6.588926	7.606885	5.501258	5.214936	4.844187
357	3.610918	7.150701	10.011086	4.919981	8.816853	4.700480
412	4.574711	8.190077	9.425452	4.584967	7.996317	4.127134

	Fresh	Milk	Grocery	Frozen	Detergents_Paper	Delicatessen
86	10.039983	11.205013	10.377047	6.894670	9.906981	6.805723
98	6.220590	4.718499	6.656727	6.796824	4.025352	4.882802
154	6.432940	4.007333	4.919981	4.317488	1.945910	2.079442
356	10.029503	4.897840	5.384495	8.057377	2.197225	6.306275

建立用戶分類

機器學習納米學位¶

非監督學習¶

項目 3: 建立用戶分類¶

開始¶

分析數據¶

練習: 選擇樣本¶

問題 1¶

練習: 特徵相關性¶

問題 2¶

可視化特徵分佈¶

問題 3¶

數據預處理¶

練習: 特徵縮放¶

觀察¶

練習: 異常值檢測¶

問題 4¶

特徵轉換¶

練習: 主成分分析（PCA）¶

問題 5¶

觀察¶

練習：降維¶

觀察¶

可視化一個雙標圖（Biplot）¶

觀察¶

聚類¶

問題 6¶

練習: 建立聚類¶

問題 7¶

聚類可視化¶

練習: 數據恢復¶

問題 8¶

問題 9¶

結論¶

問題 10¶

問題 11¶

可視化內在的分佈¶

問題 12¶

	Fresh	Milk	Grocery	Frozen	Detergents_Paper	Delicatessen
75	9.923192	7.036148	1.098612	8.390949	1.098612	6.882437
154	6.432940	4.007333	4.919981	4.317488	1.945910	2.079442

	Fresh	Milk	Grocery	Frozen	Detergents_Paper	Delicatessen
38	8.431853	9.663261	9.723703	3.496508	8.847360	6.070738
57	8.597297	9.203618	9.257892	3.637586	8.932213	7.156177
65	4.442651	9.950323	10.732651	3.583519	10.095388	7.260523
145	10.000569	9.034080	10.457143	3.737670	9.440738	8.396155
175	7.759187	8.967632	9.382106	3.951244	8.341887	7.436617
264	6.978214	9.177714	9.645041	4.110874	8.696176	7.142827
325	10.395650	9.728181	9.519735	11.016479	7.148346	8.632128
420	8.402007	8.569026	9.490015	3.218876	8.827321	7.239215
429	9.060331	7.467371	8.183118	3.850148	4.430817	7.824446
439	7.932721	7.437206	7.828038	4.174387	6.167516	3.951244

	Dimension 1	Dimension 2	Dimension 3	Dimension 4	Dimension 5	Dimension 6
0	-1.8834	-1.5991	1.3204	-0.5432	-0.3934	-0.3117
1	-2.8734	-0.6774	0.1330	-0.1802	-0.0250	0.1224
2	-2.9903	-0.3645	0.2521	1.5653	0.1922	0.1244

	Fresh	Milk	Grocery	Frozen	Detergents_Paper	Delicatessen
Segment 0	8953.0	2114.0	2765.0	2075.0	353.0	732.0
Segment 1	3552.0	7837.0	12219.0	870.0	4696.0	962.0

	Fresh	Milk	Grocery	Frozen	Detergents_Paper	Delicatessen
66	2.197225	7.335634	8.911530	5.164786	8.151333	3.295837
109	7.248504	9.724899	10.274568	6.511745	6.728629	1.098612
128	4.941642	9.087834	8.248791	4.955827	6.967909	1.098612
137	8.034955	8.997147	9.021840	6.493754	6.580639	3.583519
142	10.519646	8.875147	9.018332	8.004700	2.995732	1.098612
154	6.432940	4.007333	4.919981	4.317488	1.945910	2.079442
183	10.514529	10.690808	9.911952	10.505999	5.476464	10.777768
184	5.789960	6.822197	8.457443	4.304065	5.811141	2.397895
187	7.798933	8.987447	9.192075	8.743372	8.148735	1.098612
203	6.368187	6.529419	7.703459	6.150603	6.860664	2.890372
233	6.871091	8.513988	8.106515	6.842683	6.013715	1.945910
285	10.602965	6.461468	8.188689	6.948897	6.077642	2.890372
289	10.663966	5.655992	6.154858	7.235619	3.465736	3.091042
343	7.431892	8.848509	10.177932	7.283448	9.646593	3.610918