繼續上一篇的工做繼續分析廣州鏈家二手房的數據。html
用nortest package 的 ad.test() 分別對三個主要因素(面積,總價和均價)進行正態分佈檢驗,結果顯示這三個變量都不知足正態分佈,而 Q-Q Plot 的表現方式就更直觀了:算法
房子的面積app
ad.test(house$area) #p-value < 2.2e-16 reject normality qqnorm(house$area) qqline(house$area, col = 2, lwd=2)
房子的總價3d
ad.test(house$total_price) #p-value < 2.2e-16 reject normality qqnorm(house$total_price) qqline(house$total_price, col = 2, lwd=2)
房子的單價code
ad.test(house$unit_price) #p-value < 2.2e-16 reject normality qqnorm(house$unit_price) qqline(house$unit_price, col = 2, lwd=2)
由於房子的面積,總價和單價這三個變量均不知足正態分佈,因此就不能對這三個變量進行 ANOVA 和線性迴歸等分析了。
orm
接下來咱們能夠將可知的房源劃分歸類。房子分類後對於賣家和中介而言就能夠更精準地找到目標的客戶羣體,對於買家而言也能夠避免花更多的時間去了解不合適的房子從而加快交易速度(畢竟房子老是蹭蹭蹭地往上漲不給人思考的時間~)我會用簡單方便的 K-Mean 算法對房子實現分類的工做。htm
在開始聚類分析以前內心要大概有個數,到底這些房子應該分爲幾類才合適?聚類的原則就是組內的差距要小而組間的差距要大。我只選擇面積和單價這兩個最爲重要的變量進行分析,並計算了不一樣分組的狀況下的組內離差平方和:blog
tot.wssplot <- function(data, nc, seed=1){ tot.wss <- (nrow(data)-1)*sum(apply(data,2,var)) for (i in 2:nc){ set.seed(seed) tot.wss[i] <- kmeans(data, centers=i, iter.max = 500)$tot.withinss } plot1 <- ggplot(data=data.frame(1:nc,tot.wss), aes(x=1:nc, y=tot.wss, group=1)) + geom_line(color="#007CFF", linetype="solid", size=1.0)+ geom_point(color="#FF6666")+ scale_x_continuous(limits=c(0, 10),breaks = seq(0,10,2))+ scale_y_continuous(limits=c(10000, 45000),breaks = seq(10000, 45000,5000))+ xlab('Number of Cluster')+ ylab('Within groups sum of squares') } temp <- data.frame(scale(house[,c("area", "unit_price")])) plot2 <- tot.wssplot(temp, nc = 10) print(plot2)
由上圖的計算結果,我選擇了將房子分爲5類, 結果還不錯。get
set.seed(1) group <- kmeans(x = temp, centers = 5, iter.max = 500) print(group) #K-means clustering with 5 clusters of sizes 7336, 3448, 16948, 19842, 3906 #(between_SS / total_SS = 74.7 %)
將分類的結果做爲數據的一個新變量 house$group ,而後分組計算各組的房子的面積,總價和單價。數據分析
Group | Area | Total Price | Unit Price | Count |
---|---|---|---|---|
1 | 74.86566 | 154.5091 | 20766.57 | 7336 |
2 | 86.89919 | 595.8457 | 67492.40 | 3448 |
3 | 79.08328 | 310.8258 | 39814.88 | 16948 |
4 | 58.04336 | 179.4360 | 31160.86 | 19842 |
5 | 142.63028 | 460.6121 | 30534.02 | 3906 |
另外,第一組的房子集中的區域爲市橋,新塘南,橋南等地;第二組的房子集中在東山口,淘金,天河公園等地;第三組的房子集中在京溪,昌崗,金碧等;第四組的房子集中在江燕路,西關,大石,祈福新村等;第五組的房子集中在麓景,荔城等。
綜合上述的信息,我認爲能夠將廣州的二手房大體分爲如下5類:
經過繪製房子分組與房子建築年代的圖形,能夠肯定第4組就是老房子居多了,基本80s的房子都屬於第4組的房子。
繪製房子分組與房子是否近地鐵的圖形,能夠肯定第2組是大部分是近地鐵(表明交通發達)的好位置的房子,而第1組則符合預期猜想多爲市郊的房子遠離地鐵。
最後,說了那麼多,買房子就仍是看看銀行卡的餘額……
相關文章: