鏈家廣州二手房的數據與分析——數據分析2

繼續上一篇的工做繼續分析廣州鏈家二手房的數據。html

>> Normality Test


用nortest package 的 ad.test() 分別對三個主要因素(面積,總價和均價)進行正態分佈檢驗,結果顯示這三個變量都不知足正態分佈,而 Q-Q Plot 的表現方式就更直觀了:算法

房子的面積app

ad.test(house$area) #p-value < 2.2e-16 reject normality
qqnorm(house$area)
qqline(house$area, col = 2, lwd=2)

01

房子的總價3d

ad.test(house$total_price) #p-value < 2.2e-16 reject normality
qqnorm(house$total_price)
qqline(house$total_price, col = 2, lwd=2)

02

房子的單價code

ad.test(house$unit_price) #p-value < 2.2e-16 reject normality
qqnorm(house$unit_price)
qqline(house$unit_price, col = 2, lwd=2)

03

由於房子的面積,總價和單價這三個變量均不知足正態分佈,因此就不能對這三個變量進行 ANOVA 和線性迴歸等分析了。

orm

>> Cluster Analysis


接下來咱們能夠將可知的房源劃分歸類。房子分類後對於賣家和中介而言就能夠更精準地找到目標的客戶羣體,對於買家而言也能夠避免花更多的時間去了解不合適的房子從而加快交易速度(畢竟房子老是蹭蹭蹭地往上漲不給人思考的時間~)我會用簡單方便的 K-Mean 算法對房子實現分類的工做。htm

在開始聚類分析以前內心要大概有個數,到底這些房子應該分爲幾類才合適?聚類的原則就是組內的差距要小而組間的差距要大。我只選擇面積和單價這兩個最爲重要的變量進行分析,並計算了不一樣分組的狀況下的組內離差平方和:blog

tot.wssplot <- function(data, nc, seed=1){
                tot.wss <- (nrow(data)-1)*sum(apply(data,2,var)) 
                for (i in 2:nc){
                  set.seed(seed) 
                  tot.wss[i] <- kmeans(data, centers=i, iter.max = 500)$tot.withinss
                }
                plot1 <- ggplot(data=data.frame(1:nc,tot.wss), aes(x=1:nc, y=tot.wss, group=1)) + 
                          geom_line(color="#007CFF", linetype="solid", size=1.0)+
                          geom_point(color="#FF6666")+
                          scale_x_continuous(limits=c(0, 10),breaks = seq(0,10,2))+
                          scale_y_continuous(limits=c(10000, 45000),breaks = seq(10000, 45000,5000))+
                          xlab('Number of Cluster')+
                          ylab('Within groups sum of squares')
}
temp <- data.frame(scale(house[,c("area", "unit_price")]))
plot2 <- tot.wssplot(temp, nc = 10)
print(plot2)

04

由上圖的計算結果,我選擇了將房子分爲5類, 結果還不錯。get

set.seed(1)
group <- kmeans(x = temp, centers = 5, iter.max = 500)
print(group) 
#K-means clustering with 5 clusters of sizes 7336, 3448, 16948, 19842, 3906
#(between_SS / total_SS =  74.7 %)


>> Interpreting Results


將分類的結果做爲數據的一個新變量 house$group ,而後分組計算各組的房子的面積,總價和單價。數據分析

Group Area Total Price Unit Price Count
1 74.86566 154.5091 20766.57 7336
2 86.89919 595.8457 67492.40 3448
3 79.08328 310.8258 39814.88 16948
4 58.04336 179.4360 31160.86 19842
5 142.63028 460.6121 30534.02 3906

05

另外,第一組的房子集中的區域爲市橋,新塘南,橋南等地;第二組的房子集中在東山口,淘金,天河公園等地;第三組的房子集中在京溪,昌崗,金碧等;第四組的房子集中在江燕路,西關,大石,祈福新村等;第五組的房子集中在麓景,荔城等。

綜合上述的信息,我認爲能夠將廣州的二手房大體分爲如下5類:

  1. 上車盤型 :這組的房子大多位於市郊並且面積適中,價格較低。對於資金不夠充裕的買家來講也是一個可以得着的選擇。
  2. 區域中心型(好地段) :這組的房子大多位於廣州市的黃金地段(或是交通或是學位等因素),均價是遠遠超過廣州二手房均價的,並且物以稀爲貴在房子上也能驗證。這組的房子數量並很少。
  3. 剛需型 : 這組的房子大多位於廣州市內,雖然不算很好的地段,可是至少交通配套等設施會比市郊的房子要好。面積適中,價格適中,房源充足。
  4. 「老破小」型 :這組的房子面積偏小,可是其集中所處的區域多處於江燕路和西關等老城區,因此其價格也不會很便宜,由於把這組的房子定義爲「老破小」型。打引號的緣由是這組內的房子不必定一一知足即老又小又破的特徵,可是由數據推測該組的大多數房子會知足老破小其一的特徵。
  5. 大戶型 : 這組的房子面積較大,很容易就知道是包括別墅,複式等大戶型的房子了。

經過繪製房子分組與房子建築年代的圖形,能夠肯定第4組就是老房子居多了,基本80s的房子都屬於第4組的房子。
06
繪製房子分組與房子是否近地鐵的圖形,能夠肯定第2組是大部分是近地鐵(表明交通發達)的好位置的房子,而第1組則符合預期猜想多爲市郊的房子遠離地鐵。
07

最後,說了那麼多,買房子就仍是看看銀行卡的餘額……

相關文章:

  1. 鏈家廣州二手房的數據與分析——爬取數據
  2. 鏈家廣州二手房的數據與分析——數據分析1
相關文章
相關標籤/搜索