(本文成文於2015年11月12日,爲做者原創,發佈在博客園方便諸君閱讀)程序員
前段時間發了一篇分析房價的文章,因而這兩天在微信上諮詢個人朋友絡繹不絕。今天是光棍節,我什麼都沒搶到。下午,有一位學姐在微信上找我,懷着激動的心情打開微信。正則表達式
學姐說,「看到你以前發的文章了,能不能幫我在北京選一套婚房啊?」微信
學姐求我,焉有不該。因而,咱們約了今天晚上在北郵校園的零一咖啡廳見面。學姐是咱們實驗室比我大兩級的女神,追求者衆,聽說要找男友只找BAT三家的高富帥,據說後來找了個360的男友。畢業兩年,就準備買婚房了,太使人羨慕了。看看我能不能幫忙吧!網絡
坐在咖啡廳,我從新運行了數據採集程序,抓取光棍節當天全部的二手房數據,這個過程要花15分鐘。趁着這個時候,我開始詢問學姐對婚房具體需求。工具
學姐說,她但願能找面積在70平以上,130平如下的比較新的房子。至於預算,如今兩家人拿出了180萬的首付,我當時就震驚了。我幫她算了一下,她男朋友的工資一個月兩萬,按照貸款三十年,每月還款不超過收入的51%計算,總共能貸大概140萬。所以,預算在320萬左右。3d
正好15分鐘過去,數據採完了,總共10W套左右,基本上包括了絕大多數北京二手房。大概是下面這個樣子(省略了一部分信息):代理
我按照學姐的要求,選擇了70到130平,價格在350萬如下的全部房子,總共3W套。看來可選擇的還挺多的啊。平均面積93平,單價2.34萬。blog
她忽然又說,不喜歡太老的房子。排序
確實如此,房子不能太老,不然水暖電和房子的質量都會比較差,之後也很難出手。因而,我用正則表達式,從每一個房子的所有信息裏,抽取房子的年份,並選擇1997年之後的房子。97年之後,大戶型開始多了起來。看了看,還有2.5萬套左右。事件
學姐又說,她不想上班太遠,位置也不想太偏。
我心想,恩,要離老公近一點,但是,怎麼定義不遠呢?我打開了地圖,告訴她,你來選一個區域範圍吧!
學姐用纖纖手指,在屏幕上畫了一個框,我仔細看了一下,大概是這個樣子:
這個區域,西至玉泉路,東到東五環,南到長安街,北到立水橋。我以爲頗有意思,問學姐,長安街以南有好多單價較低的東西城區的房子,爲何不考慮呢?
她說,「男友在北邊,這樣上班方便。再說,寧要北邊一張牀,不要南邊一間房,因此固然要買長安街以北的房子啦!」
她選的其實還挺有道理,北邊過了立水橋,就是昌平的天通苑了,連我都據說過天通苑國的傳言,天天出入境極其困難,她男友怎麼捨得讓她早高峯在天通苑地鐵站擠地鐵呢,那個情景,大概是下面這個樣子(男默女淚)。
我分析了一下座標,這個矩形範圍大約在東經116.25到116.53度,北緯39.91到40.059度之間。一個表達式跑下來,總共只剩下2400套左右的房子了。
按照不一樣區域進行劃分,就能看到下面的柱狀圖:
看來基本上只能在朝陽,海淀,燕郊三個地方買房子了。學姐不會考慮燕郊。她說,竟然還有西城區的房子!
我也深感奇怪,1998年後,竟然還有單價在5W之內的西城區的房子?看了一下,西城有18套,東城有17套。
若是能買到西城的房子,學姐真是賺大了!因而我趕忙檢索那些西城的房子出來:
單價才三萬八!這怎麼可能,隨便找了兩個仔細一看,原來一個是地下室,另一個是商住兩用的房子。
學姐問我,什麼是商住兩用?我告訴她,所謂商住兩用就是商水商電,小產權,不能落戶口。
學姐說,堅定不要地下室,並且必定能落戶口。
這個也難不倒我,中介固然不會傻到在標題上標註地下室和商住兩用。但一般商住兩用,會標明「不限購」,各類「大廈」,「中心」,「投資」的,確定都是沒法落戶的,用關鍵字篩掉它們!
keywords = re.compile(u'商|地下|限購|大廈|中心|投資');
學姐眉頭一皺,「忘了告訴你了,我要兩室或者三室的房子,必定要帶客廳」。我想了幾秒鐘,看來還得正則表達式出馬:
housetype = re.compile(u'(2|3)室(1|2)廳');
這樣,西城東城的房子完全乾掉了,一套都沒有。我告訴學姐,你如今只能選擇朝陽和海淀的房子了。此時,可選的房子數量共計1000套左右,只佔總數的不到1%。
接下來按照區域選房子。咱們按照區域排序分組並求數量,獲得了下面這張表:
學姐問道,這麼多商圈,不少地方聽都沒聽過,怎麼選?我把數據導出成文件,導入到基於百度地圖的可視化工具工具裏,匯出了這樣的一張圖,每一個地方有多少套房子,一目瞭然。按照大區來劃分,可選項主要集中在北苑,清河,望京和十里堡附近。
學姐想了想,說,男友所在的科技公司在東邊,我在中關村上班,因此北苑應該是個不錯的選擇,正好是兩我的的上班的中點,酒仙橋地鐵並不方便,因此暫時先不考慮。
啊,學姐好贊! 如今應該比較明確了。
咱們來重點考察一下北苑,按照小區來劃分(PID是數量,year爲小區平均年份,單價爲平均單價)
咱們將地圖縮放到北苑,每一個小區有多少套合適的房子,即可一目瞭然。
學姐說,這價格差異仍是挺大的,從2.7W到3.9W都有。爲何區別這麼大呢?
我說,這可能和房子年份有關,越新的小區,房子確定會越貴,爲了證實個人猜想,我作了以下的線性迴歸曲線:
通過計算,皮爾遜相關係數在0.63左右,可見,對於比較新的非學區房來講,建造年份和價格強相關。
爲何天怡家園和茉藜園只有一條秋實街相隔,二手房可選擇性(天怡家園6套,茉藜園51套)卻差異這麼大呢?仔細對比了兩個小區的基本信息,可能緣由有兩個,茉藜園(3559戶)比天怡家園(690戶)的規模大了不少,並且天怡家園是部委聯合建房,因此相對來講多一些。總體交易活躍度不高。
學姐說,如今硬性條件都知足了,怎麼來選擇最有性價比的房子呢?
先說價格,學姐忽然問我,成交價就是中介網上標明的價格嗎? 我偷笑了一下,心想,「看來學姐是徹底不懂啊」。中介固然要收中介費的啊,某著名中介通常是成交價的2.7%。下面是商品普通住宅的額外支出狀況:
我接着說道,這是普通商品房的稅率,若是是經濟適用房,須要交納10%的綜合地價款,若是是公房,還須要交納土地出讓金…
學姐打斷我,這個太複雜了!
確實啊,這些政策足夠寫好幾張紙,我本身也不是很清楚。咱們先考慮那個表裏的狀況吧。
其實仔細觀察中介的標籤就能發現,若是是滿五年惟一或滿兩年惟一,必定會標上。若是不惟一,就什麼都不標。從這些特徵,可以計算出每套房子的實際成交額,這個步驟可能會出錯,。
我回答,這看你怎麼定義性價比了。基本上,一分價錢一分貨,能從下面幾個角度來考慮:
學姐問,90多套房子,這個讓我怎麼選啊,能讓機器幫我選擇一下嗎?
這可以讓我犯了難,戶型圖均可以查到,但讓程序去作自動識別,並計算採光,這實在是太難了,只能讓學姐本身來選了。
採光也無法自動識別,但能經過中介給出的評論中提取關鍵詞,繪製詞圖,提升篩房效率。
學區和升值空間相對比較容易,把北苑全部的學校,幼兒園,以及將來地鐵的建設狀況繪製出來,便可做爲直接的參考。
即便在2020年,北苑的地鐵線路依舊不夠發達,只增長了勇士營一站。勇士營站的位置,靠近來春園和北京青年城,能夠認爲將來有較好的升值空間。
以學姐的狀況,估計之後還會換學區房,咱們姑且將附近的幼兒園繪製出來:
(時間所限,筆者沒有標註每一個幼兒園的狀況,以後有專門的學區房專題進行分析)
因爲中介對每套房子的評價內容特別多,所以一條一條觀察會很是浪費時間。我不得不動用天然語言處理技術,對剩餘的90多套房子,提取點評關鍵詞。
因爲中介對每套房子的評價內容特別多,所以一條一條觀察會很是浪費時間。我不得不動用天然語言處理技術,對剩餘的90多套房子,提取點評關鍵詞:
爲了方便學姐快速地從90套房子中選取本身中意的房子,我生成了這些房子的詞圖,座標圖和房型圖。
另外一方面,考慮對這些房源進行排序,但如何評價房子的綜合好壞呢?
通常來講,看房的人越多越火,但不排除掛出來好久都沒人看上,所以用每個月平均看房次數比較合適。另外,更好的房子會有更多的中介小哥對其進行評價,房評熱度較高。所以,使用下面的公式來計算房子的評價:
綜合評價=(總看房人數/已掛出時間)∗0.2+經紀人評論數量∗0.8
(獲取掛出時間的方法請參考附錄,公式的權重參數是我瞎編的)
我花了五分鐘生成了一個word文檔,能很是方便地進行對比,選擇恐懼症福音,就像下面這個樣子:
我接着說,接下來就靠你和你男友對戶型進行篩選,選出20-30套以爲不錯的房子,綜合地鐵商場幼兒園地圖,制定看房計劃,聯繫中介,最後肯定最合適的房子,這樣會比較有效率。
學姐看完之後,很是開心,說道,太棒了太棒了,這樣我選房就一目瞭然,你把你生成的這份文檔拷到我U盤上吧!
這時,學姐掏出了一個很是精緻的愛心優盤,說道「不要隨便亂看哦,這裏面有我和我男票的愛之皁片」。
心塞啊。。。我把優盤插在電腦上準備拷貝,順便問學姐,你難道不考慮酒仙橋,清河的房子嗎?好像中關村也有符合你要求的房子呢,那裏比北苑地理位置好多了。。。
學姐表情一變,啊啊啊啊,是啊,我到底該怎麼選啊,你知道我有選擇恐懼症。。。你再幫我選一下吧。。。
我:。。。。。。
這時,外面有汽車鳴了兩下笛,學姐的電話也響了,應該是她的BAT男朋友來了。
她一看手機,啊,我男友來接我了,學弟今天謝謝你!因而拿起包包轉身急匆匆地就出門了。。。
哎,準備回家吧,看看能不能趁雙十一回去搶個襪子。正要收拾電腦,
「學姐,你的優盤!」
本文成文於2015年11月12日,,請聯繫微信公衆號「沙漠之鷹」。全部數據和分析都來自真實數據,但並不保證事件和人物存在,若有雷同,純屬巧合。
爲了證實個人猜想,我根據北苑20個小區的價格和年份進行計算,皮爾遜相關係數在0.63左右,可見,對於比較新的非學區房來講,建造年份和價格強相關。
中介固然不會傻到真正交多少稅寫在頁面上,但仔細觀察頁面標籤就能發現,若是是滿五年惟一或滿兩年惟一,必定會標上。若是不惟一,就會標「房本滿兩年」。從這些特徵,可以計算出每套房子的實際成交額。
目前北京二手房我的所得稅的計算只要能覈實房屋原值,均要按照(出售價— 房屋原值 — 合理費用)× 20%的方法計算,不能覈實原值的,個稅以本次房屋交易價格按覈定徵收率1%計算。但因爲本次計算不能知道房屋原值,所以按1%處理。
稅費因政策更新已經修改屢次,所以網絡上說法不一,異常複雜,表格中的數據,是我按照330新政的信息校對過的。
好笑的是,同一套房,不一樣中介代理標註的信息都不同:
每一箇中介的門店只負責特定的範圍。所以雖然中介能提供一個小區裏的詳細信息,但很難也一般不會幫你介紹其餘位置的房型。所以按照需求明確本身所需的區域,再去選擇當地的門店,是很是重要的。
信息中並無明確提到登記時間,這對咱們計算房子綜合評價很重要。怎麼辦呢?
笨蛋!固然是獲取第一個房評人的評論時間啊,他是登記這個信息的人!
沙漠之鷹:以程序員的視角,分析數據,解構模式,發現洞見,歡迎關注微信公共號: