大數據分析01——成都二手房(平均價格)

背景
前段時間不少成都的朋友準備買房,遇到了各類問題。有的交了訂金,房東發現還有機會漲價,寧願交2w的違約金,也要再等一等房價漲起來;有的沒有2年社保或戶口買房;如今人才落戶放寬後,有機會買房了,卻又發現不少地方須要全款。那麼如今成都二手房的狀況究竟怎麼樣了?到底該買哪一個區的呢?html

思路git

  1. 使用爬蟲從鏈家爬取二手房的數據github

  2. 將數據導入可視化分析平臺瀏覽器

  3. 製做透視圖ide

這裏使用的可視化分析平臺是公司內部開發平臺,我直接拿來用用看下可否作出什麼有意思的圖出來。spa

結果
蟲子爬取到的單條數據:code

{'area': 85.21,
 'average_price': '17017',
 'city': '錦江',
 'community': '翡翠城四期  ',
 'focus_num': '117',
 'house_id': '106100521101',
 'last_buy_time': '2011-02-16',
 'link': 'https://cd.lianjia.com/ershoufang/106100521101.html',
 'location': '104.102412,30.618452',
 'model': ' 2室1廳 ',
 'price': 1450000.0,
 'publish_time': '2017-07-27',
 'title': '翡翠城四期 套二 有裝修 有陽臺',
 'watch_num': '81'}

對蟲子進行了升級,可以拿到地理數據和發佈時間了。htm

成都二手房每平方米的平均價格:
成都二手房ci

遇到的問題
首先我在知乎上找到一個分析北京房價的蟲子,因而我下載下來準備用來收集成都的,可是卻發現好久沒維護,蟲子跑不動了,因而我改了改,讓蟲子從新跑起來。蟲子在爬取鏈家數據的時候,當爬取到3000多條的時候,遇到了鏈家的反爬蟲策略,讓輸入驗證碼,我也就爬一次看看,並不想浪費太多的時間在驗證碼的識別上。網上有朋友告訴我使用和瀏覽器同樣的hears和cache就能夠,因而我試了一下,發現果真可行。開發

下面是個人蟲子的地址,感興趣的朋友,能夠下載下來試試:
https://github.com/BlackKnigh...可是,hears和cache的那部分代碼由於在筆記本上,沒有來得及push。估計下週一去push。

相關文章
相關標籤/搜索