背景
前段時間不少成都的朋友準備買房,遇到了各類問題。有的交了訂金,房東發現還有機會漲價,寧願交2w的違約金,也要再等一等房價漲起來;有的沒有2年社保或戶口買房;如今人才落戶放寬後,有機會買房了,卻又發現不少地方須要全款。那麼如今成都二手房的狀況究竟怎麼樣了?到底該買哪一個區的呢?html
思路git
使用爬蟲從鏈家爬取二手房的數據github
將數據導入可視化分析平臺瀏覽器
製做透視圖ide
這裏使用的可視化分析平臺是公司內部開發平臺,我直接拿來用用看下可否作出什麼有意思的圖出來。spa
結果
蟲子爬取到的單條數據:code
{'area': 85.21, 'average_price': '17017', 'city': '錦江', 'community': '翡翠城四期 ', 'focus_num': '117', 'house_id': '106100521101', 'last_buy_time': '2011-02-16', 'link': 'https://cd.lianjia.com/ershoufang/106100521101.html', 'location': '104.102412,30.618452', 'model': ' 2室1廳 ', 'price': 1450000.0, 'publish_time': '2017-07-27', 'title': '翡翠城四期 套二 有裝修 有陽臺', 'watch_num': '81'}
對蟲子進行了升級,可以拿到地理數據和發佈時間了。htm
成都二手房每平方米的平均價格:ci
遇到的問題
首先我在知乎上找到一個分析北京房價的蟲子,因而我下載下來準備用來收集成都的,可是卻發現好久沒維護,蟲子跑不動了,因而我改了改,讓蟲子從新跑起來。蟲子在爬取鏈家數據的時候,當爬取到3000多條的時候,遇到了鏈家的反爬蟲策略,讓輸入驗證碼,我也就爬一次看看,並不想浪費太多的時間在驗證碼的識別上。網上有朋友告訴我使用和瀏覽器同樣的hears和cache就能夠,因而我試了一下,發現果真可行。開發
下面是個人蟲子的地址,感興趣的朋友,能夠下載下來試試:
https://github.com/BlackKnigh...可是,hears和cache的那部分代碼由於在筆記本上,沒有來得及push。估計下週一去push。