從有線互聯網到無線互聯網,本質是增強了人與人之間隨時隨地的關聯。下一個互聯的時代是萬物互聯,也就是物聯網。有人說,這個是第三次信息革命,無論咋樣,這都會產生大量的數據。
舉一個例子,杭州市有200w輛汽車(具體確定比這個多),咱們給每輛車安裝一個傳感器,每隔10s,上傳1k的數據量,說明這個車的位置,一些狀況。QPS爲20w,1年的數據量爲:365*360*24*200w*1k=5.73P ,若是不作任何的容災,每一個磁盤4T來算,則須要 5.73*1024/4T=1466塊磁盤,作一些容災,則至少須要2000+的磁盤。這些數據蘊含着巨大的價值,分析這些數據後,則會改變整個杭州的交通。前端
在咱們傳統架構下,通常會使用關係型數據庫,關係型數據庫索引結構基本上都是類B+樹,隨着終端設備數增多,讀寫壓力劇增,讀寫延遲增大,數據庫面臨崩潰;其次,關係型數據庫也沒法作到存儲容量無限擴容,目前有一些分庫分表的方案,實現起來比較複雜,每每有較多的限制。數據庫
物聯網最大的特色寫入量大,要求延遲低,且數據存量巨大。HBase基於LSM,把磁盤的隨機寫改成順序寫,寫吞吐高,不受SSD隨機寫入放大幹擾,也不受空間放大的干擾。目前HBase很是知足物聯網存儲需求,存儲數T、數P甚至百P的空間,延遲穩定在數毫秒以內,跟Hadoop分析體系有較爲深刻的結合,知足分析類的需求。具體物理網的大體結構以下:
主要流程:
一、一部分實時,直接走MQ,到流式系統,作一些實時的分析,後寫入HBase。
二、一部分寫入HBase,通常是全量數據,後接入Hadoop/Spark,作一些離線分析,後續結果寫入HBase中。
每每在使用HBase時,使用的rowkey設計是:設備ID+地點+xxx+時間xxx架構
每一個雲公司,都在前端的一些環節作了不少事情,好比提供硬件支持、協議支持、ECS能夠使用一些彈性方案,固然也有很多公司是本身作方案。
針對數據從雲HBase到EMR Hadoop/Spark中,目前有兩種方案,其一是Hadoop、Spark直接鏈接雲HBase分析;其二是雲HBase提供一些導出數據的功能,在EMR中自動生成一張表(目前雲HBase在實現中)。oop