摘要:文章首先介紹了大數據和智慧城市的概念、大數據的應用潛力和當前國際上智慧城市的建設概況,而後簡要介紹了大數據的四個方面共16種關鍵技術,最後參考歐盟提出的大數據在智慧城市應用的九個方面,提出了本身在這些應用方面的想法。
關鍵詞:大數據,智慧城市,關鍵技術,應用php
時下最流行的術語要屬「大數據」了。在百度指數上,「大數據」一詞的搜索次數從2012年之前的每週50次不到,飆升至最高每週9859次,並持續保有熱度。顧名思義,大數據的首要特徵是其數據量龐大,它的數據量已經從太字節(TB,240)級上升到拍字節(PB,250)級,甚至是澤字節(ZB,270)級。「據統計,現在人們每兩天生產的數據量就與人類文明發展至2003年產生的總數據量至關,而迄今爲止人類所積累的數據量的90%都來自過去兩年。——2015」[1]而在2018的今天,隨着科技的進步,數據獲取途徑更多、數量更大,其中就包括了RFID射頻數據、傳感器數據、社交網絡數據、移動互聯網數據等方式得到各類類型的結構化、半結構化及非結構化的海量數據。
智慧城市(smart city)這一律念發端於20世紀80年代的信息城市(information city),經歷了20世紀90年代的智能城市(intelligent city)與數字城市(digital city),在2000年後逐步演化爲智慧城市。2009年IBM公司首次提出了智慧城市願景,使得智慧城市理念與實踐在全球範圍內迅速傳播。[1]在百度指數上,「智慧城市」一詞的搜索熱度隨不及「大數據」,但能夠明顯看出,從2011年以來,搜索量持續上漲並最終穩定在每週2000次左右。智慧城市就是基於數字城市、物聯網和雲計算創建的現實世界與數字世界的融合,運用信息和通訊技術手段感測、分析、整合城市運行核心系統的各項關鍵信息,以實現對人和物的感知、控制和智能服務,從而對包括民生、環保、公共安全、城市服務、工商業活動在內的各類需求作出智能響應。其實質是利用先進的信息技術,實現城市智慧式管理和運行,進而爲城市中的人創造更美好的生活,促進城市的和諧、可持續成長。[2][3]
大數據是信息和通訊技術領域的概念,而智慧城市的實現依賴於這項技術,所以,研究他們之間的關係,探討大數據在智慧城市中的應用,對於更好地從民生、環保、公共安全、城市服務等方面促進城市發展,有着相當重要的做用。html
根據國際商業機器公司(IBM)估計的數據來看,如今咱們天天生成的數據高達250兆億個字節,信息的指數型增加有時被人們視爲萬靈藥,就比如20世紀70年代出現的計算機同樣。《連線》雜誌的前主編克里斯·安德森曾經在2008年的一篇文章中說:「數量龐大的數據會令人們再也不須要理論,甚至再也不須要科學的方法。」
被譽爲大數據時代的預言家的「維克托-邁爾-舍恩伯格」在2012年出版的《大數據時代》一書中說到:「在大數據時代,咱們的思惟發生了巨大的變革,咱們再也不關注事物的因果關係,而更多的關注它們的相關關係。」從哲學的層面來說,大數據時代發生的思惟變革主要影響了人們的「理性認知世界」的過程。人類的理性認知主要包括概念、判斷、推理三個過程,概念是人們對一個事物進行總結、歸納、抽象後的認知,判斷是經過學習對事物進行定義,推理是經過已有判斷得出新的判斷的過程。在過去,人們進行理性認知的過程每每經過部分樣原本進行,也就是說,經過事物的樣原本獲取總體認知,而在大數據時代,樣本即整體,對事物的認知方式也來到了一個新的階段。
那麼這種認知方式有何好處呢?很顯然,它具備高效性和準確性。以往,科學家們在一個科學規律發現以前,每每要進行大量的試驗和理論論證,並且實驗的樣本也難以包含所有,只是一種隨機的樣本,那麼這個試驗加上推理論證的方法就會耗費大量的時間,而在實際應用時,又會遇到不少的問題。現在,雲計算理念下的虛擬化技術大幅提升了人類對數據的處理能力,對海量數據的組織、整理、概括和學習成爲現實,並且因爲是對全部的數據進行操做,樣本=整體,那麼獲得的結果也更加準確。同時,因爲計算的高效,在獲取新的知識後,對已有認知進行更新也將十分迅速。
現在,大數據主要被應用於預測領域。美國最具影響力的預測專家納特·西爾弗在2013年出版的《信號與噪聲》一書中列舉了大量涉及不一樣領域的大數據預測。包括政治選舉預測、棒球比賽預測、天氣預測、地震預測、經濟預測、傳染性疾病預測、國際象棋大戰、撲克牌遊戲、股票市場、溫室效應、恐怖主義,幾乎涵蓋了政治、經濟、社會、文化、娛樂等方方面面,由此能夠看出,大數據在預測方面具備巨大的潛力。git
大數據是智慧城市各個領域都可以實現「智慧化」的關鍵性支撐技術,智慧城市的建設離不開大數據。建設智慧城市,是城市發展的新範式和新戰略。大數據將遍及智慧城市的方方面面,從政府決策與服務,到人們衣食住行的生活方式,再到城市的產業佈局和規劃,直到城市的運營和管理方式,都將在大數據支撐下走向「智慧化」,大數據成爲智慧城市的智慧引擎。[4]
咱們在前面說到,智慧城市是基於數字城市、物聯網和雲計算創建的現實世界與數字世界的融合,以實現對人和物的感知、控制和智能服務。感知是數字城市的功能,控制和智能服務是智慧的高級階段。
首先在感知方面,隨着科技水平的進步,咱們能夠多渠道、多方式地採集海量數據,從地下、地表到航空、航天,從室外到室內,或者沿着時間軸,貫穿一個時間段地收集數據。
其次是控制和服務方面。正如前面所說,數據量在近兩年有了指數級的增加,但這不只是採集技術進步的功勞。納特·西弗斯在《信號與噪聲中》說:「一旦信息的增加速度過快,而咱們處理信息的能力尚且不足,狀況就很危險。過去40年的人類歷史代表,把信息轉變爲有用的只是可能還須要很長時間,一不當心,咱們就有可能倒退回去。」顯然,和大數據一同發展的,還有大數據信息處理技術。咱們利用雲計算對海量數據進行信息提取,進而利用機器學習的方法,進行預測,就能提供智能服務,也能實現對某些事物的控制。算法
目前,我國正處於城鎮化加速發展的時期,部分地區「城市病」問題日益嚴峻。爲解決城市發展難題,實現城市可持續發展,建設智慧城市已成爲當今世界城市發展不可逆轉的歷史潮流。智慧城市的建設在國內外許多地區已經展開,並取得了一系列成果,國內的如智慧上海、智慧雙流;國外如新加坡的「智慧國計劃」、韓國的「U-City計劃」等。數據庫
大數據應用於智慧城市建設的關鍵技術主要有四個方面:大數據採集,大數據預處理、大數據存儲及管理、大數據分析及挖掘。下面將簡要闡述四個方面共16項技術及其在智慧城市建設中的應用。安全
數據採集是大數據生命週期的第一個環節,除了經過RFID射頻、傳感器等硬件技術獲取技術,還能夠獲取已有數據庫數據、社交網絡數據、移動互聯網數據等各類類型的結構化、半結構化及非結構化的海量數據。因爲可能有成千上萬的用戶同時進行併發訪問和操做,所以,必須採用專門針對大數據的採集方法,其主要包括如下幾種:服務器
傳感器是一種獲取電信號的技術,分爲接觸式和非接觸式;而無線射頻技術是一種非接觸式通訊技術,可經過無線電訊號識別特定目標並讀寫相關數據。微信
從已有的數據庫中採集數據。傳統的關係型數據庫有MySQL和Oracle等。經常使用的的工具備Sqoop和結構化數據庫間的ETL工具,固然當前對於開源的Kettle和Talend自己也包含了大數據集成內容,能夠實現和HDFS,HBase和主流NoSQL數據庫之間的數據同步和集成。網絡
網絡數據採集主要是藉助網絡爬蟲或網站公開API等方式,從網站上獲取數據信息的過程。能夠獲取網絡上非結構化及半結構化數據,並存儲。架構
使用Flume實現分佈式的海量日誌採集、聚合和傳輸。也可使用輕量級的ELK(Elasticsearch、Logstash、Kibana三個開源軟件的組合)進行日誌收集處理。
大數據數量巨大,但也會有殘缺、虛假、過期的數據。無效的數據不只沒有任何做用,還會影響後續操做,所以數據的預處理就極爲重要。大數據預處理就是對採集到的原始數據進行清洗、填補、平滑、合併、規格化以及檢查一致性等。主要包括:數據清理、數據集成、數據轉換以及數據規約四大部分。
數據清理主要包含遺漏值處理(缺乏感興趣的屬性)、噪音數據處理(數據中存在着錯誤、或偏離指望值的數據)、不一致數據處理。主要的清洗工具是ETL(Extraction/Transformation/Loading)和Potter’s Wheel。
數據集成是指將多個數據源中的數據合併存放到一個一致的數據存儲庫中。
數據轉換包括兩類:第一類,數據名稱及格式的統一,即數據粒度轉換、商務規則計算以及統一的命名、數據格式、計量單位等;第二類,數據倉庫中存在源數據庫中可能不存在的數據,所以須要進行字段的組合、分割或計算。
數據歸約是指在儘量保持數據原貌的前提下,最大限度地精簡數據量,主要包括:數據方彙集、維規約、數據壓縮、數值規約和概念分層等。
大數據存儲與管理要用存儲器把採集到的數據存儲起來,創建相應的數據庫,以便管理和調用。大數據存儲技術路線最典型的共有三種:
MPP(Massively Parallel Processing,大規模並行處理系統)。採用Shared Nothing架構,經過列存儲、粗粒度索引等多項大數據處理技術,再結合MPP架構高效的分佈式計算模式,完成對分析類應用的支撐,運行環境多爲低成本 PC Server,對於企業新一代的數據倉庫和結構化數據分析,目前最佳選擇是MPP數據庫。
這裏面有幾十種NoSQL技術,也在進一步的細分。對於非結構、半結構化數據處理、複雜的ETL流程、複雜的數據挖掘和計算模型,Hadoop平臺更擅長。
這是一種專爲大數據的分析處理而設計的軟、硬件結合的產品,由一組集成的服務器、存儲設備、操做系統、數據庫管理系統以及爲數據查詢、處理、分析用途而預先安裝及優化的軟件組成,高性能大數據一體機具備良好的穩定性和縱向擴展性。
數據的分析與挖掘主要目的是把隱藏在一大批看來雜亂無章的數據中的信息集中起來,進行萃取、提煉,以找出潛在有用的信息和所研究對象的內在規律的過程。包括可視化分析、數據挖掘算法、預測性分析、語義引擎以及數據質量和數據管理五大方面。
數據可視化主要是藉助於圖形化手段,清晰有效地傳達與溝通訊息。目的是作出簡單明瞭、清晰直觀,更易於接受的圖表。
數據挖掘算法是大數據分析的理論核心,數據挖掘的算法多種多樣,不一樣的算法基於不一樣的數據類型和格式會呈現出數據所具有的不一樣特色,致力於深刻數據內部,挖掘出數據的價值。
預測性分析結合了多種高級分析功能,包括特別統計分析、預測建模、數據挖掘、文本分析、實體分析、優化、實時評分、機器學習等。
語義引擎就是給已有的數據(結構化或非結構化)加上語義層。語義技術目的是讓用戶更快、更準確、更全面地得到所需信息,提升用戶的互聯網體驗。
數據質量管理是指對數據從生命週期中每一個階段(計劃、獲取、存儲、共享、維護、應用、消亡)可能引起的各種數據質量問題進行識別、度量、監控、預警等一系列管理活動,並經過改善和提升組織的管理水平使得數據質量得到進一步提升。
首先舉出當前大數據在智慧城市中應用的九個方面,而後以此爲思路導向,提出本身的想法。
在商業上,大數據預測能夠用於分析用戶的購物行爲,什麼商品搭配在一塊兒會賣得更好,還能夠經過分析找到最佳客戶。在淘寶平臺上,商家能夠根據淘寶的數據魔方瞭解平臺上的行業宏觀狀況、本身品牌的市場情況、消費者行爲狀況等,並能夠據此做出經營決策;阿里公司根據在淘寶網上中小企業的交易情況篩選出財務健康和誠信的企業,從而無需擔保來放貸,目前已放貸300多億元,壞賬率僅0.3%,大大低於商業銀行;IBM日本公司創建了一個經濟指標預測系統,從互聯網新聞中搜索影響製造業的480項經濟數據,計算出採購經理人指數(PMI,用於評估行業興衰);華爾街對衝基金依據購物網站顧客評論分析企業產品銷售情況,華爾街銀行根據求職網站崗位數量推斷就業率。
企業經過信息收集很好的掌握企業的運營情況,分析居民與財務有關的記錄包括貸款申請、租賃、房地產、購買零售商品、納稅申報、水電費繳付、有線電視繳費、電話繳費、報紙與雜誌訂閱、機動車檔案等,可以得出消費者的我的信用評分,從而推斷客戶支付意向與支付能力,發現潛在的商機和欺詐行爲。
利用大數據分析可實現對合理庫存量的管理;利用心情分析方法能夠分析用戶在購物時的心情,從而爲其安排更好的購物方案;經過分析顧客在購買商品時的關聯性,超市經營者能夠作出更好的商品佈局。
美國紐約的警察分析交通擁堵與犯罪發生地點的關係,有效改進治安;美國紐約的交通部門從交通違規和事故的統計數據中發現規律,改進了道路設計;電信運營商擁有大量的手機數據,經過對手機數據的挖掘,不針對我的而是着眼於羣體行爲,可從中分析:實時動態的流動人口的來源及分佈狀況、出行和實時交通客流信息及擁塞狀況;利用手機用戶身份和位置的檢測可瞭解突發性事件的彙集狀況;MIT的Reality Mining項目,經過對10萬多人手機的通話、短信和空間位置等信息進行處理,提取人們行爲的時空規則性和重複性,進行流行病預警和犯罪預測;利用短信、微博、微信和搜索引擎能夠收集熱點事件與輿情挖掘;
經過衛星、無人機、地面無人車等遙感平臺採集空間數據。對森林和植被、湖泊、河流、土地進行數據採集監測和分析,可以判別城市中有沒有污染。
智慧醫療主要體如今醫療模式的開發。首先是居家監護,收集中老年人或嬰幼兒很長時間(數年甚至數十年)的健康數據,進行分析預測,能夠從必定程度上避免意外情況的發生;其次是醫療網絡監控,根據網民搜索內容分析全球範圍內流感等病疫傳播情況;另外還有個性化醫療,有研究代表,一樣的治療對一些病人無效,75%癌症病人,70%的老年癡呆者、50%的關節炎病人、43%的糖尿病患者、40%的哮喘病患者,38%的抑鬱症病人,由於人體對藥品代謝方式的差別取決於個體特定的基因、酶和蛋白質組合,所以基因信息對選擇最優治療很是關鍵。對人體個性體質的挖掘會作到真正意義上的對症下藥,一我的的基因信息大概1GB;最後,參考輿情監督,能夠經過社交網絡獲取許多患者分享的臨牀症狀和經驗,增長醫院在這些方面的臨牀統計資料。
現在,搜索引擎再也不侷限於基於文本字符串的匹配搜索,出現了基於圖片的搜索、基於語音的搜索、基於位置的搜索。例如百度搜索,圖片搜索和文字搜索已經達到了很是高的精度,而百度旗下的百度地圖,在語音搜索和基於位置的搜索也作的至關使人滿意。
在搜索形式上,除了現有的幾種搜索,還能夠藉助傳感器和機器學習,利用大數據分析方法,進行基於氣味的搜索、基於視頻信息的搜索等。
在搜索內容上,智能搜索的理念被用於理解用戶的語義,分析用戶在進行搜索過程時的心情和狀態,據此提供用戶真正感興趣的內容。
隨着大衆傳播的發展以及新型傳播的發展,傳播領域將產生大量數據。互聯網具備虛擬性、隱蔽性、發散性、滲透性和隨意性等特色,例如微博傳播具備裂變性、主動性、即時性、便捷性、交互性、草根性,跟進性和臨場感,每個微博用戶既是」服務器」,也是」受衆」。
經過互聯網進行輿情監測,主要能夠應用於政府決策、商品銷售、產品研發等方面。政府經過輿情監測,及時發現存在的負面輿情,進行引導和調控,穩定社會;公司企業經過輿情監測,分析用戶需求和需求分佈,控制主流和非主流商品的銷售情況;科研機構或大學經過輿情監測,獲取社會對科研產品的需求狀況,肯定研發方向和研究課題。
精準營銷有兩個方面的內容,一是根據顧客需求,在合適的時間,經過合適渠道,把合適的營銷信息投送給每一個顧客;二是經過分析顧客行爲,進行商品的預備。
第一方面的內容如今許多大公司現在日頭條、百度、阿里巴巴都已經作得十分完善,其餘的公司也能作得媲美這些大公司。對於第二方面商品預備物資分配的問題仍有更多的開發空間,以身邊的商家爲例,首先是外賣行業,如今存在送貨慢、備餐久等問題,商家能夠經過分析點餐者的點餐時段、菜品偏好,提早準備好餐品,並和外送公司達成溝通,提升送餐效率;其次是零售超市,目前存在的問題是,超市和顧客供需不對等,商品月均銷量起伏等,這影響了超市的經營和顧客的體驗。超市能夠經過分析需求,在需求劇烈的時段增長商品供應,或者能夠在銷售淡季進行回饋活動來增加銷量等。
能夠經過監測通話、聊天等信息獲取可能存在的犯罪。不過這個在中國基本上不能實現。能實現的只有在公共電話、視頻監控中進行監測,例如監測視頻中的不正常行爲,電話中語音內容的識別,但中國人口衆多,視頻和語音數據量巨大,實現難度至關高。
經過分析,能夠發現正常的價格變化規律,若是價格變化持續異常,就能夠懷疑存在價格壟斷的行爲。市場價格監測能夠爲政府進行宏觀調控提供參考依據
埃裏克·西格爾在《大數據預測》一書中說到:「大數據時代下的核心——預測分析已經在商業和社會中獲得普遍應用。隨着愈來愈多的數據被記錄和整理,將來預測分析一定會成爲全部領域的關鍵技術。」誠如西格爾所言,當大數據與智慧城市完美契合,將是對傳統城市模式的一種極大的顛覆。過去人們在城市裏生活,思考如何去迎合這個冰冷的鋼鐵森林,而在智慧城市的服務之下,彷彿一切有了溫度,人們在城市的每一個角落都能感覺到她的溫情。智慧城市的理念和技術將成爲實現服務型城市的關鍵。
[1] 劉倫.大數據時代的智慧城市規劃:國際經驗[J].國際城市規劃,2015,(9)
[2] 百度百科
[3] 易事特公司.大數據在智慧城市中的應用,2016,(11)
[4] 阿里雲
[5] 51CTO大數據
[6] 大數據在智慧城市的10大應用