大數據處理及其研究進展

1、 大數據基本概念

大數據Big Data是指大小超出了常用的軟件工具在執行時間內可以承受的收集,管理和處理數據能力的數據集;大數據是眼下存儲模式與能力、計算模式與能力不能知足存儲與處理現有數據集規模產生的相對概念。前端

大數據的預處理算法

主要完畢對已接收數據的辨析、抽取、清洗等操做。數據庫

(1)抽取:因獲取的數據可能具備多種結構和類型,數據抽取過程可以幫助咱們將這些複雜的數據轉化爲單一的或者便於處理的構型,以達到高速分析處理的目的。安全

(2)清洗:對於大數據,並不全是有價值的,有些數據並不是咱們所關心的內容,而還有一些數據則是全然錯誤的干擾項,所以要對數據經過過濾「去噪」從而提取出有效數據。網絡

大數據帶來的數學問題架構

在數學上來看,計算機中存在不斷變大的數據集,不存在絕對的大數據,計算機中的所有數據集都是有限集合。機器學習

大數據採樣——把大數據變小、找到與算法相適應的極小樣本集、採樣對算法偏差的影響分佈式

大數據表示——表示決定存儲、表示影響算法效率函數

大數據不一致問題——致使算法失效和無解、怎樣消解不一致工具

大數據中的超高維問題——超高維致使數據稀疏、算法複雜度添加

大數據中的不肯定維問題——多維度數據並存、按任務定維難

大數據中的不適定性問題——高維致使問題的解太多難以抉擇

大數據的特徵

稠密與稀疏共存:局部稠密與全局稀疏

冗餘與缺失並在:大量冗餘與局部缺失

顯式與隱式均有:大量顯式與豐富隱式

靜態與動態忽現:動態演進與靜態關聯

多元與異質共處:多元多變與異質異性

量大與可用矛盾:量大低值與可用稀少

眼下大數據的外延

大數據規模大小是一個不斷演化的指標:

當前任務處理的單一的數據集,從數十TB到十幾PB級的數據規模(TB«PB«EB«ZB)

處理大數據的可等待的合理時間依賴任務的目標:

地震數據預測要求在幾分鐘內纔有效、氣象數據應該在小時級別、失聯飛機數據處理要在7天以內、數據挖掘通常要求在12小時內


2、 大數據悖論

大數據已被定義爲科學探索的第四範式。繼幾千年前的實驗科學、數百年前的理論科學和數十年前的計算科學以後,當今的數據爆炸孕育了數據密集型科學,將理論、實驗和計算仿真等範式統一塊兒來。大數據已被譽爲「非競爭性」生產要素。大數據具備「取之不盡,用之不竭」的特性,在不斷的再利用、重組和擴展中持續釋放其潛在價值,在普遍的公開、共享中不斷創造着新的財富。根源在於,大數據的價值在於預測未知領域、非特定因素的將來趨勢,在於破解長期的、廣泛的社會難題。而眼下的大數據技術和應用,依舊侷限於歷史和實時數據的關聯分析,侷限於知足短線的、特定的市場需求。解決悖論的過程,偏偏是理論和方法應運而生的過程。而人們試圖解決悖論的努力,正好是大數據落地生根的推進力。


方法論缺位

自2008年《天然》雜誌推出「大數據」專刊以來,大數據概念就從學術大討論,轉向了企業的數字化轉型,進而上升到「開放政府數據」的戰略佈局。然而,單純的數量上的規模龐大,並不能輕易地將大數據與以往的「海量數據」、「超大規模數據」等差異開,因爲三者均沒有設置數量級等門檻。

方法論缺位是最大的障礙。大數據發展的核心動力源於人們測量、記錄和分析世界的渴望,知足這些渴望需要數據、技術和思惟三大要素。在計算技術、通訊技術日益成熟的今天,在便宜的、便捷的數字化存儲普及的當下,數據無處不在,技術正以標準化、商品化的方式提供,其實思惟和方法論纔是決定大數據成敗的關鍵,但眼下來看,跨越學術與產業、技術與應用之間鴻溝的方法論依舊不無缺。

在社會難題中淘金

正如數學史上三次危機分別促成公理幾何的誕生、集合論的創立和現代數據的發展同樣,悖論是理論、技術和應用進步的巨大推進力。大數據悖論的解決,也將推進大數據應用的普及和社會價值的釋放。通過新聞媒體和學術會議的大肆宣傳以後,大數據技術趨勢一會兒跌到谷底,不少數據創業公司變得朝不保夕……依據這條著名的Gartner技術成熟度曲線,大數據已經走過了萌芽期和泡沫化的炒做期,並將在將來3~5年內步入低谷期。

              

市場中的鴻溝

大數據營銷模型將經歷創新者、早期採用者、早期大衆、後期大衆和落後者等5個階段。這5個階段之間存在着4條裂縫,當中最大、最危急的裂縫存在於早期市場與主流市場之間,咱們稱之爲「鴻溝」。

大數據的主流市場來源於有用主義的早期大衆和保守主義的後期大衆,二者各自佔領大數據市場1/3的份額。這兩個羣組的共同特徵是均具有良好的信息技術基礎和深厚的大數據積累,並深諳大數據的社會價值和經濟價值。有所不一樣的是,前者但願看到成熟的解決方式和成功的應用案例,它們大可能是金融、能源、電信等公共服務部門。然後者需要有更安全可靠的大數據保障和普遍的社會應用基礎,它們大可能是致力於解決環境、能源和健康等社會問題的公共管理部門。

大數據技術和應用得到創新者的追捧是顯而易見的,得到早期市場的擁護也是垂手可得的。但是,不因「時髦」而增長,不因「過期」而退出,才幹成爲大數據主流市場的掘金者。遺憾的是,很多企業也許會成爲「鴻溝中的犧牲者」,而無緣迎接大數據真正應用市場的到來。

規劃整體產品

現代營銷奠定人之——西奧多·萊維特給出了「整體產品」的概念。依據這一律念,大數據產品應該包含做爲「核心吸引物」的通常產品、知足0基礎心理需求的指望產品和實現更高階參與以及自我實現的延伸產品和潛在產品4個部分。


3、 大數據挑戰性問題

現有的數據中心技術很是難知足大數據的需求,需要考慮對整個IT架構進行革命性的重構。而存儲能力的增加遠遠趕不上數據的增加,所以設計最合理的分層存儲架構已成爲IT系統的關鍵。數據的移動已成爲IT系統最大的開銷,眼下傳送大數據最高效也是最有用的方式是經過飛機或地面交通工具運送磁盤而不是網絡通訊。在大數據時代,IT系統需要從數據圍着處理器轉改變爲處理能力圍着數據轉,將計算推送給數據,而不是將數據推送給計算。應對處理大數據的各類技術挑戰中,下面幾個問題值得重視:

一、大數據對科學規範的挑戰

大數據帶來了新的科研範式

科研第四範式是思惟方式的大變化,已故圖靈獎得主吉姆格雷提出的數據密集型科研「第四範式」,將大數據科研從第三範式中分離出來單獨做爲一種科研範式,是因爲其研究方式不一樣於基於數據模型的傳統研究方式。PB級數據使咱們可以作到沒有模型和若是就可以分析數據。將數據丟進巨大的計算機機羣中,僅僅要有相關關係的數據,統計分析算法可以發現過去的科學方法發現不了的新模式、新知識甚至新規律。

大數據怎樣應用於開放的研究

大數據基於對海量數據的分析產生價值,那麼怎樣得到海量數據來讓大數據真正落地呢?這當中最不可或缺的一個環節就是數據開放。現在推動數據開放更爲重要的是經過數據的共享來產生不少其它的價值。數據開放能夠提升社會執行效率,積極整合各方公開的數據,創建基於大數據的城市規劃來緩解交通和社會治安問題。  數據開放能夠激發巨大的商業價值,數據開放是面向社會大衆的開放,不論什麼人僅僅要有能力均可以用它來創造新的商機。

增強數據開放,爲大數據發展打牢基礎。在大數據應用日益重要的今天,數據資源的開放共享已經成爲在數據大戰中保持優點的關鍵。促進商業數據和我的數據的開放與共享。商業數據和我的數據的共享應用,不只能促進相關產業的飛速發展,產生巨大的經濟價值,也能給咱們的生活帶來巨大的便利。經常網購的人會有這樣一種體驗。很是多電商站點能夠在咱們買書的時候,推薦咱們恰好喜歡的其它書籍,這正是站點依據成千上萬甚至上億人的我的數據的統計分析而得出的,但是咱們也感覺到了這樣強大的數據分析能力對咱們「隱私權」的衝擊。所以,無缺我的隱私保護等相關立法,對哪些我的數據能夠進行商業化應用、應用範圍怎樣界定、數據濫用應承擔哪些責任等詳細問題作出規範,從而保證數據開放工做穩步推動,爲大數據發展應用打好根基。

重現大數據研究結果

數據量的增大,會帶來規律的喪失和嚴重失真。維克托·邁爾-舍恩伯格在其著做《大數據的時代》中也指出「數據量的大幅添加會形成結果的不許確,一些錯誤的數據會混進數據庫,」此外,大數據的另一層定義,多樣性,即來源不一樣的各類信息混雜在一塊兒會加大數據的混亂程度,統計學者和計算機科學家指出,巨量數據集和細顆粒度的測量會致使出現「錯誤發現」的風險添加。大數據意味着不少其它的信息,但同一時候也意味着不少其它的虛假關係信息,海量數據帶來顯著性檢驗的問題,將使咱們很是難找到真正的關聯。

咱們以一個實際的案例來看一下樣本量不斷增大以後,會出現的問題:


上表是關於某年網絡遊戲歷程擴散的迴歸分析,當樣本量是5241個的時候,你會發現用一個簡單的線性迴歸擬合這個數據,年齡、文化程度、收入這三個變量顯著,當咱們把樣本量添加到10482個的時候,發現獨生子女和女性開始顯著,添加到20964個的時候,體制外這個變量也開始顯著,當樣本添加到33萬的時候,所有變量都具備顯著性,這意味着世間萬物都是有聯繫的。樣本大到必定程度的時候,很是多結果天然就會變得顯著,會沒法進行推論,或者得出虛假的統計學關係。此外,斷裂數據、缺失數據(下文將會進行分析)的存在將會使這樣的虛假關係隨着數據量的增加而增加,咱們將很是難再接觸到真相。

其實,真實的規律是這種:


 

對一個社會現象進行客觀深入準確的分析,對事物的理解需要數據,但更需要分析思惟,在大數據時代,理論並非不重要,而是變得更加劇要。咱們所指的理論也並非僵化一成不變的固守舊有理論,而是在處理問題的過程當中意識到海量數據所帶來的複雜性,堅持分析方法和理論的不斷創新。

大數據研究結果可信與否

《大數據時代》一書的做者維克托·邁爾-舍恩伯格說,大數據的核心就是預測。它一般被視爲人工智能的一部分,或者更確切地說,被視爲一種機器學習。他以爲,大數據大大解放了人們的分析能力。一是可以分析不少其它的數據,甚至是相關的所有數據,而再也不依賴於隨機抽樣;二是研究數據如此之多,以致於咱們再也不熱衷於追求準確度;三是沒必要拘泥於對因果關係的探究,而可以在相關關係中發現大數據的潛在價值。所以,當人們可以放棄尋找因果關係的傳統偏好,開始挖掘相關關係的優勢時,一個用數據預測的時代纔會到來。

不能否認,大數據標誌着人類在尋求量化和認識世界的道路上前進了一步。這是計算技術的進步,是人類決策工具的進步。改編自邁克爾·劉易斯的《魔球:逆境中制勝的智慧》的影片《點球成金》,講述了一個真實的故事,介紹了奧克蘭運動家棒球隊總經理比利·比恩的經營哲學,描寫敘述了他拋棄幾百年延續的選擇球員的慣常作法,採用了一種依靠電腦程序和數學模型分析比賽數據來選擇球員的方法。比利·比恩的成功稱得上是對球探們經驗決策的顛覆,是讓數聽說話的成功範例。正如維克托·邁爾-舍恩伯格將大數據視爲人工智能的一部分,視爲機器學習的一種應用同樣,數據決策和數據旁證的博弈事實上是人和機器的博弈。即使是有一將難求的數據科學家的協助,大數據決策依舊是輔助系統。

在這一階段,雲計算是基礎設施,大數據是服務工具,二者將知足特定語境下的、短線的市場需求,更重要的是它們還能發揮其在非特定語境下破解社會難題的價值。換言之,大數據將演繹「信息轉化爲數據,數據集聚成知識,知識涌現出智慧」的進程。

 

二、大數據帶來的社會問題

在基於社交媒體和數字化記憶的大數據時代,人們不只操心無處不在的「第三僅僅眼」,而且操心隱私被二次利用。因爲,亞馬遜監視着咱們的購物習慣,谷歌監視着咱們的網頁瀏覽習慣,微博彷佛什麼都知道,包含咱們的社交關係網……可怕的不是這些隱私數據,而是大數據的全數據分析、模糊計算和重關聯卻不求因果的特性,讓隱私數據與社交網絡等關聯起來。依照維克托·邁爾-舍恩伯格的說法,危急再也不是隱私的泄漏,而是被預知的可能性——這些能夠預測咱們可能生病、拖欠還款和犯罪的算法會讓咱們沒法購買保險,沒法貸款,甚至實施犯罪前就被預先逮捕。

無論怎樣,大數據正在推進產權認知和結構的變革,以往IT產業鏈的主宰者或將在變革中遭遇衝擊。大數據的魅力在於它可讓企業在無邊界的數據海洋裏遨遊,發現社會進步的內在韻律,捕捉社會發展的先行參數。比方從消費者興趣圖譜中萃取研發創新智慧,而不侷限於產品關聯性分析;比方對企業內外部利益相關者羣體智慧的發掘,開展企業和產業的健康診斷,而不侷限於短效的精益管理;比方對地震等天然災害的預警,構架社會應急機制……

 

三、大數據帶來的技術挑戰

抽樣分析+全數據驗證的分析思路

添加樣本easy,減小算法複雜度難。維克托·邁爾·舍恩伯格在介紹大數據時代的數據分析思惟轉變時提到過三個觀點,當中之中的一個是:分析所有的數據,而再也不只依靠一小部分數據。全數據一時甚囂塵上,企業、研究者覺得大數據就是全數據,以致於再談抽樣都彷佛帶有保守主義色彩,這樣的見解無疑是對大數據和抽樣兩者都存在偏見和不足,假設以爲大數據就是收集所有樣本的信息,讓數據本身說話,那麼在方法論上就是狹隘的。

這裏也涉及了全數據的第二個問題全(暫且假定咱們經過人們在谷歌上輸入搜索條目就找到了真正意義上的全:谷歌利用搜索記錄而預測到流感爆發的案例被廣爲引用以說明數據自會說話,當人們開始在網上搜索關於感冒的詞彙代表他感染了流感,創建流感與空間、病毒的關係,能夠成功的預測一場流感)數據確實能看到變化,經過變化做出「預測」,但沒法解釋變化的影響因素,維克托·邁爾·舍恩伯格對此的回答是:咱們要相關性,不要因果關係。這並非是這位做者有選擇的選擇,而是放棄抽樣而直接採用大數據的一定。

《文學文摘》依靠紙媒時代巨大的發行量得到240萬民衆的數據,而蓋洛普僅在嚴格抽樣基礎上研究了5000人,是「小數據」的複雜算法超過「大數據」的簡單算法的真實案例。

沒有抽樣的擬合,直接面對大數據,將使咱們失去對人的瞭解,對真實規律的追尋,畢竟不是所有的社會事實都一場流感同樣易於預測,何況即使是谷歌被廣爲讚譽的流感預測案例也被以爲存在問題:在與傳統的流感監測數據比較以後,依據互聯網流感搜索實時更新的Google流感趨勢被發現明顯高估了流感峯值水平。科學家指出基於搜索有太多的噪音影響了它的準確度這代表基於社交網絡數據挖掘的流感跟蹤將不是替代而僅僅能補充傳統的流行病監測網絡。他們正在開發噪音較少的替代跟蹤方法,好比基於Twitter的流感跟蹤僅僅包括真正病人的帖子,而不是轉載的流感新聞報道。

 

分析理解大數據——盲人摸象

數據是企業最重要的資產,而且隨着數據產業的發展,將會變得更有價值。但封閉的數據環境會阻礙數據價值的實現,對企業應用和研究發現來說都是如此,所以咱們需要合理的機制在保護數據安全的狀況下開放數據,使數據獲得充分利用。有效的解決的方法之中的一個是公正的第三方數據分析公司、研究機構做爲中間商收集數據、分析數據,在數據層面打破現實世界的界限,進行多家公司的數據共享而不是一家公司盲人摸象,這才幹實現真正意義上的大數據,賦予數據更廣闊全面的分析空間,纔會對產業結構和數據分析自己產生思惟轉變和有意義的變革。

 

四、大數據管理的挑戰

每一種非結構化數據都可被視爲大數據。這包含在社交站點上的數據、在線金融交易數據、公司記錄、氣象監測數據、衛星數據和其它監控、研究和開發數據。大數據存儲與管理要用存儲器把採集到的數據存儲起來,創建對應的數據庫,並進行管理和調用。重點解決複雜結構化、半結構化和非結構化大數據管理與處理技術。主要解決大數據的可存儲、可表示、可處理、可靠性及有效傳輸等幾個關鍵問題。開發可靠的分佈式文件系統(DFS)、能效優化的存儲、計算融入存儲、大數據的去冗餘及高效低成本的大數據存儲技術;突破分佈式非關係型大數據管理與處理技術,異構數據的數據融合技術,數據組織技術,研究大數據建模技術;突破大數據索引技術;突破大數據移動、備份、複製等技術;開發大數據可視化技術。 

經過隔離管理大數據存儲

假設有多個存儲箱,那麼將數據庫、線交易處理(OLTP)和微軟Exchange應用到特定的存儲系統是個不錯的選擇。其餘存儲系統則用於大數據應用如門戶站點,在線流媒體應用等。

假設沒有存儲系統,將特定的前端存儲port到數據庫,OLTP等等;致力於大數據應用到其它port。背後的基本原理是使用專用port,而大數據流量是以千字節或兆字節衡量,OLTP應用流量是以每秒的輸入/輸出操做(IOPS)衡量,因爲數據塊的大小是比大數據更大而比OLTP應用程序更小。OLTP應用程序是CPU密集型的,而大數據應用程序不少其它的使用前端port。所以,不少其它的port可以專一於大數據應用。

專業的大數據存儲管理

兼容數據管理的存儲系統。如EMCIsilon的集羣存儲系統對於大數據存儲管理是一個更好的選擇,因爲在一個單一的文件系統中大數據能增加到多字節的數據。

大數據分析

除了存儲,大數據管理的還有一項大的挑戰是數據分析。通常的數據分析應用程序沒法很是好的處理大數據,畢竟涉及到大量的數據。採用專門針對大數據的管理和分析的工具,這些應用程序執行在集羣存儲系統上,緩解大數據的管理。管理大數據的還有一個需要重點考慮的是將來的數據增加。你的大數據存儲管理系統應該是可擴展的,足以知足將來的存儲需求。

大數據的存儲管理和雲計算

眼下正在尋找雲計算服務來進行存儲和管理海量數據。而選擇雲服務來大型數據存儲管理,可以確保數據的所有權。有權選擇將數據移入或移出雲服務,而不被供應商鎖定。

 

五、大數據挖掘挑戰

面臨的挑戰

(1)大數據集的挑戰

例如如下圖爲數據到知識的演化過程示意圖:


缺乏大數據複雜度冗餘度的度量方法

缺乏確保近似算法精度分析方法

缺乏依據分佈知識對大數據進行抽樣的方法

(2)數據複雜性挑戰

挖掘將會很是大程度地提升數據分析的性能和靈活性。源於數據倉庫的數 據立方體計算技術和OLAP(在線分析處理)技術極大地提升了大型數據庫多維分析的性能。除了傳統的數據立方體技術,最近的研究致力於構建迴歸立方體、預測立方體以及其它的面向統計的複雜數據立方體。這種多維或高維分析工具對分層多維數據的有效分析提供了保證。

(3)數據動態增加的挑戰

 

研究內容

(1)研究分佈式並行計算環境下的大數據大數據分析的基本策略

I.與數據分佈相聯繫的分治策略

II.與算法機理相結合的並行策略

(2)研究複雜度降精度可控的新的大數據分析算法

I.大數據分類、聚類、關聯分析、異常發現等

      (3)大數據分析平臺研發


4、 大數據挖掘的算法

分類和預測是兩種分析數據的方法,它們可用於抽取能夠描寫敘述關鍵數據集合或預測將來數據趨勢的模型。分類方法用於預測數據對象的離散類別;而預測則用於預測數據對象的連續取值。不少分類和預測方法已被機器學習、專家系統、統計學和神經生物學等方麗的研究者提出,當中的大部分算法屬於駐留內存算法,一般假定的數據量很是小,最初的數據挖掘方法大多都是在這些方法及基於內存基礎上所構造的算法。眼下數據挖掘方法都要求,眼下的數據挖掘研究已經在這些工做基礎之上獲得了很是大的改進,開發了具備基於外存以處理大規模數據集合能力的分類和預測技術,這些技術結合了並行和分佈處理的思想。

一、    數據變小——分類算法

分類是找出數據庫中的一組數據對象的共同特色並依照分類模式將其劃分爲不一樣的類,其目的是經過分類模型,將數據庫中的數據項映射到摸個給定的類別中。可以應用到涉及到應用分類、趨勢預測中,如淘寶商鋪將用戶在一段時間內的購買狀況劃分紅不一樣的類,依據狀況向用戶推薦關聯類的商品,從而添加商鋪的銷售量。

空間覆蓋算法-基於球鄰域的空間劃分

 

空間覆蓋算法-仿生模式識別


空間覆蓋算法-視覺分類方法

VCA把數據看做一幅圖像,核心是基於尺度空間理論,選擇合適的尺度使得同類樣本區域融合在一塊兒。


分類超曲面算法HSC

設訓練樣本所在空間爲一封閉維方體區域,將此區域依照必定細分規則劃分紅若干小區域,使每個小區域僅僅包括同一類樣本點,並用樣本點的類別標定該區域,合併相鄰同類區域邊界,得到若干超平面片封閉組成的分類超曲面。輸入新樣本點,依據分類判別定理推斷樣本點所在的類別。

特色:

(1)經過特徵區域細化直接解決非線性分類問題,不需要考慮使用何種函數,不需要升維變換。

(2)通用可操做的分類超曲面構造法,基於分類超曲面的方法經過區域合併計算得到分類超曲面對空間進行劃分

(3)獨特、簡便、易行的分類判別方法,基於分類超曲面的方法是基於Jordan定理的分類推斷算法,使得基於非凸的超曲面的分類判別變得簡便、易行。

 

二、    極小覆蓋子集

覆蓋型分類算法的極小覆蓋子集——對特定的訓練樣本集,若其子樣本集訓練後獲得的分類模型與與原樣本集訓練後獲得的分類模型一樣,則稱子樣本集是原樣本集的一個覆蓋。在一個樣本集的所有覆蓋中,包括樣本個數最少的覆蓋稱爲樣本集的極小覆蓋子集。

(1)計算極小覆蓋子集的基本步驟:

用一個方形區域覆蓋所有樣本點;將該區域劃分紅一系列小區域 (單元格),直到每個小區域內包括的樣本點都屬於同一類別;將落在同一小區域內的樣本點中選擇且僅選擇一個樣本構成極小覆蓋子集。

(2)採樣受限於極小覆蓋子集

全樣本空間一定包括極小覆蓋子集,隨意一個數據集未必包括完整的極小覆蓋子集。大數據環境下,極小覆蓋子集中的樣本不少其它地包括在大數據中,較多的數據可以打敗較好的算法、再多的數據亦不會超過極小覆蓋子集的表明性、再好的提高手段亦不會超過極小覆蓋子集肯定的精度。

 

三、    迴歸分析

迴歸分析反映了數據庫中數據的屬性值的特性,經過函數表達數據映射的關係來發現屬性值之間的依賴關係。它可以應用到對數據序列的預測及相關關係的研究中去。在市場營銷中,迴歸分析可以被應用到各個方面。如經過對本季度銷售的迴歸分析,對下一季度的銷售趨勢做出預測並作出針對性的營銷改變。

四、    聚類

聚類相似於分類,但與分類的目的不一樣,是針對數據的類似性和差別性將一組數據分爲幾個類別。屬於同一類別的數據間的類似性很是大,但不一樣類別之間數據的類似性很是小,跨類的數據關聯性很是低。

五、    關聯規則

關聯規則是隱藏在數據項之間的關聯或相互關係,即可以依據一個數據項的出現推導出其它數據項的出現。關聯規則的挖掘過程主要包含兩個階段:第一階段爲從海量原始數據中找出所有的高頻項目組;第二極端爲從這些高頻項目組產生關聯規則。關聯規則挖掘技術已經被普遍應用於金融行業企業中用以預測客戶的需求,各銀行在本身的ATM 機上經過捆綁客戶可能感興趣的信息供用戶瞭解並獲取對應信息來改善自身的營銷。

六、    神經網絡方法。

神經網絡做爲一種先進的人工智能技術,因其自身自行處理、分佈存儲和高度容錯等特性很是適合處理非線性的以及那些以模糊、不完整、不嚴密的知識或數據爲特徵的處理問題,它的這一特色十分適合解決數據挖掘的問題。典型的神經網絡模型主要分爲三大類:第一類是以用於分類預測和模式識別的前饋式神經網絡模型,其主要表明爲函數型網絡、感知機;第二類是用於聯想記憶和優化算法的反饋式神經網絡模型,以Hopfield 的離散模型和連續模型爲表明。第三類是用於聚類的自組織映射方法,以ART 模型爲表明。儘管神經網絡有多種模型及算法,但在特定領域的數據挖掘中使用何種模型及算法並無統一的規則,而且人們很是難理解網絡的學習及決策過程。

七、    Web數據挖掘

Web數據挖掘是一項綜合性技術,指Web 從文檔結構和使用的集合C 中發現隱含的模式P,假設將C看作是輸入,P 看作是輸出,那麼Web 挖掘過程就可以看作是從輸入到輸出的一個映射過程。


5、 大數據展望與應用

大數據技術可以將隱藏於海量數據中的信息和知識挖掘出來,爲人類的社會經濟活動提供根據,從而提升各個領域的執行效率,大大提升整個社會經濟的集約化程度。根據ESM國際電子商情針大數據應用現狀和趨勢的調查顯示:被調查者最關注的大數據技術中,排在前五位的各自是大數據分析(12.91%)、雲數據庫(11.82%)、Hadoop(11.73%)、內存數據庫(11.64%)以及數據安全(9.21%)。Hadoop已再也不是人們心目中僅有的大數據技術,而大數據分析成爲最被關注的技術。從中可以看出,人們對大數據的瞭解已經逐漸深刻,關注的技術點也愈來愈多。既然大數據分析是最被關注的技術趨勢,那麼大數據分析中的哪項功能是最重要的呢?從下圖可以看出,排在前三位的功能各自是實時分析(21.32%)、豐富的挖掘模型(17.97%)和可視化界面(15.91%)。從調查結果可以看出:在將來一兩年中有迫切部署大數據的需求,並且已經從一開始的基礎設施建設,逐漸發展爲對大數據分析和整體大數據解決方式的需求。

大數據將重點應用於下面幾大大領域:商業智能、政府決策、公共服務等。


行業拓展者,打造大數據行業基石  

IBM:IBM大數據提供的服務包含數據分析,文本分析,藍色雲杉;業務事件處理;IBM Mashup Center的計量,監測,和商業化服務(MMMS)。 IBM的大數據產品組合中的最新系列產品的InfoSphere bigInsights,基於Apache Hadoop。 該產品組合包含:打包的Apache Hadoop的軟件和服務,代號是bigInsights核心,用於開始大數據分析。軟件被稱爲bigsheet,軟件目的是幫助從大量數據中輕鬆、簡單、直觀的提取、批註相關信息爲金融,風險管理,媒體和娛樂等行業量身定作的行業解決方式 微軟:2011年1月與惠普(詳細而言是HP數據庫綜合應用部門) 合做目標是開發了一系列能夠提高生產力和提升決策速度的設備。  

EMC:EMC 斬獲了紐交所和Nasdaq;大數據解決方式已包含40多個產品。 

Oracle:Oracle大數據機與Oracle Exalogic中間件雲server、Oracle Exadata數據庫雲server以及Oracle Exalytics商務智能雲server一塊兒組成了甲骨文最普遍、高度集成化系統產品組合。


大數據促進了政府職能變革 

重視應用大數據技術,盤活各地雲計算中心資產:把原來大規模投資產業園、物聯網產業園從政績project,改形成智慧project;在安防領域,應用大數據技術,提升應急處置能力和安全防範能力;在民生領域,應用大數據技術,提高服務能力和運做效率,以及個性化的服務,比方醫療、衛生、教育等部門;解決在金融,電信領域等中數據分析的問題:一直獲得得極大的重視,但受困於存儲能力和計算能力的限制,僅僅侷限在交易數型數據的統計分析。一方面大數據的應用促進了政府職能變革,還有一方面政府投入將造成示範效應,大大推進大數據的發展。


打造「智慧城市」 

經過收集、處理龐大而複雜的數據信息,從中得到知識和洞見,提高能力,加快科學、project領域的創新步伐,強化安全意識,轉變教育和學習模式。智慧城市是使用智能計算技術使得城市的關鍵基礎設施的組成和服務更智能、互聯和有效,隨着智慧城市的建設,社會將步入「大數據」時代。


將來,改變一切 

將來,企業會依靠洞悉數據中的信息更加了解本身,也更加了解客戶。 數據的再利用:由於在信息價值鏈中的特殊位置,有些公司可能會收集到大量的數據,但他們並不急需使用也不擅長再次利用這些數據。但當它被一些公佈個性化位置廣告服務和促銷活動的公司再次利用時,則變得更有價值。





最後說明:本文僅僅是我彙總整理的一些關於大數據的資料,興許我還會繼續無缺,爲了有需要時翻看查閱,沒有褻瀆大數據的用意。

相關文章
相關標籤/搜索