244 人贊同git
在我讀數據挖掘方向研究生的時候:
若是要描述數據量很是大,咱們用Massive Data(海量數據)
若是要描述數據很是多樣,咱們用Heterogeneous Data(異構數據)
若是要描述數據既多樣,又量大,咱們用Massive Heterogeneous Data(海量異構數據)
……
若是要申請基金忽悠一筆錢,咱們用Big Data(大數據)github
劉知遠,NLPer數據庫
4 人贊同網絡
我以爲 大數據 和 深度學習 同樣,是讓艱深的計算機概念獲得公衆認知和承認的有效嘗試,不管是 「大」字仍是「深度」,都很是形象也很直觀地展現了這些研究課題的挑戰和意義,雖然這些研究課題在相關研究領域早已被探索了幾十年。app
葉開,非參數統計,數據挖掘,R
談談我的看法:
數據挖掘基於數據庫理論,機器學習,人工智能,現代統計學的迅速發展的交叉學科,在不少領域中都有應用。涉及到不少的算法,源於機 器學習的神經網絡,決策樹,也有基於統計學習理論的支持向量機,分類迴歸樹,和關聯分析的諸多算法。數據挖掘的定義是從海量數據中找到有意義的模式或知 識。
大數據是今年提出來,也是媒體忽悠的一個概念。有三個重要的特徵:數據量大,結構複雜,數據更新速度很快。因爲Web技術的發 展,web用戶產生的數據自動保存、傳感器也在不斷收集數據,以及移動互聯網的發展,數據自動收集、存儲的速度在加快,全世界的數據量在不斷膨脹,數據的 存儲和計算超出了單個計算機(小型機和大型機)的能力,這給數據挖掘技術的實施提出了挑戰(通常而言,數據挖掘的實施基於一臺小型機或大型機,也能夠進行 並行計算)。Google提出了分佈式存儲文件系統,發展出後來的雲存儲和雲計算的概念。
大數據須要映射爲小的單元進行計算,再對全部的結果進行整合,就是所謂的map-reduce算法框架。在單個計算機上進行的計算仍然須要採用一些數據挖掘技術,區別是原先的一些數據挖掘技術不必定能方便地嵌入到 map-reduce 框架中,有些算法須要調整。
此外,大數據處理能力的提高也對統計學提出了新的挑戰。統計學理論每每創建在樣本上,而在大數據時代,可能獲得的是整體,而再也不是整體的不放回抽樣。
張偉棋,candidate for datascience master
關於大數據的定義不少,引述 Doug Laney 2001 關於大數據的主流定義。
翻譯易有誤差,下面是英文定義,從容量(Volume),速率(Velocity)和種類(Variety)三個方面來闡述:
Volume. Many factors contribute to the increase in data volume. Transaction-based data stored through the years. Unstructured data streaming in from social media. Increasing amounts of sensor and machine-to-machine data being collected. In the past, excessive data volume was a storage issue. But with decreasing storage costs, other issues emerge, including how to determine relevance within large data volumes and how to use analytics to create value from relevant data.
Velocity. Data is streaming in at unprecedented speed and must be dealt with in a timely manner. RFID tags, sensors and smart metering are driving the need to deal with torrents of data in near-real time. Reacting quickly enough to deal with data velocity is a challenge for most organizations.
Variety. Data today comes in all types of formats. Structured, numeric data in traditional databases. Information created from line-of-business applications. Unstructured text documents, email, video, audio, stock ticker data and financial transactions. Managing, merging and governing different varieties of data is something many organizations still grapple with.
而數據挖掘(Data mining)簡單的說,則是一個從未經處理過的數據中提取信息的過程,重點是找到相關性和模式分析。
大數據和數據挖掘的類似處或者關聯在於: 數據挖掘的將來再也不是針對少許或是樣本化,隨機化的精準數據,而是海量,混雜的大數據。
肖智博,大數據是媒體發明出來騙人的
我仍是一向堅持個人態度:「大數據」是媒體忽悠出來的名詞,這東西是用來騙錢和騙項目的。因此也就回答了你的第一個問題,不是延伸。第二個問題是,沒有類似度。
接下來好好說。若是說硬要說類似度的話,那麼重合度的確是有很高。由於大數據乾的事情其實就是數據挖掘作的事情。
數 據挖掘以前叫KDD(Knowledge Discovery and Data Mining, 或者也能夠是 Knowledge Discovery in Database),這樣說就很好解釋了。數據挖掘就是從海量的數據中發現隱含的知識和規律。那麼說,這個東西是啥時候提出來的?上個世紀。大數據啥時候 提出來的?也就這幾年的事情吧。因此說,大數據很大程度上是數據挖掘的一個好聽的名字。
其實也不能一律否認「大數據」,至少經過媒體的熱 炒,讓不少人知道了「數據」的重要性。只是不少人都不知道怎麼作大數據,由於這個東西原本就是虛的嘛。若是想了解大數據,那麼踏踏實實的作法是學習一下 「數據挖掘」和「機器學習」相關的知識。具體的內容,能夠搜索一下我之前答過的內容。
許方正,想成爲一名***。。。
謝邀,之前關注過一段時間的大數據,不過如今主要糾結社區發現去了,暫時沒用到大數據- -,有什麼不對的地方請指正,不過勿噴。。。咳咳,我以爲我看過的一本書上講的還不錯的,大體介紹一下。
咱們處理許多問題的核心思想在於樣本選取和結果選取:
樣 本選取:從好久之前到如今,咱們獲取數據的能力以及分析數據的能力都是頗有限的,這就致使,不少數據咱們是沒法在咱們須要的時候採集到的,舉一個例子:人 口普查。近代美國要求10年進行一次人口普查,可是隨着人口的增加速度愈來愈快,到後來統計出國家的大體人口都須要13年了。。所以不能採用普查。所以我 們必須使用另外一種經典的方法,並以此方法達到經過獲取少許數據就可以分析大規模問題的目的——抽樣。咱們都知道抽樣調查是有各類各樣的要求和準則,並且合 理性也常常不如人意,可是在以前獲取數據難度很大的前提下(只能親自去看,一個一我的工考察),這種方法的確賦予了咱們處理大規模數據的能力:從裏面徹底 隨機的(咱們都知道這是不可能的)選擇一些正確的(數據徹底正確也是不可能的)數據進行分析。
樣本分析:經過上述介紹的抽樣方式,咱們獲 得了咱們分析問題所須要的數據。咱們如今要開始利用它們,那麼怎麼利用呢?數據能夠是很簡單的,例如長度,溫度,時間,重量等等;也能夠是很複雜的,一本 書,一張圖,一個石頭。之因此說這些數據複雜,是由於它們是由咱們提到的諸如重量長度等等簡單的數據構成的。那麼,若是咱們要分析石頭的話,將會變得很困 難——由於要處理的數據種類實在太多了,各類數據之間還存在這樣那樣的影響。這讓咱們計算能力嚴重不足的祖先們(只有筆和算盤,各類函數和公式都麼有發 明。。)無比的抓狂。。。由於等咱們用簡單粗暴的方式算出來了之後,數據的有效期極可能已通過了(參見前面說的人口普查數據)。所以咱們又發明了一個牛逼 而經典的方法——建模。咱們採用幾個對描述這個對象很關鍵的數據來代替全部的數據,這樣,計算量和計算難度都有客觀的改善。
上面介紹的就是咱們傳統的數據獲取和處理方法,下面就要講一下數據挖掘了。
爲何咱們要挖掘數據,我我的認爲是由於咱們如今獲取數據的難度大大地下降了,因此咱們有了不少不少不少的數據了- -,看着都要吐了。。。是的。。
正是由於看着都要吐了,因此咱們不想看了,咱們想要不用人腦,而讓計算機來幫咱們找到數據的價值,因而咱們就要用數據挖掘方法了,也就是肖智博提出來的:數據挖掘就是從海量的數據中發現隱含的知識和規律。因此數據挖掘的前提和大數據的前提是同樣的,就是海量數據。因此就方法而言,兩者是很相似的。
咱們如今老是提的大數據,我認爲主要是一種思路:
1.不使用抽樣的數據,而採用所有的數據:這裏我指的所有的數據是徹底全部的數據,包括正確的和不正確的數據都要採用。噪聲和錯誤數據一樣包含着有用的信息。
2. 不關心爲何,只關心是什麼:由於咱們有了海量的數據 ,所以咱們經過大數據統計出的結果應該是具備至關程度的普適性的。因此把這種現象-結果拿去套就好了。若是探究和證實因果關係的話,一般是極爲困難的。一 個例子就是經典的啤酒和尿布,從數據中得到這種結果很簡單,把它們放在一塊兒就能增長銷量從而達到沃爾瑪的目的,而去查明緣由則費事的多。
3. 相比數據分析方法而言更注重數據獲取:換一種說法就是數據爲先。由於如今計算機太牛逼了,因此只要咱們想到辦法,它就能替咱們幹相應的活。基於此,咱們要 作的就是獲取更多的,更全面的數據來讓計算機分析。例如國外快遞公司在車上裝傳感器來幫助快遞調度,勞斯萊斯公司在飛機發動機上裝傳感器並經過歷史數據和 實時數據預先預測潛在故障並提早檢修的例子。大數據思惟模式中,數據爲咱們提供最多的可能和最大的價值,因此着重獲取數據。
說了這麼多, 我想說的就是數據挖掘能夠歸納爲:在咱們掌握的數據多了之後,把數據交給計算機分析的方法的集合。而大數據則是跳出咱們的傳統數據分析和處理方法框架的一 種新思惟。一種思惟和一類技術比起來,確實是要虛不少,並且思惟要付諸實現,必然是要以技術爲基礎的。可是正是因爲思惟方式的不一樣,咱們能夠從數據中得到 更多的東西,好比對以前認爲沒有價值的噪聲和錯誤數據的分析,或者對現象的重視而意外發現的一些有意思的結果等等。。
所以,我我的認爲,大數據是咱們在不斷髮展數據挖掘技術的過程當中誕生出來的一種新思惟,這種思惟的實際應用以數據挖掘技術爲基礎,並能夠促進咱們開發出更多的數據挖掘技術。。
看了很多評論說只是忽悠,就好像到如今還有不少人認爲雲計算是虛擬化的同義詞,也是忽悠同樣,實際上是本身還沒真正瞭解其內涵;
就好像雲計算是由於虛擬化技術發展的量變致使質變(雖然虛擬化不是實現雲計算的必要前提);大數據也是一樣的道理是舊技術發展到必定程度致使的新產物,
不少人還停留在大數據就是海量數據的概念(這只是其中一個特徵),網上不少所謂的大數據例子,也體現不出目前大數據的明顯特徵,和以前的數據挖掘顯示不出差異,更加讓部分人覺得大數據就是數據挖掘的別名;
我我的的理解,有若干區別:
1,數據挖掘仍是基於用戶假設了因果,而後進行驗證;而大數據則重點在找出關聯關係,A的變化會影響到B的變化幅度;
2,傳統的方法只是從內部數據庫數據提取,分析數據; 大數據則從更多途徑,採用更多非結構化的數據;
3,處理時間上,傳統的對時間要求不高; 大數據強調的是實時性,數據在線即用;
4,傳統的方式,重點仍是從數據中挖掘出殘值; 而大數據則是從數據中找出新的內容,創新的價值;
...
最大的區別,仍是思惟的不一樣,思考方式的不一樣,致使後面的方法論,工具備很大的區別;
知乎用戶,熱愛Python,Data Debugger,機器學習進…
數據挖掘是一門技術,是學問,更狹義一點就是對一類算法研究的總稱,這些算法的共同特色是從但願從真實世界的數據中識別出有用的pattern,進而獲取新的知識,最終落實到decision making。
大數據,這個概念很是的虛,被賦予了太多的含義,缺少實質的內涵。可是「大」是他們的共性。我更傾向於將其理解爲近年來興起的一系列數據處理工具,其表明就是基於MapReduce的Hadoop。他們大多基於分佈式環境,以可以處理海量數據或者實時性爲賣點。
以山西開礦的煤老闆爲例:
開礦的前提是有礦,包括煤礦的儲藏量,儲藏深度,煤的成色。
以後是挖礦,要把這些埋在地下的礦挖出來,須要挖礦工,挖礦機,運輸機。
以後是加工,洗煤,煉丹,等等。
最後纔是轉化爲銀子。
數據行業十分相似:
挖掘數據的前提是有數據,包括數據的儲藏量,儲藏深度,數據的成色。
以後是數據挖掘,要把這些埋藏的數據挖掘出來。
以後是數據分析輸出,要把這些數據可視化輸出,指導分析、商業實踐。
直到這一步,才創造了價值。
所謂的大數據,大約就是說如今有座正在造成的巨型礦山,快去搶佔成爲煤老闆吧,下一個蓋茨興許將在這裏誕生。
徐曉軼,AI,儒學,https://github.com/andrewxxyi/JXPi
兩回事,大數據是海量數據環境下如何還能保持對某個訪問會話的快速響應。數據挖掘是從大量的歷史信息中總結出有用的知識。這是兩個層次上的事情。
數據挖掘原則上是能夠不須要大數據的,由於它對響應速度並沒有要求,它看重的是挖掘出來的知識的效用。但對於海量數據環境下,若是沒有大數據的相關數據快速供給能力,那麼數據挖掘所消耗的計算資源可能使得其根本沒法完成或成本過高。
周李,屌絲想搞數據挖掘
我的以爲數據挖掘是一門技術,是相對比較狹義上的一個概念。
而大數據更像一個產業,數據挖掘固然是其一個核心技術。可是,大數據與數據挖掘不一樣的是,他還涉及到其餘普遍的技術,其中表明的如可視化技術,數據存儲和管理技術。
大數據不只僅是利用數據挖掘技術從數據中挖掘有用的信息, 他還要採起海量數據,一般要分佈實時處理,最後利用要組織數據挖掘技術獲得的信息,向用戶直觀的展現這些信息~
我對這個問題表示卻是沒有什麼特別的見解,只是在此回憶一些我老闆的話。
一、(大二的時候實驗室大老闆給上數據庫的課,在課上發表過一些關於大數據的見解,大意是:)其實大數據並非什麼新鮮的概念,很早就有了。只是最近幾年又有人冷飯熱炒把它翻出來,也就是在炒做。炒做好了就能夠向國家彙報,申請什麼天然科學基金什麼。
二、 (這一段是實驗室內部大老闆作的一個內部報告,只把最不重要的而且在其餘場合講過的一些拿出來)大數據其實並無一個特別明確的定義,多大的數據算大數 據?這個並無一個統一的標準。20年前,幾百兆的數據咱們看起來就很大;幾年前咱們以爲幾個GB的數據算大數據;如今咱們以爲幾個TB的數據才能叫大數 據。大數據這個標準是在計算機計算能力發展的狀況下不斷變化的。(老闆在報告裏給出過一個我以爲比較靠譜的定義,可是不知道有沒有發表)
三、對於 題主的問題【大數據是否是數據挖掘的延伸?二者的類似度有多少?】,我以爲二者並無什麼關係。大數據帶來的問題是由於愈來愈多的數據產生出來而天然引起 的一系列的在包括數據庫系統、計算方法等基礎問題上現有工具沒法有效處理的問題;而數據挖掘則是在數據基礎上進行知識發現的過程。這二者並不存在明顯的誰 是誰的延伸的問題,也並無多少類似的地方。
硬要說二者有何關係的話,能夠看看下面。
大數據帶來的挑戰主要是如今基礎技術沒法滿 足需求。好比傳統上咱們以爲一個亞線性時間算法不錯,但是拿到大數據上,亞線性時間也不行了,這就是數據量的增加對於整個計算機科學界提出的挑戰,你說你 有一個O(log(n))的算法,那放到大數據身上也是無論用的(指的是不能分佈計算的場景,能分佈計算的話只要多搞幾臺機器(像MapReduce那 樣),分散開來變成「小數據」以後也就不叫大數據了)。由此給數據挖掘帶來的問題就是不少數據挖掘算法即便在傳統概念上的時間複雜度很低,如今也不能知足 要求了。
【以上】
先說說我對大數據的理解。我覺得大數據有2層意思:首先是萬物皆可數據化。數據化不等於數字化,數據化指的是將對象量化成可分析的數據,能夠是結構化的,也能夠是非結構化的。援引來自2013年4月19號《東方早報》的文章《比你更瞭解你——大數據時代的汽車生活》中的一段:
再來講一個例子,你可能永遠也想不到你開車時的坐姿能夠防止汽車被盜,這聽起來簡直難以想象,但這就是現實存在的事,日本某工業研究所經過在汽車座椅下安 裝360個壓力傳感器來測量人對座椅各部分施加壓力的方式,而且經過0-256個數值範圍進行量化,這樣,每一個乘坐者都將產生一份專屬的數據資料,這個系 統能夠根據人對座位的壓力差別識別出乘坐者的身份,準確率高達98%,這項技術做爲汽車防盜系統裝在車上時,汽車就會知道駕駛者是否是車主,若是不是,汽 車就會自動熄火,另外也能夠根據坐姿數據來判斷司機是否正處於疲勞駕駛,系統能夠經過自動減速或剎車來控制可能帶來的危險。
我舉這個例子是想說明藉助今天的技術和數學統計知識,之前不能量化描述的東西今天已經能夠在計算機上分析和表達,即數據化。
第二層意思是大數據的「樣本即整體」。這個觀點來自於舍恩伯格的《大數據時代》。之前的定量調查和分析的數據,受限於技術、資金等條件,老是從總體中抽取一部分樣本,針對這些樣本進行調查。可是大數據不同,大數據分析的數據是總體。
總之,大數據是一種思惟方式。
然而回到數據挖掘這個關鍵詞上來。以前的回答已經很清楚地解釋了數據挖掘,以及與大數據之間的不一樣。我想強調的一點是:大數據的獨特魅力在於新穎而又具備實際意義的數據挖掘,如經典的」啤酒與尿布「的案例。
匿名用戶
數據挖掘=大數據+機器學習
今天開會老闆對大數據的總結十分精彩:大數據就像「teenage-sex」,全部人都在談論這個,全部人都覺得別人在作這個,因此全部人都聲稱本身也在作這個。。。
--------------------------------------------------------------------------------------------------------------------
在我看來大數據是一種屬性,而數據挖掘是方法,或者說是方法的集合。
我 認爲數據挖掘就是指從單純無序雜亂的數據裏面提取出有用的信息,首先要規範化數據,而後根據想要回答的問題選擇相應的方法,能夠創建模型預測將來,也能夠 對當前數據聚類等等。也能夠是單純的從數據中找尋規律,並不必定要回答特定的問題。因此我以爲用excel做pivot table也是一種數據挖掘。
而 大數據就是指數據的特性,顧名思義就是大。海量數據會形成不少問題,首先計算量就是一個問題,最簡單的我的電腦的內存在數據量達到百萬行的時候基本上就捉 襟見肘了,讀入就成問題,更談不上計算了,固然計算速度就是附帶的問題。而後就是選擇的問題了,以往都是數據量太少,要預測一個量巴不得把能收集到的其餘 量都用上,如今是數據量太大,想象一下1000多個不一樣的量預測一個量的模型你能信任嗎,即便真的相信了這樣的模型,要很難利用這樣的模型給出合適的建 議。第三個大數據特色就是實時更新,由於天天均可以產生大量數據,昨天的模型須要用今天的模型驗證,而後修正,這就是一個不斷更正的過程。
我不以爲大數據全是炒做出來的噱頭,什麼都數字化的今天,數據的處理方法上仍是有一些特別的地方的。不過數據仍是數據,處理的核心仍是不會變的。
新手一枚,簡單述說一下個人觀點,大數據和數據挖掘的關係
1.首先,數據挖掘是一種工具,而且由來已久,不是什麼新鮮東西;而大數據是新近幾年纔出現的概念,主要強調了全景數據,全量數據,其中大部分是非結構化數據或半結構化數據(咱們通常說的數據基本上都是結構化數據)
2.其次,數據挖掘屬於數據分析的一個工具,而數據分析是探索大數據規律的方法,由此可知,某種程度上能夠說數據挖掘是大數據分析的一個工具。
而且從維基百科上咱們能夠發現
數據挖掘有如下這些不一樣的定義:
「從數據中提取出隱含的過去未知的有價值的潛在信息」
「一門從大量數據或者數據庫中提取有用信息的科學。」
說 到數據挖掘,應該說說知識發現(KDD), 數據挖掘與KDD的關係是:KDD是從數據中辨別有效的、新穎的、潛在有用的、最終可理解的模式的過程;而數據挖掘是KDD經過特定的算法在可接受的計算 效率限制內生成特定模式的一個步驟。現在的各類文獻資料中,這兩個術語常常不加區分的使用,數據挖掘(DM)=知識發現(KDD),而且商業領域通常說數 據挖掘,而學術領域就說KDD。
大數據指的是所涉及的數據量規模巨大到沒法經過人工,在合理時間內達到截取、管理、處理、並整理成爲人類所能解讀的信息,數據挖掘(data mining)則是在探討用以解析大數據的方法。
3.舉例說明,Google 流感趨勢
咱們發現,某些搜索字詞很是有助於瞭解流感疫情。Google 流感趨勢會根據彙總的 Google 搜索數據,近乎實時地對全球當前的流感疫情進行估測。
【全 球每星期會有數以百萬計的用戶在網上搜索健康信息。正如您所預料的那樣,在流感季節,與流感有關的搜索會明顯增多;到了過敏季節,與過敏有關的搜索會顯著 上升;而到了夏季,與曬傷有關的搜索又會大幅增長。全部這些現象都可經過 Google 搜索解析進行研究。 可是,搜索查詢趨勢可否爲實際現象創建一個準確可靠的模式而提供依據呢?
咱們發現,搜索流感相關主題的人數與實際患有流感症狀的人數之間存 在着密切的關係。固然,並不是每一個搜索「流感」的人都真的患有流感,但當咱們將與流感有關的搜索查詢彙總到一塊兒時,即可以找到一種模式。咱們將本身統計的查 詢數量與傳統流感監測系統的數據進行了對比,結果發現許多搜索查詢在流感季節確實會明顯增多。經過對這些搜索查詢的出現次數進行統計,咱們即可以估測出世 界上不一樣國家和地區的流感傳播狀況。】本文已經發表在美國《天然》雜誌上http://static.googleusercontent.com/media/research.google.com/zh-CN//archive/papers/detecting-influenza-epidemics.pdf
(1)這個簡單的例子說明,谷歌利用計算機數據挖掘相關工具挖掘搜索引擎的記錄(所有流感記錄),找出數據背後的規律,即流感趨勢,這裏流感記錄就是全量數據,不是隨機抽樣的,這是區別於以前(2010年以前)的數據分析的最大區別。
(2) 理想中大數據主要是非結構化或半結構化數據,而這裏谷歌的記錄數據仍然是結構化數據,所以大數據是一個處在不斷髮展、更新的概念,固然數據挖掘工具也處在 不斷升級完善中,理想中的數據挖掘工具應該能夠處理全量數據、即時數據、多類型數據、·····總之,大數據和數據挖掘都在不斷變化發展中,咱們常人都是 根據歷史數據來理解大數據和數據挖掘,固然有一個萬變不離其宗的東西就是基於應用統計學的分析方法。
以上就是鄙人的愚見,但願你們能夠多加討論,集思廣益來理解大數據和數據挖掘
何棟棟,哼哼哈嘿
簡單來講,數據挖掘應該比大數據出現得早。人們在進行生產(商業也算哦)的過程當中會發現有一些數據,這些數據伴隨着生產過程產生,必然包含着一些規律,人 們就想用一些方法把枯燥數據裏的祕密挖掘出來,因而動用統計啊計算啊機器學習之類的方法(方法不重要,能挖出祕密重要),把這個過程叫作數據挖掘;而大數 據,只是泛泛而談罷了,大體指的是海量數據,是個大概念,不具體。
地主,地主老爺
大數據能夠理解爲一個技術手段、平臺、工具或者是一種思想
而數據挖掘是工做目標,在沒有大數據概念以前,數據挖掘能夠用關係型數據庫、分析型數據庫等等,如今只不過多了一個選擇,並且是一個很好用的技術手段。
楊學晨,我在故我知乎
挖掘——明顯的低端體力勞動,不值一提
大(海量)——絕對的高精尖科技,不明覺厲
一樣的啤酒,一樣的尿布,碼農寫下了樸素的本質,資本家吹出了高大上的藍圖。
媒體與大衆的視角
從 媒體的宣傳來看,徹底是借用了「大數據」這一名詞向大衆灌輸了「數據挖掘」在商業活動和社會生活中的潛藏的巨大做用。不管是早已威名遠播的「啤酒與尿 布」,仍是新鮮出爐的「紙牌屋」,無不是對數據挖掘的商業價值的完美詮釋。正如開篇所言,「大數據」無疑比「數據挖掘」更具備吸引眼球的潛質。對於普通大 衆而言,讓他們知道海量數據如何存儲和處理並不重要,重要的是告訴他們數據的背後存在着價值。因而乎,「大數據」成爲了「數據挖掘」的代名詞,經過媒體狂 轟濫炸地宣傳成功上位,成爲某些利益集團用於概念炒做的工具。
專業的視角
正如 @張偉棋 引用的定義所言,大數據概念強調了在對於具備數據容量大、產生速度快、數據類型雜的特色的數據的處理,包含了與之相關的存儲、計算等方面的技術。數據挖掘 的發展過程當中,不斷追求着從更多來源得到更大數據量並進行更高效地分析,以期得到更全面、更準確、更及時的結果。我認爲,大數據概念的提出是數據挖掘技術 發展和應用帶來的必然結果,是對數據挖掘發展中遇到的海量數據相關問題的提煉和總結,並由此造成的對立的相關概念。
旺仔面,諮詢顧問,業餘攝影師
簡單粗暴地講,大數據是海洋,大數據中的信息則是魚,而「數據挖掘」就是捕魚的網。若是把 「大數據」 狹義地理解爲一類數據源,那麼,「數據挖掘」 就是用來駕馭 「大數據」 的重要手段之一。
因爲大數據是一類複雜的、不友好的數據源,用傳統的方法每每難以駕馭,爲了可以有效利用大數據,人們就逐漸發明出一套系統的方法工具,來對大數據進行收集、存儲、抽取、轉化、加載、清洗、分析、挖掘和應用,而 「數據挖掘 Data mining」 就是對各類挖掘工具方法的統稱。
須要注意的是,大數據源一般不能直接進行數據挖掘,還須要耗費大量工做量進行預處理。固然,完成了數據挖掘尚未結束,還須要對挖掘結果進行業務應用,才能創造價值。就比如有一座鐵礦山,得先從礦山中開採出品質達標的鐵礦石(預處理過程,數據清洗、集成、變換和規約),才能送到鍊鋼廠冶煉爲鋼材(挖掘過程),最終鋼材還要用到建築工地上(應用過程)。
-- -- -- -- -- -- -- -- -- -- 首先來看什麼是「大數據」 -- -- -- -- -- -- -- -- -- --
1.大數據是具有3V特徵(Volume 大致量、Variety 複雜多樣、Velocity 高速時效)的數據源。大衆很容易理解 Volume,互聯網公司、運營商和金融機構的數據量動輒以TB計,卻每每會忽視 Variety 和 Velocity。
Variety 是指大數據來源豐富、形態多樣,常見的大數據就包括電商用戶數據、文本數據、社交網絡數據、車載信息服務數據、時間和位置數據、RFID數據、智能電網數據、設備傳感器數據等等。
Velocity 是指大數據一邊高速海量生成,同時數據的分析和應用也實時完成,好比,網絡廣告程序化購買、互聯網金融實時授信,都涉及到實時處理海量數據的技術。
2. 大數據也是一個相對的概念,目前的「小數據」,曾經也是「大數據」。好比ERP、CRM裏導出的數據,如今用excel就能輕鬆駕馭,但在幾十年前,放在當時的技術條件下,這樣的數據又未嘗不是大致量、多樣、高速的 "大數據"。目前的「大數據」,隨着技術發展,將來也會成爲可以輕鬆駕馭的「小數據」。
3. 大數據一般都是機器自動生成的,例如物聯網中傳感器自動生成環境數據。而傳統數據的生成每每涉及人工因素,例如零售交易、電話呼叫等等。
4. 大數據每每不是 「結構化」 的,所以難以駕馭。收集傳統數據源的交易系統一般會以整潔的、預先規範好的模板方式來生成數據,以確保數據容易被加載和使用。而大數據源在最開始一般不會被嚴格地定義,而是去收集全部可能使用到的信息。
常見的財務報表就是典型的 「結構化」 數據,表頭明確了數據的類別、科目,整潔規範。
網絡日誌則是「半結構化」數據的表明,看起來亂七八糟,徹底談不上整潔規範,但其中每一條信息卻都有特定用處。
而文本,諸如博客文章、論壇評論則是 「非結構化」 數據,必須耗費大量精力進行轉化和清洗,才能進行分析和利用。
5. 不少數據可能就是垃圾,並不蘊含大量價值。事實上,大部分數據甚至毫無價值。一篇網頁日誌中會含有很是重要的數據,但其中也包含了不少根本沒有價值的數據。對其進行提煉,從而保留有價值的部分是很是必要的。
-- -- -- -- -- -- -- -- -- -- 再來看什麼是「數據挖掘」 -- -- -- -- -- -- -- -- -- --
既然大數據一般是 「大致量、發雜多樣、高速實時」,並且不是 「結構化」 的,這就引出一個問題,如何駕馭大數據?
前面提到,人們發明出包括數據收集、存儲、抽取、轉化、加載、清洗、分析、挖掘和應用的方法用以駕馭大數據,而 「數據挖掘 Data mining」 就是對各類挖掘工具方法的統稱。
要理解 「數據挖掘」 ,能夠和 「數據分析」 作個簡單比較
數據分析的分析目標每每比較明確,分析條件也比較清楚,基本上就是採用統計方法,對數據進行多維度地描述;
數據挖掘的目標卻不是很清晰,要依靠挖掘算法來找出隱藏在大量數據中的規律和模式,也就是從數據中提取出隱含的、未知的有價值的信息。
在實踐中,數據挖掘通常劃分爲 「分類」、「聚類」、「關聯」 和 「序列」 等幾大常見問題,針對每一類問題,又有專門的挖掘算法來處理。例如,用戶流失預警模型、促銷活動響應模型都用於預測用戶某個行爲的發生機率,屬於 「分類」 問題,能夠用決策樹算法、邏輯迴歸算法、多元線性迴歸、神經網絡算法來處理。
想了解大數據的朋友能夠看看《駕馭大數據》(Bill Franks 著、黃海譯、人民郵電出版社),是入門書籍裏比較系統的,很適合幫助本身對大數據造成一個基本認知框架。