我也想了解數據挖掘

我也想了解數據挖掘算法

機器學習和數據挖掘這一行業確實很吸引人,我也正在努力學習這一方面的知識,但願能夠做爲我從此的工做方向。本人就讀於一所普通211大學,老實講,這一方面的知識就別期望學校裏的老師給咱們講了,想一想有點掛鉤的就屬大一的機率論了吧。數據庫

數據挖掘是一行業,機器學習是一方法,咱們用機器的學習算法來處理數據的挖掘。因此做爲弱菜的我以爲(僅表明我的觀點),機器學習和數據挖掘雖有本質區別,可是在不少時候是相互融合分不開的。api

本文內容摘自伯樂在線,旨在分享給熱愛數據挖掘和機器學習的童鞋們,一塊兒努力,一塊兒拼!安全

1763 年,Thomas Bayes 的論文在他死後發表,他所提出的 Bayes 理論將當前機率與先驗機率聯繫起來。由於 Bayes 理論可以幫助理解基於機率估計的複雜現況,因此它成爲了數據挖掘和機率論的基礎。網絡

1805 , Adrien-Marie Legendre 和 Carl Friedrich Gauss 使用迴歸肯定了天體(彗星和行星)繞行太陽的軌道。迴歸分析的目標是估計變量之間的關係,在這個例子中採用的方法是最小二乘法。自此,迴歸成爲數據挖掘的重要工具之一。機器學習

1936 ,計算機時代即將到來,它讓海量數據的收集和處理成爲可能。在1936年發表的論文《論可計算數(On Computable Numbers)》中,Alan Turing 介紹了通用機(通用圖靈機)的構想,通用機具備像今天的計算機通常的計算能力。現代計算機就是在圖靈這一開創性概念上創建起來的。ide

1943 年,Warren McCullon 和 Walter Pitts 首先構建出神經網絡的概念模型。在名爲 《A logical calculus of the ideas immanent in nervous activity》 的論文中,他們闡述了網絡中神經元的概念。每個神經元能夠作三件事情:接受輸入,處理輸入和生成輸出。函數

1965 年,Lawrence J. Fogel 成立了一個新的公司,名爲 Decision Science, Inc,目的是對進化規劃進行應用。這是第一家專門將進化計算應用於解決現實世界問題的公司。工具

上世紀 70 年代,隨着數據庫管理系統趨於成熟,存儲和查詢百萬兆字節甚至千萬億字節成爲可能。並且,數據倉庫容許用戶從面向事物處理的思惟方式向更注重數據分析的方式進行轉變。然而,從這些多維模型的數據倉庫中提取複雜深度信息的能力是很是有限的。性能

1975 ,John Henry Holland 所著的《天然與人工系統中的適應》問世,成爲遺傳算法領域具備開創意義的著做。這本書講解了遺傳算法領域中的基本知識,闡述理論基礎,探索其應用。

到了 80 年代,HNC 對「數據挖掘」這個短語註冊了商標。註冊這個商標的目的是爲了保護名爲「數據挖掘工做站」的產品的知識產權。該工做站是一種構建神經網絡模型的通用工具,不過如今早已銷聲匿跡。也正是在這個時期,出現了一些成熟的算法,可以「學習」數據間關係,相關領域的專家可以從中推測出各類數據關係的實際意義。

1989 年,術語「數據庫中的知識發現」(KDD)被Gregory Piatetsky-Shapiro 提出。一樣這個時期,他合做創建起第一個一樣名爲KDD的研討會。

到了 90 年代,「數據挖掘」這個術語出如今數據庫社區。零售公司和金融團體使用數據挖掘分析數據和觀察趨勢以擴大客源,預測利率的波動,股票價格以及顧客需求。

1992 ,Berhard E. Boser, Isabelle M. Guyon 和 Vladimir N. Vanik對原始的支持向量機提出了一種改進辦法,新的支持向量機充分考慮到非線性分類器的構建。支持向量機是一種監督學習方法,用分類和迴歸分析的方法進行數據分析和模式識別式。

1993 年,Gregory Piatetsky-Shapiro 創立「 Knowledge Discovery Nuggets (KDnuggets) 」通信。本意是聯繫參加KDD研討會的研究者,然而KDnuggets.com的讀者羣如今彷佛普遍得多。

2001 年,儘管「數據科學」這個術語在六十年代就已存在,但直至 2001 年,William S. Cleveland 才以一個獨立的概念介紹它。根據《Building Data Science Teams》所著,DJ Patil 和 Jeff Hammerbacher 隨後使用這個術語介紹他們在 LinkedIn 和 Facebook 中承擔的角色 。

2003 ,Micheal Lewis 寫的 《點球成金》 出版,同時它也改變了許多主流聯賽決策層的工做方式。奧克蘭運動家隊(美國職業棒球大聯盟球隊)使用一種統計的,數據驅動的方式針對球員的素質進行篩選,這些球員被低估或者身價更低。以這種方式,他們成功組建了一支打進2002和2003年季後賽的隊伍,而他們的薪金總額只有對手的1/3。

現在(2015年),在 2015 年二月,DJ Patil成爲白宮第一位首位數據科學家。今天,數據挖掘已經遍及商業、科學、工程和醫藥,這還只是一小部分。信用卡交易,股票市場流動,國家安全,基因組測序以及臨牀試驗方面的挖掘,都只是指數據挖掘應用的冰山一角。隨着數據收集成本變得愈來愈低,數據收集設備數目激增,像大數據這樣的專有名詞如今已是隨處可見。

1、數據挖掘技術的基本概念

隨着計算機技術的發展,各行各業都開始採用計算機及相應的信息技術進行管理和運營,這使得企業生成、收集、存貯和處理數據的能力大大提升,數據量與日俱增。企業數據其實是企業的經驗積累,當其積累到必定程度時,必然會反映出規律性的東西;對企業來,堆積如山的數據無異於一個巨大的寶庫。在這樣的背景下,人們迫切須要新一代的計算技術和工具來開採數據庫中蘊藏的寶藏,使其成爲有用的知識,指導企業的技術決策和經營決策,使企業在競爭中立於不敗之地。另外一方面,近十餘年來,計算機和信息技術也有了長足的進展,產生了許多新概念和新技術,如更高性能的計算機和操做系統、因特網(intemet)、數據倉庫(datawarehouse)、神經網絡等等。在市場需求和技術基礎這兩個因素都具有的環境下,數據挖掘技術或稱KDD(KnowledgeDiscovery in Databases;數據庫知識發現)的概念和技術就應運而生了。

數據挖掘(Data Mining)旨在從大量的、不徹底的、有噪聲的、模糊的、隨機的數據中, 提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識。還有不少和這一術語相近似的術語,如從數據庫中發現知識(KDD)、數據分析、數據融合(Data Fusion)以及決策支持等。

、數據挖掘的基本任務

數據挖掘的任務主要是關聯分析、聚類分析、分類、預測、時序模式和誤差分析等。

1. 關聯分析(association analysis)

關聯規則挖掘由Rakesh Apwal等人首先提出。兩個或兩個以上變量的取值之間存在的規律性稱爲關聯。數據關聯是數據庫中存在的一類重要的、可被發現的知識。關聯分爲簡單關聯、時序關聯和因果關聯。關聯分析的目的是找出數據庫中隱藏的關聯網。通常用支持度和可信度兩個閥值來度量關聯規則的相關性,還不斷引入興趣度、相關性等參數,使得所挖掘的規則更符合需求。

2. 聚類分析(clustering)

聚類是把數據按照類似性概括成若干類別,同一類中的數據彼此類似,不一樣類中的數據相異。聚 類分析能夠創建宏觀的概念,發現數據的分佈模式,以及可能的數據屬性之間的相互關係。

3. 分類(classification)

分類就是找出一個類別的概念描述,它表明了這類數據的總體信息,即該類的內涵描述,並用這 種描述來構造模型,通常用規則或決策樹模式表示。分類是利用訓練數據集經過必定的算法而求得分類規則。分類可被用於規則描述和預測。

4. 預測(predication)

預測是利用歷史數據找出變化規律,創建模型,並由此模型對將來數據的種類及特徵進行預測。 預測關心的是精度和不肯定性,一般用預測方差來度量。

5. 時序模式(time-series pattern)

時序模式是指經過時間序列搜索出的重複發生機率較高的模式。與迴歸同樣,它也是用己知的數據預測將來的值,但這些數據的區別是變量所處時間的不一樣。

6. 誤差分析(deviation)

在誤差中包括不少有用的知識,數據庫中的數據存在不少異常狀況,發現數據庫中數據存在的異常狀況是很是重要的。誤差檢驗的基本方法就是尋找觀察結果與參照之間的差異。

3、數據挖掘常的基本技術

1. 統計學

統計學雖然是一門「古老的」學科,但它依然是最基本的數據挖掘技術,特別是多元統計分析,如判別分析、主成分分析、因子分析、相關分析、多元迴歸分析等。

2. 聚類分析和模式識別

聚類分析主要是根據事物的特徵對其進行聚類或分類,即所謂物以類聚,以期從中發現規律和典型模式。這類技術是數據挖掘的最重要的技術之一。除傳統的基於多元統計分析的聚類方法外,近些年來模糊聚類和神經網絡聚類方法也有了長足的發展。

3. 決策樹分類技術

決策樹分類是根據不一樣的重要特徵,以樹型結構表示分類或決策集合,從而產生規則和發現規律。

4. 人工神經網絡和遺傳基因算法

人工神經網絡是一個迅速發展的前沿研究領域,對計算機科學 人工智能、認知科學以及信息技術等產生了重要而深遠的影響,而它在數據挖掘中也扮演着很是重要的角色。人工神經網絡可經過示例學習,造成描述複雜非線性系統的非線性函數,這其實是獲得了客觀規律的定量描述,有了這個基礎,預測的難題就會迎刃而解。目前在數據挖掘中,最常使用的兩種神經網絡是BP網絡和RBF網絡 不過,因爲人工神經網絡仍是一個新興學科,一些重要的理論問題還沒有解決。

5. 規則概括

規則概括相對來說是數據挖掘特有的技術。它指的是在大型數據庫或數據倉庫中搜索和挖掘以往不知道的規則和規律,這大體包括如下幾種形式:IF … THEN …

6. 可視化技術

可視化技術是數據挖掘不可忽視的輔助技術。數據挖掘一般會涉及較複雜的數學方法和信息技術,爲了方便用戶理解和使用這類技術,必須藉助圖形、圖象、動畫等手段形象地指導操做、引導挖掘和表達結果等,不然很難推廣普及數據挖掘技術。
4、數據挖掘技術實施的步驟

數據挖掘的過程能夠分爲6個步驟:

  • 1) 理解業務:從商業的角度理解項目目標和需求,將其轉換成一種數據挖掘的問題定義,設計出達到目標的一個初步計劃。
  • 2) 理解數據:收集初步的數據,進行各類熟悉數據的活動。包括數據描述,數據探索和數據質量驗證等。
  • 3) 準備數據:將最初的原始數據構形成最終適合建模工具處理的數據集。包括表、記錄和屬性的選擇,數據轉換和數據清理等。
  • 4) 建模:選擇和應用各類建模技術,並對其參數進行優化。
  • 5) 模型評估:對模型進行較爲完全的評價,並檢查構建模型的每一個步驟,確認其是否真正實現了預約的商業目的。
  • 6) 模型部署:建立完模型並不意味着項目的結束,即便模型的目的是爲了增進對數據的瞭解,所得到的知識也要用一種用戶可使用的方式來組織和表示。一般要將活動模型應用到決策制訂的過程當中去。該階段能夠簡單到只生成一份報告,也能夠複雜到在企業內實施一個可重複的數據挖掘過程。控制獲得廣泛認可。

5、數據挖掘的應用現狀

數據挖掘是一個新興的邊緣學科,它聚集了來自機器學習、模式識別、數據庫、統計學、人工智能以及管理信息系統等各學科的成果。多學科的相互交融和相互促進,使得這一新學科得以蓬勃發展,並且已初具規模。在美國國家科學基金會(NSF)的數據庫研究項目中,KDD被列爲90年代最有價值的研究項目。人工智能研究領域的科學家也廣泛認爲,下一我的工智能應用的重要課題之一,將是以機器學習算法爲主要工具的大規模的數據庫知識發現。儘管數據挖掘仍是一個很新的研究課題,但它所固有的爲企業創造巨大經濟效益的潛力,已使其很快有了許多成功的應用,具備表明性的應用領域有市場預測、投資、製造業、銀行、通信等。

美國鋼鐵公司和神戶鋼鐵公司利用基於數據挖掘技術的ISPA系統,研究分析產品性能規律和進行質量控制,取得了顯著效果。通用電器公司(GE)與法國飛機發動機制造公司(sNEcMA),利用數據挖掘技術研製了CASSIOP.EE質量控制系統,被三家歐洲航空公司用於診斷和預測渡音737的故障,帶來了可觀的經濟效益。該系統於1996年獲歐洲一等創造性應用獎。

享有盛譽的市場研究公司,如美國的A.C.一Nielson和Information Resources,歐洲的GFK和ln.fratest Burk等紛紛開始使用數據挖掘工具來應付迅速增加的銷售和市場信息數據。商家的激烈競爭致使了市場快速飽和,產品的迅速更新,使得經營者對市場信息的需求格外強烈利用數據挖掘技術所造成的市場預測能力和服務,使這些市場研究公司取得了巨大收益。

英國廣播公司(BBC)也應用數據挖掘技術來預測電視收視率,以便合理安排電視節目時刻表。信用卡公司Alllelicall KxT,ress自採用數據挖掘技術後,信用卡使用率增長了10% 一15%。AT&T公司賃借數據挖掘技術技術偵探國際電話欺詐行爲,能夠儘快發現國際電話使用中的不正常現象。

相關文章
相關標籤/搜索