第一課 數據挖掘技術的由來

如下轉自百度空間-呵呵的blog
 
1.1網絡以後的下一個技術熱點
  咱們如今已經生活在一個網絡化的時代,通訊、計算機和網絡技術正改變着整我的類和社會。若是用芯片集成度來衡量微電子技術,用CPU處理速度來衡量計算機技術,用信道傳輸速率來衡量通訊技術,那麼摩爾定律告訴咱們,它們都是以每18個月翻一番的速度在增加,這一勢頭已經維持了十多年。在美國,廣播達到5000萬戶用了38年;電視用了13年;Internet撥號上網達到5000萬戶僅用了4年。全球IP網發展速度達到每6個月翻一番,國內狀況亦然。1999年初,中國上網用戶爲210萬,如今已經達到600萬(做者可能有誤,到2006年中國上網用戶超過1.1億,其中寬帶上網用戶達6430萬人,中國網民數和寬帶上網人數均位居世界第二)網絡的發展致使經濟全球化,在1998年全球產值排序前100名中,跨國企業佔了51個,國家只佔49個。有人提出,對待一個跨國企業也許比對待一個國家還要重要。在新世紀鐘聲剛剛敲響的時候,回顧往昔,人們不只要問:就推進人類社會進步而言,歷史上能與網絡技術相比擬的是什麼技術呢?有人甚至提出要把網絡技術與火的發明相比擬。火的發明區別了動物和人,種種科學技術的重大發現擴展了天然人的體能、技能和智能,而網絡技術則大大提升了人的生存質量和人的素質,令人成爲社會人、全球人。
  如今的問題是:網絡以後的下一個技術熱點是什麼?讓咱們來看一些身邊俯拾便是的現象:《紐約時報》由60年代的10~20版擴張至如今的100~200版,最高曾達1572版;《北京青年報》也已經是16~40版;市場營銷報已達100版。然而在現實社會中,人均日閱讀時間一般爲30~45分鐘,只能瀏覽一份24版的報紙。大量信息在給人們帶來方便的同時也帶來了一大堆問題:第一是信息過量,難以消化;第二是信息真假難以辨識;第三是信息安全難以保證;第四是信息形式不一致,難以統一處理。人們開始提出一個新的口號:「要學會拋棄信息」。人們開始考慮:「如何才能不被信息淹沒,而是從中及時發現有用的知識、提升信息利用率?」
  面對這一挑戰,數據開採和知識發現(DM&KDD)技術應運而生,並顯示出強大的生命力。
   1.2 數據爆炸但知識貧乏
  另外一方面,隨着數據庫技術的迅速發展以及數據庫管理系統的普遍應用,人們積累的數據愈來愈多。激增的數據背後隱藏着許多重要的信息,人們但願可以對其進行更高層次的分析,以便更好地利用這些數據。目前的數據庫系統能夠高效地實現數據的錄入、查詢、統計等功能,但沒法發現數據中存在的關係和規則,沒法根據現有的數據預測將來的發展趨勢。缺少挖掘數據背後隱藏的知識的手段,致使了「數據爆炸但知識貧乏」的現象。
   1.3 支持數據挖掘技術的基礎
  數據挖掘技術是人們長期對數據庫技術進行研究和開發的結果。起初各類商業數據是存儲在計算機的數據庫中的,而後發展到可對數據庫進行查詢和訪問,進而發展到對數據庫的即時遍歷。數據挖掘使數據庫技術進入了一個更高級的階段,它不只能對過去的數據進行查詢和遍歷,而且可以找出過去數據之間的潛在聯繫,從而促進信息的傳遞。如今數據挖掘技術在商業應用中已經能夠立刻投入使用,由於對這種技術進行支持的三種基礎技術已經發展成熟,他們是:
       - - 海量數據蒐集
       - - 強大的多處理器計算機
       - - 數據挖掘算法
       Friedman[1997]列舉了四個主要的技術理由激發了數據挖掘的開發、應用和研究的興趣:
       - - 超大規模數據庫的出現,例如商業數據倉庫和計算機自動收集的數據記錄;
       - - 先進的計算機技術,例如更快和更大的計算能力和並行體系結構;
       - - 對巨大量數據的快速訪問;
       - - 對這些數據應用精深的統計方法計算的能力。

  商業數據庫如今正在以一個空前的速度增加,而且數據倉庫正在普遍地應用於各類行業;對計算機硬件性能愈來愈高的要求,也能夠用如今已經成熟的並行多處理機的技術來知足;另外數據挖掘算法通過了這10多年的發展也已經成爲一種成熟,穩定,且易於理解和操做的技術。
   1.4 從商業數據到商業信息的進化
  從商業數據到商業信息的進化過程當中,每一步前進都是創建在上一步的基礎上的。見下表。表中咱們能夠看到,第四步進化是革命性的,由於從用戶的角度來看,這一階段的數據庫技術已經能夠快速地回答商業上的不少問題了。
進化階段
商業問題
支持技術
產品廠家
產品特色
數據蒐集
(60年代)
「過去五年中個人總收入是多少?」 計算機、磁帶和磁盤
IBM,CDC
提供歷史性的、靜態的數據信息
數據訪問
(80年代)
「在新英格蘭的分部去年三月的銷售額是多少?」 關係數據庫(RDBMS),結構化查詢語言(SQL),ODBC Oracle、Sybase、Informix、IBM、Microsoft Oracle、Sybase、Informix、IBM、Microsoft 在記錄級提供歷史性的、動態數據信息
數據倉庫;
決策支持
(90年代)
「在新英格蘭的分部去年三月的銷售額是多少?波士頓據此可得出什麼結論?」 聯機分析處理(OLAP)、多維數據庫、數據倉庫 Pilot、Comshare、Arbor、Cognos、Microstrategy 在各類層次上提供回溯的、動態的數據信息
數據挖掘
(正在流行)
「下個月波士頓的銷售會怎麼樣?爲何?」 高級算法、多處理器計算機、海量數據庫 Pilot、Lockheed、IBM、SGI、其餘初創公司 提供預測性的信息
表1、數據挖掘的進化歷程。
  
       數據挖掘的核心模塊技術歷經了數十年的發展,其中包括數理統計、人工智能、機器學習。今天,這些成熟的技術,加上高性能的關係數據庫引擎以及普遍的數據集成,讓數據挖掘技術在當前的數據倉庫環境中進入了實用的階段。
   1.5 數據挖掘逐漸演變的過程   數據挖掘實際上是一個逐漸演變的過程,電子數據處理的初期,人們就試圖經過某些方法來實現自動決策支持,當時機器學習成爲人們關心的焦點.機器學習的過程就是將一些已知的並已被成功解決的問題做爲範例輸入計算機,機器經過學習這些範例總結並生成相應的規則,這些規則具備通用性,使用它們能夠解決某一類的問題.隨後,隨着神經網絡技術的造成和發展,人們的注意力轉向知識工程,知識工程不一樣於機器學習那樣給計算機輸入範例,讓它生成出規則,而是直接給計算機輸入已被代碼化的規則,而計算機是經過使用這些規則來解決某些問題。專家系統就是這種方法所獲得的成果,但它有投資大、效果不甚理想等不足。80年代人們又在新的神經網絡理論的指導下,從新回到機器學習的方法上,並將其成果應用於處理大型商業數據庫。隨着在80年代末一個新的術語,它就是數據庫中的知識發現,簡稱KDD(Knowledge discovery in database).它泛指全部從源數據中發掘模式或聯繫的方法,人們接受了這個術語,並用KDD來描述整個數據發掘的過程,包括最開始的制定業務目標到最終的結果分析,而用數據挖掘(data mining)來描述使用挖掘算法進行數據挖掘的子過程。但最近人們卻逐漸開始使用數據挖掘中有許多工做能夠由統計方法來完成,並認爲最好的策略是將統計方法與數據挖掘有機的結合起來。   數據倉庫技術的發展與數據挖掘有着密切的關係。數據倉庫的發展是促進數據挖掘愈來愈熱的緣由之一。可是,數據倉庫並非數據挖掘的先決條件,由於有不少數據挖掘可直接從操做數據源中挖掘信息。
相關文章
相關標籤/搜索