數據挖掘應用現狀與產品分析

數據挖掘應用現狀與產品分析   
高    敏  
 (新龍科技實業有限公司商業智能部  廣州  510180)   
摘要:數據挖掘技術的研究,極大地推進了相關行業的發展。目前,有關的學術討論異常熱烈。而在產業界,也已經有部分比較成熟的產品問世。本文結合本身從事數據倉庫的實際經驗,分析了數據挖掘的應用現狀,對其產品的主要特性進行了研究和評價,以指望爲從事數據挖掘研究、開發、系統集成的有關人員提供有益的參考。   
關鍵詞:數據挖掘  知識發現  商業智能  客戶關係管理
1 前言   
數據庫中的知識發現(KDD:Knowledge Discoveryin Database)一詞首次出如今1989年8月舉行的第U屆國際聯合人工智能學術會議上。從1989年至今,KDD的定義隨着人們研究的不斷深刻也在不斷地完善,目前比較公認的定義是Fayyad等給出的:KDD是從數據集中識別出有效的、新穎的、潛在的、有用的以及最終可理解模式的高級處理過程LI J。KDD的過程通常包括數據清理、數據集成、數據選擇、數據變換、數據挖掘、模式評估、知識表示。23。其中,數據挖掘(DM:Data Mining)是KDD中的一個很重要的步驟,但在一般的應用中,並不區分兩者的概念。   
數據挖掘的任務是從數據集中發現模式,模式能夠有不少種,按功能可分爲兩大類:預測型(Predictive)模式和描述型(Descriptive)模式。在實際應用中,每每根據模式的實際做用細分爲如下幾種:分類,聚類,迴歸,序列,時間序列等。數據控掘的所處理的數據類型也很豐富,包括文本數據,關係數據庫,Web頁面等。數據挖掘的應用領域很是普遍,好比金融(風險預測)、零售(顧客行爲分析)、體育、電信、氣象、電子商務等等。   
數據挖掘的研究幾乎和它的應用同步進行。早在20世紀80年代初期,就有一些簡單的工具問世。數據挖掘工具能夠分爲兩類:通用挖掘工具和特定領域的挖掘工具。通用的數據挖掘工具不區分具體數據的含義,採用通用的挖掘算法,處理常見的數據類型。而專用挖掘工具則是針對某個特定領域的問題提供解決方案。在設計算法的時候,每每會充分考慮到數據、需求的特殊性,並做了優化[3]。
2  通用挖掘產品
2.1  IBM DB2 InteIligent Miner   
Intelligent Miner採用了多種統計方法和挖掘算法,主要有單變量曲線,雙變量統計,線性迴歸,因子分析,主要量分析,分類,分羣,關聯,類似序列,序列模式,預測等。   
它能處理的數據類型有結構化數據(如:數據庫表,數據庫視圖,平面文件)和半結構化或非結構化數據(如:顧客信件,在線服務,傳真,電子郵件,網頁等)。   
Intelligent Miner經過其獨有的世界領先技術,例如自動生成典型數據集、發現關聯、發現序列規律、概念性分類和可視化呈現,能夠自動實現數據選擇、數據轉換、數據挖掘和結果呈現這一整套數據挖掘操做。如有必要,對結果數據集還能夠重複這一過程,直至獲得滿意結果爲止。根據ID(:的統計,Intelligent Miner目前是數據挖掘領域最早進的產品。它採起客戶/服務器架構,而且它的AH提供了C++類和方法[4]。   
Intelligent Miner可用於行銷、財務、產品管理和客戶聯繫管理領域的數據分析人員和業務技術人員。C心bank是美國名列第二的銀行,是首先採用IBM業務智能系統的大型企業之一。
The Bank of Montreal也是成功運用IBM DB2Intelligent Miner的案例之一。    IBM DB2Intelligent Minerfor Data Version 6提供了一套分析數據庫的挖掘過程、統計函數和查看、解釋挖掘結果的可視化工具。它能夠從企業數據集中驗證並析取高價值的商業知識,包括大量交易數據的銷售點,ATM(Automatic Teller Machine),信用卡,呼叫中心,或電子商務應用。分析家和商業技術專家可以發現那些隱藏的、用其餘類型的分析工具沒法洞察的模式。Intelligent Miner提供了基本的技術和工具來支持挖掘過程,同時還提供了應用服務支持定製應用的發展。
2.2  DBMiner   
DBMiner是一個通用的聯機分析挖掘(OLAM:()nLine Analysis Mining)系統,用於在大型關係數據庫和數據倉庫中交互地挖掘多層次的知識。其獨特之處在於緊密集成了聯機分析處理(OLAP:OnLine Analysis Processing)和多種數據挖掘功能,包括特徵化、關聯、分類、預測和聚類等r22。DBMiner目前最新版本是3.o,其優勢爲①對關係數據,多維數據的強大的在線分析挖掘功能。②經過OLEDB和RDBMS能夠鏈接到多種數據源。②關聯和時序算法對挖掘大數據集上頻繁的、連續的模式,相關性、依賴分析性能卓越。④對數據源、挖掘任務、挖掘應用的多重集成。⑤革新的傾斜的多維利潤分析技術。⑧支持Microsoft SQL Server,Analysis入rver and Excel,如OLAP,數據彙集,透視表的充分集成。⑦用戶自定義參數和可視化分類,能幫助用戶更好的發現知識。⑧分析關係數據和多維數據,分散的地圖式的觀察界面。⑨發現驅動的oLAP探測器,更容易的導航。
2.3  SAS系列產品   
SAS/STAT(Statistics)提供統計分析功能。   
SAS/ETS(Econometric乙Time Series)爲SAS提供具備豐富的計量經濟學和時間序列分析方法的產品,包含方便的各類模型設定手段,多樣的參數估計方法,是研究複雜系統和進行預測的有利工具。   
SAS/INSIGHT是一個功能強大的可視化的數據探索與分析的工具。  
SAS/EM(Enterprise Miner)是一個圖形化界面,菜單驅動的、拖拉式操做的、對用戶很是友好且功能強大的數據挖掘集成環境。其中集成了:數據獲取工具,數據抽樣工具,數據篩選工具,數據變量轉換工具,數據挖掘數據庫,數據挖掘過程,多種形式的迴歸工具,爲創建決策樹的數據剖分工具,決策樹瀏覽工具,人工神經元網絡,數據挖掘的評價工具等。   
American Healthways領導了健康護理的一場革命。SAS/EM爲判斷高危病人提供了一個健壯的數據挖掘和建模解決方案,使得他們能夠爲病人提供周到的護理和服務。   
AxA Financial使用SAS/EM來幫助他們創建利潤較高的顧客關係策略。
2.4  SPSS系列產品   
C1ementine是SPSS的核心挖掘產品,它提供廠一個可視比的快速創建模型的環境,被譽爲第一數據挖掘工具。使用它,企業能夠將數據分析和建模技術與待定的商業問題結合起來,找出其餘傳統數據挖掘工具可能找不出的答案。組成部分包括數據獲取、探查、整理、建模和報告一——都使用一些有效、易用的按鈕表示,用戶只需用鼠標將這些組件鏈接起來創建一個「數據流」,可視化的界面使得數據挖掘更加直觀和具備交互性,從而j2T以將用戶的商業知識在每一步中更好的利用。 C1ementine所使用的分析技術包括神經元網絡、關聯規則和規則概括技術。Clementine支持顧客剖析、時序分析、市場售貨籃分析和欺詐行爲偵測。   
SPSS的另外一種重要的控掘產品AnswerTree能夠幫助用戶確認細分市場及其模式,創建顧客檔案資料,挖掘隱藏市場趨勢。應答樹運用的分析運貿:法則:兩類CHAID、分類和迴歸樹、QUES丁。   
DecisionTime 2.0及WhotIF?  2.0幫助用戶創建準確的預測,並利用此預測制定計劃。
2.5  COGNOS的Scenario,4Thought   
挖掘算法:多層感知機(MLP:Multi-Layer Processing)神經元網絡技術(4 Thought)和基於CHAID的決策樹算法(Scenario)。   
Scenario和4Thought都護展了Cognos的決策支持能力並提供了一些數據挖掘功能,辦公佈的用戶基準中,Scenario表現出良好的結果和對用戶友好的界面,而4Thought在性能和準確率方面具備較好的表現[4]。
2.6  BO的Business Miner  
1996年12月,美國Business()bjects公司推出了數據挖掘解決方案一——Busincs s Mincr。Business Miner採用了基於直覺決定的樹型技術,提供了簡單易懂的數據組織形式,使用圖形化方式描述數據關係,經過百分比和流程表等簡單易用的用戶界面告訴用戶有關的數據信息。   
Business Miner能對從數據倉庫中傳來的數據自動地進行挖掘分析〕:做,剖析任意層面數據的內在聯繫,最終肯定商業發展趨勢和規律。
3  專用挖掘產品   
因爲實際的應用環境幹變萬化,目前尚未一種通用產品能適應各類商業需求,而大量存在的是各類各樣的專用數據挖掘產品。在專用領域中,種類最多的要數各類Web挖掘產品。
3.1  ACCRUE INsight5   
ACCRUE Insight 5是AccNe公司的主要產品,它是一個綜合性的Web分析工具。它可以對網站的運行情況有個深刻、細緻和準確的分析。它的設計是以顧客爲中心的,經過分析顧客的行爲模式,幫助網站採起措施來提升顧客的忠誠度,從而創建長期的顧客關係。ACCRUE Insight 5利用了多種Web數據收集方法,包括高級網絡收集器,服務器收集器和服務器日誌,而不是像不少網站那樣僅僅分析日誌文件。高級網絡收集器以其能收集到最大量的數據而著稱,它可以收集到服務器日誌裏所得不到的信息,例如按下「中止」鍵,下載的時間等一些對於網站分析有用的信息。可是對於加密的部分或者與它不適用部分則用到另外兩種方法。根據原始數據,Accrue Insight 5運用了一種叫作「服務器收集器」的分析方法,它支持鏡像服務器和負載平衡、路由器和一些其餘網絡結構設備,可以將一些加密的地址轉化爲可分析的形式。
3.2  E.PIPHANY Enterprise Insight
E.PIPHANY Enterprise lnsight提供了一個獨特的、徹底集成的系統,爲管理人員、分析人員還有其餘商業人員傳遞商業信息。Enterprise lnsight應用套件使用了一個通用的元數據層,定義了全部的數據源,分析性能,信息傳送應用。基於Web的結構使得系統易於配置,易於使用,易於維護。它便可以做爲一個獨立的應用軟件使用,也能夠做爲E.PIPHANY’s E.5系統在市場、銷售、服務領域的解決方案套件。和全部的E.ANY產品同樣,Enterprise lnsight呈現了一個普遍的、一致的消費者的視圖、一個強有力的觀察,可使企業的組織從市場、銷售、服務等工做中獲得最大的利潤。企業上下的用戶均可以獲得深刻的商業信息,而且能夠當即付諸行動。有了Enterpriselnsight,企業能夠和顧客、合做夥伴創建更穩固的關係 。
 E.PIPHANY能提供在電子商務中極具競爭價值的顧客信息。Enterprise lnsight for ECommerce提供了分析顧客數據的能力,包括來至網絡的數據和傳統的數據源。它可讓企業針對全部的顧客數據源,跟蹤他們的網絡行爲和引導他們的Web活動。   
Enterprise lnsight for E—Commerce包括「廠一系列預包裝的、易用的報表模板,對Web活動進行復雜的分析。根據領域專家的意見,E.岡PHANY已經驗證了至關多的一系列的關鍵的電子商務的屬性和指標,而且已經創建了大範圍的一個報告套裝。它經過提供關鍵領域的深刻分析,好比站點活動,顧客喜愛,在線銷售,錯誤報告,標語廣告活動等,回答關鍵的電子商務的問題。
3.3  BIJUE MARTINI   
BLUE MARTINI的數據挖掘模塊提供了強大的分析能力,幫助理解顧客,而且發現隱藏在巨量數據後面的寶石。挖掘能揭示微妙的行爲模式,而這些模式能產生知識,驅動全部客戶接觸點的個性化過程。一個在分析和銷售中的封閉循環保證了知識能產生生產性的、產生利潤的和具備競爭優點的機制。
3.4  其餘挖掘   
例如AdVanced ScoutTM是和IBM合做完成的數據挖掘的商業應用。它的目的是幫助NBA教練運用商業智能的技術和數據挖掘來驗證隱藏在大量全異的數據裏的模式,進而影響一場專業比賽的勝負。經過使用來源於現場數據收集系統的事件數據(EVENT DATA)以及相似於NBA比賽錄像的無結構數據,先進的偵測系統幫助教練進行預賽和賽後分析,甚至實時現場分析,這樣就能更好了解隊員組合是否有效、投籃特性等。
4  國內的數據挖掘應用   
目前國內真正應用數據挖掘的公司還很少明天科技有限公司。
4.1  菲親特一融通公司
比較成功的有菲奈特一融通公司和廣州華工    菲奈特一融通在IBM數據挖掘軟件的基礎上開發了商業智能套件B1.O航ce,在B1.O航ce的基礎上又開發了系列的B1.Bank、B1.Taxation、B1.ELec出c Power、B1.Retail、B1.Insurance、B1.Telecom和B1.Ciq。藉助IBM巨人的力量,如今是國內最有實力的數據挖掘公司。B1.O比ce能簡單、迅速地爲企業構建其專有的決策支持系統,賦予企業管理層一個強有力的武器得以在受權範圍內全面、詳細、及時地瞭解公司運營情況,做出合理的決策。B1.Bank是針對銀行業適時推出的一套完整的商業智能解決方案,爲銀行提供決策支持並實現信息共享、增強客戶關係管理。B1.Bank包括銀行決策支持系統、客戶關係管理、銀行信息中心等針對不一樣使用對象的子系統。B1.Bank利用數據倉庫(DW)、聯機分析處理(OLAP)、數據挖掘(DM)以及Web等核心技術,並採用了數據庫服務器(DB SERVER)、應用服務器(APP SERVER)、用戶端(C/B)三層架構。B1.Taxation稅務決策分析與輔助決策系統是菲奈特—融通公司針對稅務部門開發的分析與輔助決策系統。
4.2  廣州華工明天科技有限公司
廣州華工明天科技有限公司開發了多功能數據挖掘器(AFDMl.0)。該產品的特色以下:多平臺、企業級的數據挖掘;數據分類和處理功能;多種挖掘算法;串行、並行計算環境;可視化的結果分析工具。它提供了三方面的功能:挖掘、處理、統計。
4.3  應用經驗探討
本人主要參與的是數據倉庫的開發工做,在國家開發銀行的基礎數據庫系統裏,一期工程主要是集中抽取了須要的數據,呈現了全局一致的視圖,採用了豐富靈活的OLAP分析方法,生成報表,給不一樣層次的使用人員提供了決策的依據。預計在二期工程中加入必定的數據挖掘功能,在系統中嵌入一些挖掘算法和模塊,好比分類和預測等。必須強調的一點是,人們一般把數據挖掘看得過於神祕,認爲只要有了一個數據挖掘工具,就能自動挖掘出所須要的信息,這是認識上的一個誤區。經驗證實,要想真正作好數據挖掘,數據挖掘工具只是其中的一個方面,同時還須要對企業業務的深刻了解和數據分析經驗。一個企業要想在將來的市場中具備競爭力,必須有一些數據挖掘方面的專家,專門從事數據分析和數據挖掘工做。再同其餘部門協調,把挖掘出來的信息供管理者決策參考,最後把挖掘出的知識付諸應用。或者,使用專家託管式服務,選擇一個專門從事數據挖掘的公司,深刻理解公司業務需求,與、lL冬人同配合完成檸損仟務。而在國內的企業中,決策人員很容易走向兩個極端,一是認爲數據挖掘沒有用處,二是開始認爲數據挖掘是萬能的。這兩種觀點都是有害的。
5  結論   
數據挖掘從誕生到如今不過十多年的時間,在這短短的十幾年裏,它吸引了各個行業的研究人員、工業界人士的興趣。目前,它已成爲最近幾年對人類生活影響最大的幾項IT技術之一。在產業界,涌現出許多新興的數據挖掘相關產品供應商,數據挖掘的應用已取得初步的成功。隨着人們對信息的重視程度不斷加深,數據挖掘的前途必將是光明的。   
可是,數據挖掘做爲一門新興的科學和技術,它的發展還處於幼年期,要想使之獲得普遍充分地應用,必須面對的挑戰爲①創建基礎的數據挖掘理論體系;②提升數據挖掘算法的效率和處理能力;②改善數據挖掘系統的人機界面;④分佈式挖掘和實時挖掘;⑤挖掘各類數據類型,包括半結構和無結構數據。   
參    考    文    獻
1  鄭緯民,黃  剛、數據挖掘縱覽[EB/OL],北京:清華大學出版社,1999.
2  Jiawei Han,Micheline Kamber●數據挖掘概念與技術[M].北京:機械工業出版社
3  鄭緯民,黃  剛.數據挖掘工具及其選擇[EB/OL].北京:清華大學出版社,1999
4  AlexBerson,Stephen Smith,Kurt Thearling、構建面向CRM的數據挖掘應用[M].北京:人民郵電出版社,2001.8
相關文章
相關標籤/搜索