從原理上說,數據挖掘應該能夠應用到任何信息存儲方式的知識挖掘中,可是挖掘的挑戰性和技術會由於源數據的存儲類型的不一樣而不一樣。特別是,近年來的研究代表數據挖掘所涉及的數據存儲類型愈來愈豐富,除了一些有通用價值的模型、構架等研究外,也開展了一些針對複雜或新型數據存儲方式下的挖掘技術或算法的研究。本節將針對一些主要的數據存儲類型中的數據挖掘的問題進行介紹。算法
一個事務數據庫是對事務型數據的收集。1993年,當Agrawal等開始討論數據挖掘問題時,是以購物籃分析(Market Basket Analysis)做爲商業應用背景的。此時的被挖掘的數據庫是顧客放入購物籃的商品記錄,挖掘的目的就是經過發現顧客購買商品之間的關聯來指導商業決策制訂的。基於這樣的緣由,也有人把Transactional Database翻譯成交易數據庫。如今看來,這種理解有其侷限性。事實上,Transactional Database的挖掘問題,已經不只能夠直接應用到諸如採購、銷售、市場調查等這些商業活動中,並且已經成爲一個解決問題的通用框架。例如,咱們能夠把用戶訪問一個數據庫或網站的行爲組織成一個Transactional Database形式。所以,咱們這裏的Transactional Database仍是指更寬泛的範疇。從事務數據庫中發現知識是數據挖掘中研究較早但至今仍然很活躍的問題。經過特定的技術對事務數據庫進行挖掘,能夠得到動態行爲所蘊藏的關聯規則、分類、聚類以及預測等知識模式。數據庫
1、關係型數據庫中的數據挖掘
關係型數據庫是由一系列數據表的組成的。它自己的發展是至關成熟的,它有成熟的語義模型(像實體-關係模型),有成熟的DBMS(像Oracle),有成熟的查詢語言(像SQL語言),並且有一批可視化的工具可使用或借鑑。隨着關係型數據庫應用的普及和深刻,人們在思考更高層次地利用它的問題,那就是關係型數據庫中的數據挖掘問題。從一個關係型數據庫中,咱們能夠根據挖掘目標得到想要的知識類型或模式,如上面提升的廣義知識、關聯知識、類知識、預測型知識和特異型知識等。
關於關係型數據庫中的數據挖掘已經積累了不少方法和成果。事實上面提到的事務型數據庫能夠看做是關係型數據庫的特例,它的研究成果能夠經過改造被利用。目前的研究更傾向於針對關係型數據庫的特色集成多種技術來解決實際的應用問題。
(1)多維知識挖掘問題
傳統的事務數據庫挖掘所研究的知識通常是單維(Single-Demension)的。例如,「購買計算機的人也購買打印機」這樣的知識,它刻畫了以「購買」行爲做爲聚焦點(維)的商品間的關聯。可是,在關係型數據庫中,僅有這樣的知識可能還不夠。例如,人們可能進一步想知道「什麼樣購買計算機的人也購買打印機的可能性更大?」,所以,象「收入高的人在購買計算機時也購買打印機」這樣的知識更須要。因爲關係型數據庫能夠存儲包含收入狀況等的客戶基本資料以及客戶購買記錄,因此這樣的知識是能夠得到的。這樣的知識是多維(Multi-Demension)的,由於它有兩個聚焦點:購買和收入。另外,提到多維概念,可能天然會和多維數據庫聯繫起來。的確,在數據倉庫、OALP等研究中的多維數據庫能夠成爲多維數據挖掘的更理想載體。
(2)多表挖掘和數量數據挖掘問題
咱們認爲,這是關係型數據庫有別於傳統的事務數據庫挖掘中的兩個重要問題。從邏輯上說,關係型數據庫是一系列表的集合。所以,在關係型數據庫的挖掘中,除了要考慮表內屬性的關聯外,也必須考慮表間屬性的關聯。傳統的事務數據庫挖掘所研究的技術和算法通常是基於單表的。所以,在關係型數據庫挖掘中必須考慮多表的挖掘技術。另外,在關係型數據庫中,可能具備數量屬性(如工資)。
(3)多層知識挖掘問題
數據及其關聯老是能夠在多個不一樣的概念層上來理解它。聯繫咱們前面描述的多層次廣義知識挖掘問題,在必定的背景知識下,一個關係型數據庫能夠在多個概念層次上來挖掘相關的知識。1995年,Srikant和Agrawal創建了以廣義知識挖掘框架來研究多層知識挖掘的思想,並提出了R-興趣度等概念。另外一個比較有表明性的工做是Han等對大型數據庫的多層知識挖掘問題的研究。
(4)知識評價問題
1996年,Chen和Han發現按着Agrawal的規則發現理論進行強關聯規則(Strong Association Rule)挖掘存在的問題。他們當時給出的例子是,在一個購物籃數據庫中,經過Apriori算法發現了關聯規則:buy(X,‘computer games’)=> buy(X,‘videos’)[support=40%, confidence=66%]。可是,事實上,計算機遊戲和錄象產品是負相關的,即購買了其中一種的客戶實際上減小了購買另外一種的可能性。所以,對傳統的數據挖掘框架的知識評價問題,也是關係型數據庫中數據挖掘走向實際應用必需要解決的問題。近年來,在關係型數據庫所挖掘的知識的評價和改進方法的研究也不少。
(5)約束數據挖掘問題
數據挖掘系統在用戶的約束指導下進行,能夠提升挖掘效率和準確度。關於它的研究是一個很寬泛的課題。在可視化和交互式數據挖掘中,用戶約束的使用和輸入是可視化和交互式挖掘的前提。對關係型數據庫而言,因爲它的屬性的複雜性(如大量數量屬性存在)、屬性關聯的蘊涵存儲以及多表或多層次概念等問題,約束數據挖掘問題就顯得更爲重要。數據結構
關係型數據庫中的數據挖掘是一個應用價值很高的研究領域,有許多課題須要進一步深刻。並且它的研究不是孤立的,不只須要藉助於那些趨於成型的理論構架,並且已經和其它的數據存儲類型,如事務數據庫、數據倉庫等研究相互交叉和補充。併發
2、數據倉庫中的數據挖掘
數據倉庫中的數據是按着主題來組織的。存儲的數據能夠從歷史的觀點提供信息。面對多數據源,通過清洗和轉換後的數據倉庫能夠爲數據挖掘提供理想的發現知識的環境。假如一個數據倉庫模型具備多維數據模型或多維數據立方體模型支撐的話,那麼基於多維數據立方體的操做算子能夠達到高效率的計算和快速存取。雖然目前的一些數據倉庫輔助工具能夠幫助完成數據分析,可是發現蘊藏在數據內部的知識模式及其按知識工程方法來完成高層次的工做仍須要新技術。所以,研究數據倉庫中的數據挖掘技術是必要的。
數據挖掘不只伴隨數據倉庫而產生,並且隨着應用深刻產生了許多新的課題。若是咱們把數據挖掘做爲高級數據分析手段來看,那麼它是伴隨數據倉庫技術提出並發展起來的。隨着數據倉庫技術的出現,出現了聯機分析處理應用。OLAP儘管在許多方面和數據挖掘是有區別的,可是它們在應用目標上有很大的重合度,那就是它們都不知足於傳統數據庫的僅用於聯機查詢的簡單應用,而是追求基於大型數據集的高級分析應用。客觀講,數據挖掘更看中數據分析後所造成的知識表示模式,而OLAP更注重利用多維等高級數據模型實現數據的聚合。從某種意義上講,咱們能夠把數據挖掘看做是OLAP的高級形式,與此更接近的名詞可能算是OLAM(聯機分析挖掘)。因爲數據倉庫、OLAP和數據挖掘技術都是針對高級數據分析應用而提出的,所以早期他們常常放在一塊兒研究。如今,隨着研究的深刻,它們不管是在研究仍是應用上都已經有所側重。框架
3、在關係模型基礎上發展的新型數據庫中的數據挖掘
面向對象數據庫、對象—關係型數據庫(Object-Ralational Database)以及演繹等新型數據庫也成爲數據挖掘的新的研究對象。隨着數據庫技術的發展,這些數據庫系統誕生並發展以知足新的應用需求。在這些新型數據庫系統上的數據挖掘成爲不可迴避的挑戰性課題。ide
4、面向應用的新型數據源中的數據挖掘
一些面向新型應用的數據庫,如空間數據庫、時態數據庫、工程數據庫(Engineering Database)和多媒體數據庫等,已經獲得了充分的發展。這些新型應用須要處理和分析空間數據、時態數據、工程設計數據和多媒體數據等。這些應用須要高效的數據結構和可用的處理複雜結構、長變量記錄、半結構或無結構數據的方法。例如,衛星圖象多是以光柵形式來表示數據的,而一個城市地圖數據多是矢量形式。這些光柵或矢量數據一樣蘊涵着豐富的知識而且它們的挖掘技術有本身的特色。經過一個用於氣候分析的衛星圖象,咱們可能須要知道海拔高度和睦候之間的關聯;經過一個城市地圖,咱們可能渴望知道高收入家庭與他們所處的位置有什麼關係等。時態數據庫老是包含時態相關的屬性,這些數據對時間變化是敏感的。例如,股票數據記錄了隨時間變化的數據序列,咱們經過它能夠挖掘出數據的發展趨勢,進而能夠幫助咱們制訂正確的投資戰略。在這些數據集或數據庫上的知識發現工做爲數據挖掘提供了豐富的研究及開發土壤。工具
5、Web數據源中的數據挖掘
面向Web的數據挖掘比面向數據庫和數據倉庫的數據挖掘要複雜得多,由於Web上的數據是複雜的。有些是無結構的(如Web頁),一般都是用長的句子或短語來表達文檔類信息;有些多是半結構的(如Email,HTML頁)。固然有些具備很好的結構(如電子表格)。揭開這些複合對象蘊涵的通常性描述特徵成爲數據挖掘的不可推卸的責任。
Web挖掘(Web Mining)必須面對下面一些關鍵問題。
(1)異構數據源環境
Web網站上的信息是一個更大、更復雜的數據體。若是把Web上的每個站點信息看做是一個數據源的話,那麼這些數據源是異構的,由於每一個站點的信息和組織都不同。想要利用這種海量數據進行數據挖掘,首先,必需要研究站點之間異構數據的集成問題。只有將這些站點的數據都集成到一個統一的視圖上,纔有可能獲取所需的東西。其次,還要解決Web上的數據查詢問題,由於若是所需的數據不能頗有效地獲得,對這些數據進行分析、集成、處理就無從談起。
(2)半結構化的數據結構
Web上的數據與傳統的數據庫中的數據不一樣,Web上的數據更可能是半結構化的。面向Web的數據挖掘必須以半結構化模型和半結構化數據模型抽取技術爲前提。針對Web上的數據半結構化的特色,尋找一個半結構化的數據模型是解決問題的關鍵所在。除了要定義一個半結構化數據模型外,還須要一種半結構化模型抽取技術。咱們知道,每一站點的數據都各自獨立設計,而且數據自己具備自述性和動態可變性,所以面向Web的數據挖掘是一項複雜的技術。XML(eXtensible Markup Language)是由萬維網協會(W3C)設計的一種中介標示語言(Meta-markup Language),可提供描述結構化資料的格式。XML的擴展性和靈活性容許XML描述不一樣種類應用軟件中的數據,從而能描述蒐集的Web頁中的數據記錄。因爲基於XML的數據是自我描述的,數據不須要有內部描述就能被交換和處理。所以,XML可以使不一樣來源的數據很容易地結合在一塊兒,於是使搜索異構數據成爲可能,爲解決Web數據挖掘難題帶來了但願。
(3)動態變化的應用環境
首先,Web的信息是頻繁變化的,像新聞、股票等信息是實時更新的。並且這種高變化也體如今頁面的動態連接和隨機存取上。其次,Web上的用戶是難以預測的。用戶具備不一樣的知識背景、興趣以及訪問目的。最後,Web上的數據環境是高噪音的。研究代表,一個Web站點的數據可能只有不超過1%的信息是對特定挖掘主題是相關的。這些變數也是Web數據挖掘必須面對的問題。網站
參考文獻:ui
Han J et al. Data mining:Concepts and techniques. Morgan Kaufmann Publishers,2001.
Agrawal R et al. A. Mining assocation rules between sets of items in large databases.In Proc. ACM SIGMOD Conf. on Management of Data. 1993: 207~216.
http://www.acm.org/sigmod/sigmod02/eproceedings.
Agrawal R et al. Fast algorithms for mining association rules in large databases. In Proc. 20th Int. Conf. Very Large DataBases, 1994: 478~499
Srikant R and Agrawal R. Mining generalized association rules. In Proc. 21st Int. Conf. Very Large DataBases, 1995: 407~419.
Han J et al. Discovery of multiple-level association rules from large databases, In Proc. 21st Int. Conf. Very Large DataBases. Zuiich, Swizerland. Sept. 1995: 420~431.
Brin S et al. Beyond market baskets: generlizing association rules to correlations. In Proc. 1997 ACM SIGMOD Int. Conf. Management Data. Tucson, USA. 1997: 265-276. Ahmed N et al. A Note on 「Beyond market baskets: generlizing association rules to correlations.」 SIGKDD Explorations. 2000,Vol. 1: 48~48.
Pei J et al. Can we push more constraints into frequent pattern mining? In Proc. 2000 Int. Conf. Knowledge Discovery and Data Mining. Boston, USA. Aug. 2000.
Grahne G et al. Efficient mining of constrained correlated sets. In Proc. 2000 Int. Conf. Data Engineering. San Diego, USA. Feb. 2000: 512~521.
http://www.dmgroup.org.cn/zs.htm.
http://www.dmgroup.org.cn/ppt/XML%20Index&Join.ppt.翻譯