淺析十三種經常使用的數據挖掘的技術&五個免費開源的數據挖掘軟件

1、前 沿html

   數據挖掘就是從大量的、不徹底的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的但又是潛在有用的信息和知識的過程。數據挖掘的任務是從數據集中發現模式,能夠發現的模式有不少種,按功能能夠分爲兩大類:預測性(Predictive)模式和描述性(Descriptive)模式。在應用中每每根據模式的實際做用細分爲如下幾種:分類,估值,預測,相關性分析,序列,時間序列,描述和可視化等。前端

   數據挖掘涉及的學科領域和技術不少,有多種分類法。根據挖掘任務分,可分爲分類或預測模型發現、數據總結、聚類、關聯規則發現、序列模式發現、依賴關係或依賴模型發現、異常和趨勢發現等等;根據挖掘對象分,有關係數據庫、面向對象數據庫、空間數據庫、時態數據庫、文本數據源、多媒體數據庫、異質數據庫、遺產數據庫以及環球網Web;根據挖掘方法分,可粗分爲:機器學習方法、統計方法、神經網絡方法和數據庫方法。機器學習中,可細分爲:概括學習方法(決策樹、規則概括等)、基於範例學習、遺傳算法等。統計方法中,可細分爲:迴歸分析(多元迴歸、自迴歸等)、判別分析(貝葉斯判別、費歇爾判別、非參數判別等)、聚類分析(系統聚類、動態聚類等)、探索性分析(主元分析法、相關分析法等)等。神經網絡方法中,可細分爲:前向神經網絡(BP算法等)、自組織神經網絡(自組織特徵映射、競爭學習等)等。數據庫方法主要是多維數據分析或OLAP方法,另外還有面向屬性的概括方法等等。算法

   2、數據挖掘技術簡述數據庫

   數據挖掘的技術有不少種,按照不一樣的分類有不一樣的分類法。下面着重討論一下數據挖掘中經常使用的一些技術:統計技術,關聯規則,基於歷史的分析,遺傳算法,彙集檢測,鏈接分析,決策樹,神經網絡,粗糙集,模糊集,迴歸分析,差異分析,概念描述等十三種經常使用的數據挖掘的技術。編程

       一、統計技術api

   數據挖掘涉及的科學領域和技術不少,如統計技術。統計技術對數據集進行挖掘的主要思想是:統計的方法對給定的數據集合假設了一個分佈或者機率模型(例如一個正態分佈)而後根據模型採用相應的方法來進行挖掘。網絡

       二、關聯規則框架

   數據關聯是數據庫中存在的一類重要的可被發現的知識。若兩個或多個變量的取值之I司存在某種規律性,就稱爲關聯。關聯可分爲簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出數據庫中隱藏的關聯網。有時並不知道數據庫中數據的關聯函數,即便知道也是不肯定的,所以關聯分析生成的規則帶有可信度。機器學習

       三、基於歷史的MBR(Memory-based Reasoning)分析編程語言

   先根據經驗知識尋找類似的狀況,而後將這些狀況的信息應用於當前的例子中。這個就是MBR(Memory Based Reasoning)的本質。MBR首先尋找和新記錄類似的鄰居,而後利用這些鄰居對新數據進行分類和估值。使用MBR有三個主要問題,尋找肯定的歷史數據;決定表示歷史數據的最有效的方法;決定距離函數、聯合函數和鄰居的數量。

       四、遺傳算法GA(Genetic Algorithms)

   基於進化理論,並採用遺傳結合、遺傳變異、以及天然選擇等設計方法的優化技術。主要思想是:根據適者生存的原則,造成由當前羣體中最適合的規則組成新的羣體,以及這些規則的後代。典型狀況下,規則的適合度(Fitness)用它對訓練樣本集的分類準確率評估。

       五、彙集檢測

   將物理或抽象對象的集合分組成爲由相似的對象組成的多個類的過程被稱爲聚類。由聚類所生成的簇是一組數據對象的集合,這些對象與同一個簇中的對象彼此類似,與其它簇中的對象相異。相異度是根據描述對象的屬眭值來計算的,距離是常常採用的度量方式。

       六、鏈接分析

   鏈接分析,Link analysis,它的基本理論是圖論。圖論的思想是尋找一個能夠得出好結果但不是完美結果的算法,而不是去尋找完美的解的算法。鏈接分析就是運用了這樣的思想:不完美的結果若是是可行的,那麼這樣的分析就是一個好的分析。利用鏈接分析,能夠從一些用戶的行爲中分析出一些模式;同時將產生的概念應用於更廣的用戶羣體中。

       七、決策樹

   決策樹提供了一種展現相似在什麼條件下會獲得什麼值這類規則的方法。

       八、神經網絡

   在結構上,能夠把一個神經網絡劃分爲輸入層、輸出層和隱含層。輸入層的每一個節點對應—個個的預測變量。輸出層的節點對應目標變量,可有多個。在輸入層和輸出層之間是隱含層(對神經網絡使用者來講不可見),隱含層的層數和每層節點的個數決定了神經網絡的複雜度。

   除了輸入層的節點,神經網絡的每一個節點都與不少它前面的節點(稱爲此節點的輸入節點)鏈接在一塊兒,每一個鏈接對應一個權重Wxy,此節點的值就是經過它全部輸入節點的值與對應鏈接權重乘積的和做爲—個函數的輸入而獲得,咱們把這個函數稱爲活動函數或擠壓函數。

       九、粗糙集

   粗糙集理論基於給定訓練數據內部的等價類的創建。造成等價類的全部數據樣本是不加區分的,即對於描述數據的屬性,這些樣本是等價的。給定現實世界數據,一般有些類不能被可用的屬性區分。粗糙集就是用來近似或粗略地定義這種類。

       十、模糊集

   模糊集理論將模糊邏輯引入數據挖掘分類系統,容許定義「模糊」域值或邊界。模糊邏輯使用0.0和1.0之間的真值表示一個特定的值是一個給定成員的程度,而不是用類或集合的精確截斷。模糊邏輯提供了在高抽象層處理的便利。

       十一、迴歸分析

   迴歸分析分爲線性迴歸、多元迴歸和非線性同歸。在線性迴歸中,數據用直線建模,多元迴歸是線性迴歸的擴展,涉及多個預測變量。非線性迴歸是在基本線性模型上添加多項式項造成非線性同門模型。

       十二、差異分析

   差異分析的目的是試圖發現數據中的異常狀況,如噪音數據,欺詐數據等異常數據,從而得到有用信息。

       1三、概念描述

   概念描述就是對某類對象的內涵進行描述,並歸納這類對象的有關特徵。概念描述分爲特徵性描述和區別性描述,前者描述某類對象的共同特徵,後者描述不一樣類對象之間的區別,生成一個類的特徵性描述只涉及該類對象中全部對象的共性。

   3、結束語

   因爲人們急切須要將存在於數據庫和其餘信息庫中的數據轉化爲有用的知識,於是數據挖掘被認爲是一門新興的、很是重要的、具備廣闊應用前景和富有挑戰性的研究領域,並應起了衆多學科(如數據庫、人工智能、統計學、數據倉庫、在線分析處理、專家系統、數據可視化、機器學習、信息檢索、神經網絡、模式識別、高性能計算機等)研究者的普遍注意。做爲一門新興的學科,數據挖掘是由上述學科相互交叉、相互融合而造成的。隨着數據挖掘的進一步發展,它必然會帶給用戶更大的利益

 

Orange

    Orange 是一個基於組件的數據挖掘和機器學習軟件套裝,它的功能即友好,又很強大,快速而又多功能的可視化編程前端,以便瀏覽數據分析和可視化,基綁定了Python以進行腳本開發。它包含了完整的一系列的組件以進行數據預處理,並提供了數據賬目,過渡,建模,模式評估和勘探的功能。其由C++ 和 Python開發,它的圖形庫是由跨平臺的Qt框架開發。

RapidMiner

    RapidMiner, 之前叫 YALE (Yet Another Learning Environment), 其是一個給機器學習和數據挖掘和分析的試驗環境,同時用於研究了真實世界數據挖掘。它提供的實驗由大量的算子組成,而這些算子由詳細的XML 文件記錄,並被RapidMiner圖形化的用戶接口表現出來。RapidMiner爲主要的機器學習過程提供了超過500算子,而且,其結合了學習方案和Weka學習環境的屬性評估器。它是一個獨立的工具能夠用來作數據分析,一樣也是一個數據挖掘引擎能夠用來集成到你的產品中。

Weka

    由Java開發的 Weka (Waikato Environment for Knowledge Analysis) 是一個知名機器學機軟件,其支持幾種經典的數據挖掘任務,顯著的數據預處理,集羣,分類,迴歸,虛擬化,以及功能選擇。其技術基於假設數據是以一種單個文件或關聯的,在那裏,每一個數據點都被許多屬性標註。 Weka 使用Java的數據庫連接能力能夠訪問SQL數據庫,並能夠處理一個數據庫的查詢結果。它主要的用戶接品是Explorer,也一樣支持相同功能的命令行,或是一種基於組件的知識流接口。

JHepWork

    爲科學家,工程師和學生所設計的 jHepWork 是一個免費的開源數據分析框架,其主要是用開源庫來建立 一個數據分析環境,並提供了豐富的用戶接口,以此來和那些收費的的軟件競爭。它主要是爲了科學計算用的二維和三維的製圖,幷包含了用Java實現的數學科學庫,隨機數,和其它的數據挖掘算法。 jHepWork 是基於一個高級的編程語言 Jython,固然,Java代碼一樣能夠用來調用 jHepWork 的數學和圖形庫。

KNIME

    KNIME (Konstanz Information Miner) 是一個用戶友好,智能的,並有豐演的開源的數據集成,數據處理,數據分析和數據勘探平臺。它給了用戶有能力以可視化的方式建立數據流或數據通道,可選擇性地運行一些或所有的分析步驟,並之後面研究結果,模型 以及 可交互的視圖。 KNIME 由Java寫成,其基於 Eclipse 並經過插件的方式來提供更多的功能。經過以插件的文件,用戶能夠爲文件,圖片,和時間序列加入處理模塊,並能夠集成到其它各類各樣的開源項目中,好比:R語言,Weka, Chemistry Development Kit, 和 LibSVM.

    源文:http://www.junauza.com/2010/11/free-data-mining-software.html(牆)

相關文章
相關標籤/搜索