《BI那點兒事》數據挖掘初探

什麼是數據挖掘?算法

  • 數據挖掘(Data Mining),又稱信息發掘(Knowledge Discovery),是用自動或半自動化的方法在數據中找到潛在的,有價值的信息和規則。
  • 數據挖掘技術來源於數據庫,統計和人工智能。

數據挖掘可以作什麼
數據庫

對企業中產生的大量的數據進行分析,找出其中潛藏的規則
更加清晰的瞭解目前的業務運行情況
使得決策者把握將來的決策方向有了科學的依據
預測銷售額網絡

  • 向特定客戶發送郵件
  • 肯定可能須要搭售的產品
  • 查找客戶將產品放入購物車的順序序列
  • ......

數據挖掘算法
數據挖掘是從特定形式的數據中提煉知識的過程,其主要任務是對數據的描述、分類和預測。數據挖掘經常使用的數據預測技術包括線性迴歸、最小二乘法和神經網絡。
工具

關於分析服務另一個比較有意思的就是數據挖掘,在商業智能中,數據挖掘是其中最高的一個層次。如今流行的大數據,最終每每也要靠數據挖掘來體現其價值。大數據

若是說,BI的過程能夠當作是數據的昨天,今天和明天,數據的昨天,經過報表告訴你的業務以前發生了什麼,數據的今天,經過多維分析等工具告訴你這些爲何會發生,那麼數據的明天,就是經過數據挖掘算法,對已有的海量歷史數據進行挖掘,從而讓你知道你的業務將來會是什麼樣。
網站

微軟的數據挖掘工具包含了不少算法,比較常見的好比貝葉斯,決策樹,關聯規則和時序分析等。
數據挖掘會分析樣本數據,從中發現規則,而後用於對將來未知數據的預測。一般用來好比電商網站的商品推薦,潛在客戶分析,以及客戶分類等問題之上。人工智能

序號spa

數據挖掘技術blog

說明事務

1

Microsoft Naive Bayes

貝葉斯模型

Microsoft Naive Bayes 算法將全部輸入屬性都看做是獨立的,並計算每對輸入屬性值和預測屬性值的機率。此算法可用於分類和預測。

 

2

Microsoft 關聯規則

Microsoft 關聯算法使用各屬性值或事務項之間的相關性統計來分析數據。

3

Microsoft 聚類分析

Microsoft 聚類分析算法查找屬性值的多維表示形式中數據的天然分組。此算法在須要發現通常分組時頗有用。

 

4

Microsoft 決策樹

Microsoft 決策樹算法是一種適合預測性建模的分類算法。該算法支持離散屬性和連續屬性的預測。

 

 

 

5

Microsoft 邏輯迴歸

Microsoft 邏輯迴歸算法是一種適合迴歸建模的迴歸算法。該算法是 Microsoft 神經網絡算法的一種,是經過消除隱藏層得到的。該算法支持對離散屬性和連續屬性進行預測。

6

Microsoft 神經網絡

Microsoft 神經網絡算法

7

Microsoft 時序

Microsoft 時序算法能夠分析與時間相關的數據,以便根據時序分析發現各類模式,如月銷售額模式和年利潤模式。

8

Microsoft 順序分析和聚類分析

Microsoft 順序分析和聚類分析算法綜合了其餘兩項數據挖掘技術: 順序分析和聚類分析。此算法分析與順序相關的模式並對進行聚類。

9

Microsoft 線性迴歸

Microsoft 線性迴歸算法是一種適合迴歸建模的迴歸算法。該算法是 Microsoft 決策樹算法的一種,是經過禁用拆分(整個迴歸公式放在單個根節點中)得到的。該算法支持對連續屬性進行預測。

數據挖掘的過程,跟其它IT項目同樣,大概能夠劃分爲以下幾個過程。首先,定義問題,而後準備和瀏覽數據,而後生成和驗證模型,最後部署和更新模型。

這個過程不必定是一口氣道底的,好比在模型中發現沒有須要的數據那麼就須要從新對數據進行準備,或者在模型驗證階段發現有問題那麼可能須要從新定義模型。數據挖掘用到的查詢語句是DMX,它能夠用來建立和處理挖掘模型,而且作預測查詢。

相關文章
相關標籤/搜索