數據挖掘是什麼?能解決什麼問題?

數據挖掘實際上是個「古老」的技術,已經有幾十年歷史了,近年來紅火的人工智能又讓這個古老技術有了更多關注。html

那麼,到底什麼是數據挖掘呢?它又能作什麼事呢?函數

傍晚小街路面上沁出微雨後的溼潤,和煦的細風吹來,擡頭看看天邊的晚霞,嗯,明天又是一個好天氣。走到水果攤旁,挑了個根蒂蜷縮、敲起來聲音濁響的青綠西瓜,內心期待着享受這個好瓜。學習

由路面微溼、微風、晚霞得出明天是個好天氣。根蒂蜷縮、敲聲濁響、色澤青綠推斷出這是個好瓜,顯然,咱們是根據以往的經驗來對將來或未知的事物作出預測。人工智能

人能夠根據經驗對將來進行預測,那麼機器能幫咱們作這些嗎?url

能,這就是數據挖掘。.net

「經驗」一般以「數據」的形式存在,數據挖掘的任務就是從歷史數據(以前挑瓜的經歷,注意是經歷還不是經驗)中挖掘出有用的「知識」,也就是所謂「模型」(如今就造成經驗了),在面對新狀況時(未拋開的瓜)模型就能夠用來預測(是否是好瓜)。htm

用高中生能理解的數學語言來說,數據挖掘建模任務的本質就是,根據一些歷史已有的、從輸入空間 X(如 {[色澤青綠;根蒂蜷縮;敲聲濁響],[色澤烏黑;根蒂蜷縮;敲聲沉悶],[色澤淺白;根蒂硬挺;敲聲清脆]} )到輸出空間 Y(如 {好瓜,壞瓜,壞瓜})的對應,找出一個函數 f: 這個函數就是咱們要的模型。有了模型以後再作預測就簡單了,也就是拿一套新 x,用這個函數算一個 y 出來就完了。blog

..

那麼,模型又是怎麼創建出來,也就是這個函數是怎麼找出來的呢?get

想一想如何讓一我的擁有判斷瓜好壞的能力呢?數學

須要用一批瓜來練習,獲取剖開前的特徵(色澤、根蒂、敲聲等),而後再剖開它看好壞。長此以往,這我的就能學會用剖開前瓜的特徵來判斷瓜的好壞了。樸素地想,用來練習的瓜越多,可以得到的經驗也就越豐富,之後的判斷也就會越準確。

用機器作數據挖掘是同樣的道理,咱們須要使用歷史數據(用來練習的瓜)來創建模型,而建模過程也被稱爲訓練或學習,這些歷史數據稱爲訓練數據集。訓練好了模型後,就好象發現了數據的某種規律,就能夠拿來作預測了。

也就是說,數據挖掘是用來作預測的,而要作到這種預測,須要有足夠多已經有結果的歷史數據爲基礎。

那麼,這種預測技術如何在咱們的生產銷售過程當中應用呢?

以貸款業務爲例,金融機構要作風險控制,防止壞賬,就要在放貸前知道這個貸款人未來不能按時還款的風險,從而決定是否放貸以及貸款利率。

要作到這件事,咱們要有必定數量的歷史數據,也就是之前貸款人及貸款業務的各類信息,好比貸款人的收入水平、受教育程度、居住地區、信用歷史、負債率等等可能會影響違約率的因素,還有貸款自己的金額、期限、利率等等。須要注意的是歷史數據中必定要同時包含好客戶和壞客戶(也是在發生違約不還款的客戶),而且壞客戶的數量不能過少。

一般能夠截取近幾個月或近一年的歷史數據做爲訓練數據,定義好目標變量 Y(如壞客戶爲 1,好客戶爲 0),而後就可使用數據挖掘技術創建模型來尋找用戶及貸款的各類信息 X 和目標 Y 之間的關係。建好的模型能夠用來預測,及時發現高風險用戶。

須要說明的,數據挖掘模型的預測並不能保證 100% 準確(有不少種辦法來評估它的準確率),因此若是隻有一例目標(好比只有一筆貸款)須要預測時,那就沒有意義了。但一般,咱們會須要都會有不少例目標須要預測,這樣即便不是每一例都能預測正確,但能保證必定的準確率,這仍然是頗有意義的。對於貸款業務,模型找出來的高風險客戶未必都是真地,但準確率只要足夠高,仍然可以有效的防範風險。

數據挖掘技術能夠普遍地應用於各行各業,工業領域中能夠根據歷史生產數據來預測良品狀況,從而改進工藝參數下降不良率;畜牧業可使用數據挖掘技術根據測量牲畜體溫來預測牲畜是否生病,從而提早防治;醫院也可使用歷史醫療記錄基於數據挖掘技術找出關聯規律,幫助醫生更好地診斷疾病。

對進一步數據挖掘和 AI 技術感興趣的同窗還能夠搜索「乾學院」,上面有面向小白的零基礎「數據挖掘」免費課程,或者直接點下面的連接也能夠 :
http://www.raqsoft.com.cn/wx/course-data-mining.html

相關文章
相關標籤/搜索