數據挖掘:What?Why?How?
這個問題思考了好久,做爲過來人談一談,建議先看下之前的一些回答。
php
什麼是數據挖掘?
html
怎麼培養數據分析的能力?
git
如何成爲一名數據科學家?
程序員
磨刀不誤砍柴工。在學習數據挖掘以前應該明白幾點:
github
數據挖掘目前在中國的還沒有流行開,猶如屠龍之技。
web
數據初期的準備一般佔整個數據挖掘項目工做量的70%左右。
算法
數據挖掘自己融合了統計學、數據庫和機器學習等學科,並非新的技術。
sql
數據挖掘技術更適合業務人員學習(相比技術人員學習業務來的更高效)
數據庫
數據挖掘適用於傳統的BI(報表、OLAP等)沒法支持的領域。
apache
數據挖掘項目一般須要重複一些毫無技術含量的工做。
若是你閱讀了以上內容以爲能夠接受,那麼繼續往下看。
學習一門技術要和行業靠攏,沒有行業背景的技術如空中樓閣。技術尤爲是計算機領域的技術發展是寬泛且快速更替的(十年前作網頁設計都能成立公司),通常人沒有這個精力和時間全方位的掌握全部技術細節。可是技術在結合行業以後就可以獨當一面了,一方面有利於抓住用戶痛點和剛性需求,另外一方面可以累計行業經驗,使用互聯網思惟跨界讓你更容易取得成功。不要在學習技術時想要面面俱到,這樣會失去你的核心競爭力。
1、目前國內的數據挖掘人員工做領域大體可分爲三類。
1)數據分析師:在擁有行業數據的電商、金融、電信、諮詢等行業裏作業務諮詢,商務智能,出分析報告。
2)數據挖掘工程師:在多媒體、電商、搜索、社交等大數據相關行業裏作機器學習算法實現和分析。
3)科學研究方向:在高校、科研單位、企業研究院等高大上科研機構研究新算法效率改進及將來應用。
2、說說各工做領域須要掌握的技能。
(1).數據分析師
須要有深厚的數理統計基礎,可是對程序開發能力不作要求。
須要熟練使用主流的數據挖掘(或統計分析)工具如Business Analytics and Business Intelligence Software(SAS)、SPSS、EXCEL等。
須要對與所在行業有關的一切核心數據有深刻的理解,以及必定的數據敏感性培養。
經典圖書推薦:《機率論與數理統計》、《統計學》推薦David Freedman版、《業務建模與數據挖掘》、《數據挖掘導論》、《SAS編程與數據挖掘商業案例》、《Clementine數據挖掘方法及應用 》、《Excel 2007 VBA參考大全》、《IBM SPSS Statistics 19 Statistical Procedures Companion》等。
(2).數據挖掘工程師
須要理解主流機器學習算法的原理和應用。
須要熟悉至少一門編程語言如(Python、C、C++、Java、Delphi等)。
須要理解數據庫原理,可以熟練操做至少一種數據庫(Mysql、SQL、DB二、Oracle等),可以明白MapReduce的原理操做以及熟練使用Hadoop系列工具更好。
經典圖書推薦:《數據挖掘概念與技術》、《機器學習實戰》、《人工智能及其應用》、《數據庫系統概論》、《算法導論》、《Web數據挖掘》、《 Python標準庫》、《thinking in Java》、《Thinking in C++》、《數據結構》等。
(3).科學研究方向
須要深刻學習數據挖掘的理論基礎,包括關聯規則挖掘 (Apriori和FPTree)、分類算法(C4.五、KNN、Logistic Regression、SVM等) 、聚類算法 (Kmeans、Spectral Clustering)。目標能夠先吃透數據挖掘10大算法各自的使用狀況和優缺點。
相對SAS、SPSS來講R語言更適合科研人員The R Project for Statistical Computing,由於R軟件是徹底免費的,並且開放的社區環境提供多種附加工具包支持,更適合進行統計計算分析研究。雖然目前在國內流行度不高,可是強烈推薦。
能夠嘗試改進一些主流算法使其更加快速高效,例如實現Hadoop平臺下的SVM雲算法調用平臺--web 工程調用hadoop集羣。
須要廣而深的閱讀世界著名會議論文跟蹤熱點技術。如KDD,ICML,IJCAI,Association for the Advancement of Artificial Intelligence,ICDM 等等;還有數據挖掘相關領域期刊:ACM Transactions on Knowledge Discovery from Data,IEEE Transactions on Knowledge and Data Engineering,Journal of Machine Learning Research Homepage,IEEE Xplore: Pattern Analysis and Machine Intelligence, IEEE Transactions on等。
能夠嘗試參加數據挖掘比賽培養全方面解決實際問題的能力。如Sig KDD ,Kaggle: Go from Big Data to Big Analytics等。
能夠嘗試爲一些開源項目貢獻本身的代碼,好比Apache Mahout: Scalable machine learning and data mining ,myrrix等(具體能夠在SourceForge或GitHub.上發現更多好玩的項目)。
經典圖書推薦:《機器學習》 《模式分類》《統計學習理論的本質》《統計學習方法》《數據挖掘實用機器學習技術》《R語言實踐》,英文素質是科研人才必備的《Machine Learning: A Probabilistic Perspective》《Scaling up Machine Learning : Parallel and Distributed Approaches》《Data Mining Using SAS Enterprise Miner : A Case Study Approach》《Python for Data Analysis》等。
3、如下是通訊行業數據挖掘工程師的工做感覺。
真正從數據挖掘項目實踐的角度講,溝通能力對挖掘的興趣愛好是最重要的,有了愛好才能夠願意鑽研,有了不錯的溝通能力,才能夠正確理解業務問題,才能正確把業務問題轉化成挖掘問題,才能夠在相關不一樣專業人才之間清楚表達你的意圖和想法,取得他們的理解和支持。因此我認爲溝通能力和興趣愛好是我的的數據挖掘的核心競爭力,是很難學到的;而其餘的相關專業知識誰均可以學,算不上我的發展的核心競爭力。
說到這裏可能不少數據倉庫專家、程序員、統計師等等都要扔磚頭了,對不起,我沒有別的意思,大家的專業對於數據挖掘都很重要,你們原本就是一個總體的,可是做爲單獨一個個體的人來講,精力有限,時間有限,不可能這些領域都能掌握,在這種狀況下,選擇最重要的核心,我想應該是數據挖掘技能和相關業務能力吧(從另外的一個極端的例子,咱們能夠看, 好比一個迷你型的挖掘項目,一個懂得市場營銷和數據挖掘技能的人應該能夠勝任。這其中他雖然不懂數據倉庫,可是簡單的Excel就足以勝任高打6萬個樣本的數據處理;他雖然不懂專業的展現展示技能,可是隻要他本身看的懂就好了,這就無需什麼展現展示;前面說過,統計技能是應該掌握的,這對一我的的迷你項目很重要;他雖然不懂編程,可是專業挖掘工具和挖掘技能足夠讓他操練的;這樣在迷你項目中,一個懂得挖掘技能和市場營銷業務能力的人就能夠圓滿完成了,甚至在一個數據源中根據業務需求能夠無窮無盡的挖掘不一樣的項目思路,試問就是這個迷你項目,單純的一個數據倉庫專家、單純的一個程序員、單純的一個展現展示技師、甚至單純的一個挖掘技術專家,都是沒法勝任的)。這從另外一個方面也說明了爲何溝通能力的重要,這些個徹底不一樣的專業領域,想要有效有機地整合在一塊兒進行數據挖掘項目實踐,你說沒有好的溝通能力行嗎?
數據挖掘能力只能在項目實踐的熔爐中提高、昇華,因此跟着項目學挖掘是最有效的捷徑。國外學習挖掘的人都是一開始跟着老闆作項目,剛開始不懂沒關係,越不懂越知道應該學什麼,才能學得越快越有效果。我不知道國內的數據挖掘學生是怎樣學的,可是從網上的一些論壇看,不少都是紙上談兵,這樣很浪費時間,很沒有效率。
另外如今國內關於數據挖掘的概念都很混亂,不少BI只是侷限在報表的展現和簡單的統計分析,卻也號稱是數據挖掘;另外一方面,國內真正規模化實施數據挖掘的行業是屈指可數(銀行、保險公司、移動通信),其餘行業的應用就只能算是小規模的,好比不少大學都有些相關的挖掘課題、挖掘項目,但都比較分散,並且都是處於摸索階段,可是我相信數據挖掘在中國必定是好的前景,由於這是歷史發展的必然。
講到移動方面的實踐案例,若是你是來自移動的話,你必定知道國內有家叫華院分析的公司(申明,我跟這家公司沒有任何關係,我只是站在數據挖掘者的角度分析過中國大多數的號稱數據挖掘服務公司,以爲華院還不錯,比不少徒有虛名的大公司來得更實際),他們的業務如今已經覆蓋了絕大多數中國省級移動公司的分析挖掘項目,你上網搜索一下應該能夠找到一些詳細的資料吧。我對華院分析印象最深的一點就是2002年這個公司白手起家,本身不懂沒關係,一邊自學一邊開始拓展客戶,到如今在中國的移動通信市場全面開花,的確佩服佩服呀。他們最開始都是用EXCEL處理數據,用肉眼比較選擇比較不一樣的模型,你能夠想象這其中的艱難吧。
至於移動通信的具體的數據挖掘的應用,那太多了,好比不一樣話費套餐的制訂、客戶流失模型、不一樣服務交叉銷售模型、不一樣客戶對優惠的彈性分析、客戶羣體細分模型、不一樣客戶生命週期模型、渠道選擇模型、惡意欺詐預警模型,太多了,記住,從客戶的需求出發,從實踐中的問題出發,移動中能夠發現太多的挖掘項目。最後告訴你一個祕密,當你數據挖掘能力提高到必定程度時,你會發現不管什麼行業,其實數據挖掘的應用有大部分是重合的類似的,這樣你會以爲更輕鬆。
4、成爲一名數據科學家須要掌握的技能圖。(原文:Data Science: How do I become a data scientist?)
人一能之,己十之;人十能之,己千之。果能此道矣,雖愚,必明;雖柔,必強。
與君共勉。