數據挖掘

磨刀不誤砍柴工。在學習數據挖掘以前應該明白幾點:php

  • 數據挖掘目前在中國的還沒有流行開,猶如屠龍之技。
  • 數據初期的準備一般佔整個數據挖掘項目工做量的70%左右。
  • 數據挖掘自己融合了統計學、數據庫和機器學習等學科,並非新的技術。
  • 數據挖掘技術更適合業務人員學習(相比技術人員學習業務來的更高效)
  • 數據挖掘適用於傳統的BI(報表、OLAP等)沒法支持的領域。
  • 數據挖掘項目一般須要重複一些毫無技術含量的工做。

學習一門技術要和行業靠攏,沒有行業背景的技術如空中樓閣。技術尤爲是計算機領域的技術發展是寬泛且快速更替的(十年前作網頁設計都能成立公司),通常人沒有這個精力和時間全方位的掌握全部技術細節。可是技術在結合行業以後就可以獨當一面了,一方面有利於抓住用戶痛點和剛性需求,另外一方面可以累計行業經驗,使用互聯網思惟跨界讓你更容易取得成功。不要在學習技術時想要面面俱到,這樣會失去你的核心競爭力。html

1、目前國內的數據挖掘人員工做領域大體可分爲三類。git

  • 1)數據分析師:在擁有行業數據的電商、金融、電信、諮詢等行業裏作業務諮詢,商務智能,出分析報告。
  • 2)數據挖掘工程師:在多媒體、電商、搜索、社交等大數據相關行業裏作機器學習算法實現和分析。
  • 3)科學研究方向:在高校、科研單位、企業研究院等高大上科研機構研究新算法效率改進及將來應用。

2、說說各工做領域須要掌握的技能。 (1).數據分析師github

  • 須要有深厚的數理統計基礎,可是對程序開發能力不作要求。
  • 須要熟練使用主流的數據挖掘(或統計分析)工具如Business Analytics and Business Intelligence Software(SAS)、SPSS、EXCEL等。
  • 須要對與所在行業有關的一切核心數據有深刻的理解,以及必定的數據敏感性培養。
  • 經典圖書推薦:《機率論與數理統計》、《統計學》推薦David Freedman版、《業務建模與數據挖掘》、《數據挖掘導論》、《SAS編程與數據挖掘商業案例》、《Clementine數據挖掘方法及應用 》、《Excel 2007 VBA參考大全》、《IBM SPSS Statistics 19 Statistical Procedures Companion》等。

(2).數據挖掘工程師web

  • 須要理解主流機器學習算法的原理和應用。
  • 須要熟悉至少一門編程語言如(Python、C、C++、Java、Delphi等)。
  • 須要理解數據庫原理,可以熟練操做至少一種數據庫(Mysql、SQL、DB二、Oracle等),可以明白MapReduce的原理操做以及熟練使用Hadoop系列工具更好。
  • 經典圖書推薦:《數據挖掘概念與技術》、《機器學習實戰》、《人工智能及其應用》、《數據庫系統概論》、《算法導論》、《Web數據挖掘》、《 Python標準庫》、《thinking in Java》、《Thinking in C++》、《數據結構》等。

(3).科學研究方向算法

數據挖掘能力只能在項目實踐的熔爐中提高、昇華,因此跟着項目學挖掘是最有效的捷徑。國外學習挖掘的人都是一開始跟着老闆作項目,剛開始不懂沒關係,越不懂越知道應該學什麼,才能學得越快越有效果。我不知道國內的數據挖掘學生是怎樣學的,可是從網上的一些論壇看,不少都是紙上談兵,這樣很浪費時間,很沒有效率。sql

另外如今國內關於數據挖掘的概念都很混亂,不少BI只是侷限在報表的展現和簡單的統計分析,卻也號稱是數據挖掘;另外一方面,國內真正規模化實施數據挖掘的行業是屈指可數(銀行、保險公司、移動通信),其餘行業的應用就只能算是小規模的,好比不少大學都有些相關的挖掘課題、挖掘項目,但都比較分散,並且都是處於摸索階段,可是我相信數據挖掘在中國必定是好的前景,由於這是歷史發展的必然。

講到移動方面的實踐案例,若是你是來自移動的話,你必定知道國內有家叫華院分析的公司(申明,我跟這家公司沒有任何關係,我只是站在數據挖掘者的角度分析過中國大多數的號稱數據挖掘服務公司,以爲華院還不錯,比不少徒有虛名的大公司來得更實際),他們的業務如今已經覆蓋了絕大多數中國省級移動公司的分析挖掘項目,你上網搜索一下應該能夠找到一些詳細的資料吧。我對華院分析印象最深的一點就是2002年這個公司白手起家,本身不懂沒關係,一邊自學一邊開始拓展客戶,到如今在中國的移動通信市場全面開花,的確佩服佩服呀。他們最開始都是用EXCEL處理數據,用肉眼比較選擇比較不一樣的模型,你能夠想象這其中的艱難吧。

至於移動通信的具體的數據挖掘的應用,那太多了,好比不一樣話費套餐的制訂、客戶流失模型、不一樣服務交叉銷售模型、不一樣客戶對優惠的彈性分析、客戶羣體細分模型、不一樣客戶生命週期模型、渠道選擇模型、惡意欺詐預警模型,太多了,記住,從客戶的需求出發,從實踐中的問題出發,移動中能夠發現太多的挖掘項目。最後告訴你一個祕密,當你數據挖掘能力提高到必定程度時,你會發現不管什麼行業,其實數據挖掘的應用有大部分是重合的類似的,這樣你會以爲更輕鬆。數據庫

相關文章
相關標籤/搜索