個人數據挖掘之路html
因爲本科專業是生物信息(能夠理解爲生物統計學或者與基因數據相關的數據挖掘學科), 因此那時已經開始接觸數據挖掘,對統計也算有必定的基礎。記得大二的時候,我便開始學 用 matlab,而後玩弄 SVM,神經網絡之類的機器學習算法作一些分析和實驗。如今想一想那時 候可能連這些算法的基本概念都不是很清晰,算是皮毛都不懂。但有一點就是,讓我對這類 算法不怎麼畏懼,甚至於很是感興趣。 本科的時候,發現本身對生物興趣不大,卻是對編程頗覺得是,因此讀研又改學了計算機。 雖然,換了專業但我對數據挖掘仍然興趣不減。在研究生階段,涉及數據挖掘,機器學習, 高級數據庫之類的課程個人成績都是 90+,這至少說明我很用心。總之,讀研這幾年我也在 不斷地規劃着本身的數據挖掘之路。 然而,數據挖掘是門交叉學科,涉及的內容不少,並且還須要理論聯繫實際,要掌握起來其 實是很是困難的。我曾經很是幼稚地認爲,數據挖掘無所不能,適用於各行各業,卻忽視了 數據挖掘很是難以掌握的一面。首先,要構建完整的數據挖掘理論知識體系;其次,要可以 深刻到具體的行業或市場進行具體項目的實戰。 至於學習數據挖掘的前景,推薦看看一篇博客, 扒一扒這個數據挖掘行業,黃油和麪包 。這 篇文章算是資深人士對數據挖掘行業一點點小小的爆料,感受對於我這樣的初學者來講,有 着高屋建瓴的做用。python
發現 saslist面試
學習 sas 源於我當初想去金融行業作分析師的想法,而這個想法又是源自於本身的 MBTi 測 試的結論。算起來開始學 sas 應該是 10 年下半年的時候,我先是買了一本《 SAS 編程與數 據挖掘商業案例 》,後是看了《 The little SAS book (3rd) 》電子版,還有 SAS 認證考試 樣題-123 題 。我還在 saslist 上創建起了 博客 ,分享了一些學習心得,還有找實習的一些經歷。而我對 sas 的學習經歷,也就集中在 10 年的下半年這段時間了。後來到了 11 年初, 偶然間看到統計之都上,舉辦第一屆數據挖掘挑戰賽的信息。我便花了 1 個多月去參加比賽, 再後來便去找實習。到如今不知道本身還會不會繼續學習 sas,但 saslist 確實對個人數據 挖掘之路,起着承上啓下的做用。在這裏很容易讓你融入一個學習數據分析,數據挖掘的圈 子,不少前輩們的精彩博文都對本身起着極大的鼓舞做用。算法
數據挖掘挑戰賽數據庫
評分指標採用的是NDCG@10。對這個指標並不陌生,由於去年還選修了Web數據挖掘那門課, 那位老師仍是從加拿大過來的,當時聽得還挺認真,這裏推薦一下他這門課的 主頁 ,還有 他指定的兩本教材:《 搜索引擎:信息檢索實踐 》,《 數據挖掘:概念與技術 》,後一本的書 的做者正是他的導師。原本一看這個題目是作推薦,因而我就想到了協同過濾,試了一下又發現不行,其實這些數據是很是稀疏的並且是冷啓動的,後來又嘗試了迴歸還有SVM,總之效果都不是太明顯,感受是本身特徵選得很差。賽後,看了別人的經驗貼,竟然投票是最簡單有效的,能夠極大地提高預測精度。反正,我也是對數據挖掘都還沒入門就去參加比賽了。此次比賽算是第一次 接觸真實的用戶數據,而且用來解決一個十分現實的問題。對推薦用戶的預測精度的提高, 是能夠直接帶來可觀的經濟效益的。此次比賽的另外一個收穫是,我開始學習python和看《 集體智慧編程 》這本書。如今好像又有騰訊贊助 2012 知識發現與數據挖掘挑戰賽 ,感興趣可 以去參與一下。編程
實習與工做網絡
saslist還有一個好處,就是能夠查看到一些數據分析相關的實習和找工信息。其實,這些信息仍是蠻管用的,我還所以拿到過人人網數據挖掘工程師的offer。在我看來,數據分析 相關的職位大體分三個板塊:醫藥、金融和互聯網。要去醫藥行業,能夠多關注 胡江堂的博客 ,還有中南大學統計系的本科生 韓帥同窗的博客 。金融行業的話,能夠多關注一下人大經 濟論壇等;我當初投過一家叫discover的上海公司,好像是從大摩分出來的,專作信用卡這 一塊的,面試的時候若是懂sas仍是有加分的,固然外企可能更注重是你這我的自己的一些 基本素質。由於,我最後仍是決定去互聯網行業,因此個人就任經歷也都集中在幾家大的互 聯網公司。機器學習
總結編程語言
我找工的經歷,其實十分地短暫,也就集中在那幾家互聯網公司,這裏也就不細說了。值得 一提的是除了我在實驗室作的項目外,那次數據挖掘挑戰賽的經歷,每每會很是引人注意, 由於那個挑戰賽是很是貼近互聯網公司作數據挖掘的實際的。並且,參加比賽自己也說明你 原本的興趣和積極性都比較高。工具
最後,再總結一下個人數據挖掘知識體系:
1. 統計學基礎:《機率與數理統計》、《生物統計學》
2. 編程語言與工具:SAS、Matlab、Python、R 等;互聯網公司,還須要 Linux Shell, Hadoop, C++, Java 語言等;
3. 數據挖掘理論:《集體智慧編程》(python)、《Web 數據挖掘》、《SAS 編程和數據挖 掘商業案例》,另外還推薦一些開放式課程,我認真學習過的有 CS229(stanford 的機器學 習課程)。
4. 參加貼近商業的比賽或者去實習。