個人數據挖掘之路 by wrchow

導讀: 做者wrchow是浙江大學計算機碩士,經過本身的努力終於拿到了心儀的offer(搜狗Web數據挖掘助理研究員),實現了從事互聯網數據挖掘的夢想。他對數據挖掘這個行業的興趣,以及爲了進入這個行業所作的努力,很是值得想進入這一行業的在校生或朋友們參考。

個人數據挖掘之路html

因爲本科專業是生物信息(能夠理解爲生物統計學或者與基因數據相關的數據挖掘學科), 因此那時已經開始接觸數據挖掘,對統計也算有必定的基礎。記得大二的時候,我便開始學 用 matlab,而後玩弄 SVM,神經網絡之類的機器學習算法作一些分析和實驗。如今想一想那時 候可能連這些算法的基本概念都不是很清晰,算是皮毛都不懂。但有一點就是,讓我對這類 算法不怎麼畏懼,甚至於很是感興趣。 本科的時候,發現本身對生物興趣不大,卻是對編程頗覺得是,因此讀研又改學了計算機。 雖然,換了專業但我對數據挖掘仍然興趣不減。在研究生階段,涉及數據挖掘,機器學習, 高級數據庫之類的課程個人成績都是 90+,這至少說明我很用心。總之,讀研這幾年我也在 不斷地規劃着本身的數據挖掘之路。 然而,數據挖掘是門交叉學科,涉及的內容不少,並且還須要理論聯繫實際,要掌握起來其 實是很是困難的。我曾經很是幼稚地認爲,數據挖掘無所不能,適用於各行各業,卻忽視了 數據挖掘很是難以掌握的一面。首先,要構建完整的數據挖掘理論知識體系;其次,要可以 深刻到具體的行業或市場進行具體項目的實戰。 至於學習數據挖掘的前景,推薦看看一篇博客, 扒一扒這個數據挖掘行業,黃油和麪包 。這 篇文章算是資深人士對數據挖掘行業一點點小小的爆料,感受對於我這樣的初學者來講,有 着高屋建瓴的做用。python

發現 saslist面試

學習 sas 源於我當初想去金融行業作分析師的想法,而這個想法又是源自於本身的 MBTi 測 試的結論。算起來開始學 sas 應該是 10 年下半年的時候,我先是買了一本《 SAS 編程與數 據挖掘商業案例 》,後是看了《 The little SAS book (3rd) 》電子版,還有 SAS 認證考試 樣題-123 題 。我還在 saslist 上創建起了 博客 ,分享了一些學習心得,還有找實習的一些經歷。而我對 sas 的學習經歷,也就集中在 10 年的下半年這段時間了。後來到了 11 年初, 偶然間看到統計之都上,舉辦第一屆數據挖掘挑戰賽的信息。我便花了 1 個多月去參加比賽, 再後來便去找實習。到如今不知道本身還會不會繼續學習 sas,但 saslist 確實對個人數據 挖掘之路,起着承上啓下的做用。在這裏很容易讓你融入一個學習數據分析,數據挖掘的圈 子,不少前輩們的精彩博文都對本身起着極大的鼓舞做用。算法

數據挖掘挑戰賽數據庫

沒想到本身參加的仍是全國首屆數據挖掘挑戰賽,看來真不知道是本身的數據挖掘之路起步早,仍是國內的數據挖掘起步比較晚。總之,我是抱着實戰的目的來玩玩的,很惋惜的是沒有組隊成功,雖然中間還硬拉着 sxlion 來玩了一下,不過他那時候好像確實也比較忙。從題目和贊助方(世紀佳緣網)來看,這是一個典型的 Web 數據挖掘如何作用戶推薦的案例。 數據以下:
profile_f.txt,女性會員的資料,203843 條數據
profile_m.txt,男性會員的資料,344552 條數據
test.txt,原始數據 
train.txt,原始數據

評分指標採用的是NDCG@10。對這個指標並不陌生,由於去年還選修了Web數據挖掘那門課, 那位老師仍是從加拿大過來的,當時聽得還挺認真,這裏推薦一下他這門課的 主頁 ,還有 他指定的兩本教材:《 搜索引擎:信息檢索實踐 》,《 數據挖掘:概念與技術 》,後一本的書 的做者正是他的導師。原本一看這個題目是作推薦,因而我就想到了協同過濾,試了一下又發現不行,其實這些數據是很是稀疏的並且是冷啓動的,後來又嘗試了迴歸還有SVM,總之效果都不是太明顯,感受是本身特徵選得很差。賽後,看了別人的經驗貼,竟然投票是最簡單有效的,能夠極大地提高預測精度。反正,我也是對數據挖掘都還沒入門就去參加比賽了。此次比賽算是第一次 接觸真實的用戶數據,而且用來解決一個十分現實的問題。對推薦用戶的預測精度的提高, 是能夠直接帶來可觀的經濟效益的。此次比賽的另外一個收穫是,我開始學習python和看《 集體智慧編程 》這本書。如今好像又有騰訊贊助 2012 知識發現與數據挖掘挑戰賽 ,感興趣可 以去參與一下。編程

實習與工做網絡

saslist還有一個好處,就是能夠查看到一些數據分析相關的實習和找工信息。其實,這些信息仍是蠻管用的,我還所以拿到過人人網數據挖掘工程師的offer。在我看來,數據分析 相關的職位大體分三個板塊:醫藥、金融和互聯網。要去醫藥行業,能夠多關注 胡江堂的博客 ,還有中南大學統計系的本科生 韓帥同窗的博客 。金融行業的話,能夠多關注一下人大經 濟論壇等;我當初投過一家叫discover的上海公司,好像是從大摩分出來的,專作信用卡這 一塊的,面試的時候若是懂sas仍是有加分的,固然外企可能更注重是你這我的自己的一些 基本素質。由於,我最後仍是決定去互聯網行業,因此個人就任經歷也都集中在幾家大的互 聯網公司。機器學習

在剛參加完數據挖掘挑戰賽以後,也就是去年 4 月份了,那個時候不少大的IT公司都開始來校園招聘實習生。因爲我本科畢業以後,決定讀研,也沒找過工做。因此,這個時候找實習, 也算是爲我找工做贊經驗。我投了百度的數據挖掘工程師和淘寶的廣告和搜索發展部的產品經理助理職位。前者的具體狀況能夠參見個人博文連接,至於實習我仍是去了後者,由於淘 寶就在學校旁邊。在淘寶的實習經歷算是我真正意義上地走出校園,也堅決了我去互聯網行 業的信念,我喜歡像淘寶這些的互聯網公司裏那種從上而下,自由而又年輕的氛圍。也正是 在淘寶的實習,讓我切身體會到了互聯網廣告市場的盈利模式,以及如何經過數據挖掘來提 升淘寶的生態平衡和盈利空間。感興趣的同窗能夠去讀讀  淘寶搜索技術博客 。附實習經歷兩則:  2011Alibaba數據分析師(實習)試題解析    ,  2011 百度數據挖掘研發工程師實習生筆試面試題 .

 

總結編程語言

我找工的經歷,其實十分地短暫,也就集中在那幾家互聯網公司,這裏也就不細說了。值得 一提的是除了我在實驗室作的項目外,那次數據挖掘挑戰賽的經歷,每每會很是引人注意, 由於那個挑戰賽是很是貼近互聯網公司作數據挖掘的實際的。並且,參加比賽自己也說明你 原本的興趣和積極性都比較高。工具

最後,再總結一下個人數據挖掘知識體系:

1. 統計學基礎:《機率與數理統計》、《生物統計學》

2. 編程語言與工具:SAS、Matlab、Python、R 等;互聯網公司,還須要 Linux Shell, Hadoop, C++, Java 語言等;

3. 數據挖掘理論:《集體智慧編程》(python)、《Web 數據挖掘》、《SAS 編程和數據挖 掘商業案例》,另外還推薦一些開放式課程,我認真學習過的有 CS229(stanford 的機器學 習課程)。

4. 參加貼近商業的比賽或者去實習。

相關文章
相關標籤/搜索