先來一個自編的段子鎮樓:算法
話說這齊天大聖孫悟空大鬧天宮,玉帝派二郎神楊戩去鎮壓,兵力佔盡優點卻多次不勝。問題就在孫猴子有一招十分厲害的分身術,拔一把毫毛一吹一變,地上就冒出成千上萬只如出一轍的猴子,每次大費周章抓回的都是假猴子。二郎神無奈之下只好去找如來佛祖,求教鑑別真假美猴王的方法。微信
佛祖呵呵一笑,說這招分身術是從菩提老祖那裏學來的,只是孫猴子的技藝還不到精純,會露三個破綻:假猴子的右手無名指會隱隱發光;假猴子頭頂的黃色毫毛會多於九九八十一根;假猴子左右眼珠子的大小也有點差異。架構
二郎神拿了這祕訣就志得意滿出發了,誰知來到花果山以後傻眼了,滿眼望去都沒有露出這三個破綻的猴子,結果又只能胡亂抓了幾隻假猴子迴天庭交差,而後一臉懊喪又去找如來佛祖吐槽。工具
佛祖眉頭一皺,說這孫猴子又跑去和混元老祖學了這分身術的第二層,破綻被修復了,真假猴子差異已經十分微妙。不過有一方法可解此難題,讓二郎神帶着十萬天庭畫師下山,等孫猴子使出分身術這一招,就下令畫師一人畫一隻猴子,有多精妙畫多精妙。性能
這十萬畫像來到天庭,佛祖一一鑑別以後,又召集了十萬天庭算師,通過七七四十九晝夜的演算,得出一機器,對着猴子咔擦一算,是真是假逃不掉。最終天庭憑着技術上的優點,成功活捉了齊天大聖。學習
個人點評:spa
數據的妙用,不管包裝如何眼花繚亂,結論總逃不掉是一個分類:真猴子假猴子、男用戶女用戶、明天股票是漲是跌、給老司機推薦哪一種類型的歌曲。哪怕到個性化的推薦,也是物以類聚人以羣分。條件簡單的,三五條規則就能夠,就像佛祖第一次給二郎神支招,看準那三個破綻,假猴子沒錯!可若是你的場景沒辦法用簡單的規則去評判呢?那麼你就須要包含成千上萬個特徵的數據(天庭畫師),須要用專家的知識給原始數據作標籤(如來佛祖),須要把數據和標籤混合訓練出一個高性能的算法模型(天庭算師)。這就是數據挖掘。code
至關長的一段時間裏,我都是糊里糊塗在作數據挖掘,琢磨工具、深挖算法、堆砌架構,也許碰巧也解決了一些難題,但方法論層面的東西遠談不上能融會貫通。近一年來才慢慢對整個鏈條有更深的體會,知道數據挖掘的關鍵並不在於工具、算法和架構,而在於獲取標籤、定義特徵、評估模型這三個環節。深度學習
先說標籤,咱們面對的真實世界實際上是不存在可靠標籤的,哪怕是最簡單的區分男女,也有邊緣不清的部分,這就決定了咱們已知的標籤每每只是真實世界裏的一個子集。打個比方,香山的紅葉很出名,其實就是楓樹的葉子,大部分人就會天然延伸出一個想法,楓葉就是紅色的,至少秋天是紅色的,但他們都不知道加拿大就有一種黑楓。你對真實世界瞭解越多,你的標籤就越全面,最終算法模型的覆蓋度也就更高。it
再說特徵,不少人相信數據挖掘的核心就是人工特徵工程,事實上特徵的好壞遠比算法的優劣更影響性能。在深度學習被普遍普及以前,特徵的生造只能是一門古老而隱祕的手藝,想象、創造、組合、經過標籤看分佈、加入模型看結果。舉個小例子,對一個惡意發廣告的用戶,發帖頻率(組合了發帖總數和在線時長兩個特徵)也許就是一個比發帖總數更強更有效的特徵。
後說評估,評估永遠是最爲重要的,它決定了事情的意義、基準和價值。評估包括模型的評估和效果的評估,模型的評估衡量的是算法準不許,效果的評估衡量的是帶來了多少的價值。效果的評估能夠是標籤(像楓樹林面積的提高),也能夠是比標籤更弱的特徵(像紅色樹林面積的提高,紅色的樹葉也許不僅有楓樹,但只要楓樹的面積變大了,紅色的樹林面積確定也會隨之上漲)。
獲取標籤、定義特徵、評估模型,既是數據挖掘的關鍵,也是數據挖掘工程師的核心價值所在。聯想到最近谷歌的AlphaGo三比零完勝圍棋大師李世石,感受數據挖掘的進化會朝着愈來愈少人工驅動的方向演進,逐步把體系內拍腦殼的環節取代掉。那麼到時人的最終價值又在哪裏?完全淪爲給機器調參數的修理工麼?還真的有點驚慌失措。
更多精彩內容,歡迎關注微信公衆號「碼農咖啡館」