劍氣之爭,聊聊算法崗位的門戶之見!

你們好,今天給你們聊點有意思的。web

之前在讀金庸先生《笑傲江湖》的時候,總以爲有一個地方有點扯,就是華山派的劍氣之爭。按說有人喜歡耍賤(劍),有人喜歡用氣,這實際上是我的喜愛,怎麼會上升到門戶紛爭,還所以自相殘殺呢?因此我以前的時候一直以爲這個是金庸先生劇情須要,否則怎麼會有風清揚傳功令狐沖的情節呢?算法

可是當我長大了步入職場以後,我對這個問題發生了見解。由於我在工做崗位上也看到了一點門戶之見的影子,雖不像小說裏那樣你死我活苦大仇深,可是仍是挺有意思的,因此今天就和你們聊聊這個話題。機器學習

就個人觀察,職場當中的算法工程師也能夠分爲兩派。一派是學院派,一派是實踐派,下面和你們分別聊一聊。編輯器

學院派

學院派這個詞應該不難理解,也能夠理解成學術派。簡而言之,就是喜歡從學術領域尋找解決方法或者是靈感,比較直接的體現就是看paper。學習

我發現這個派別和學歷有一點關係,學歷越高,越是根正苗紅的身上的學院派風格越濃。言必稱paper,口必提復現,常常給出的解決方案是,咱們能夠follow一下某一篇論文當中的方法來嘗試一下,看看是否可以解決當前的問題。平常的工做當中,也常常會抽空看看各種學術期刊和論文。spa

大到某某場景使用某某模型,小到某個特徵如何處理,如何作採樣,都勢必要找到援引、出處。簡而言之,咱們的一切作法都不是空穴來風的,都是有跡可循,能夠找到理論憑證的。有點像是小說裏的劍宗,很是看重套路(劍法),以爲只要套路耍得好,就能夠解決問題。反過來講就是輸了必定是劍招沒練到家,或者是學的劍法不行,毫不是內功不濟。設計

這個派別的好處是看起來比較光鮮,不管是學歷仍是作法,都看起來很是高大上。言語當中也是中英夾雜,逼格甚高。說服力很強,不管是和外行交流仍是和上司彙報,只要噹噹噹拋出幾個術語和paper名稱,就能夠鎮住場子。外人與之交談,若是沒有一點援引出處很難不心虛,以爲本身的耍的是野狐禪好像登不上大雅之堂。orm

但缺點也很明顯,只會耍套路實戰每每很堪憂。道理也簡單,由於咱們能找到的paper、期刊當中的真材實料其實很少。雖然paper當中會講明model的設計方法甚至會附上代碼,可是隻有這些是一點用也沒有的。中臺的數倉、特徵的設計和處理,這些真功夫的東西都是不會透露出來的。只仿照模型起到的效果很是很是有限,甚至一些極端狀況下是有害的。ci

還有更重要的一點是,全部的paper都是不成體系的。我以前也寫過幾篇paper剖析,雖然都是推薦領域著名的paper。可是講來說去基本上都只侷限於模型這一塊,關於整個推薦系統當中從上到下、從淺入深是沒有一個完整的介紹和內容的。我我的感受讀paper有一種管中窺豹的感受,對於大牛而言心中已經有了豹子的全圖,瞄一眼看幾個關鍵點就足夠了。但對於大多數不那麼資深的從業者來講,想要經過這一孔見方窺得全圖幾乎是不可能的it

實踐派

和學院派對立的就是實踐派,也能夠簡單理解成野路子。

我以前在阿里的時候感受比較明顯的就是阿里的企業文化比較崇尚野路子,你們能夠聽聽它的標語,「什麼平凡人作非凡事」,「由於相信因此看見」,就能夠一窺端倪。

實踐派的做風是實踐出真知,無論那些條條框框的束縛。我講一個我本身的故事給你們體會一下,我剛去阿里沒多久的時候,那時候我也纔剛入門,大約是讀過幾本機器學習書籍的水平吧。當時接到一個任務,讓我預測一個用戶喜愛的類目。徹底沒有想過去看下paper裏是怎麼作的,或者是前人都有過哪些方案,全本身來。簡單設計了一下方案和特徵,大部分特徵都是現成的,其中一些分佈有點問題,我作了一些one-hot或者是multi-hot處理,而後隨便套了一個還不錯的模型(XGboost)。

我本身都以爲作得太草率了,也可能我當時把作模型想得過高大上了,感受我這三板斧說不出來的low,很有些羞愧。我如今都還記得,我當時訓練完初版的AUC是0.82,我當時也沒以爲有什麼。其實以如今的眼光來看,這種場景下的預測AUC能上0.8,只有兩個字就是離譜。簡單看了一眼效果,感受還能夠。又拿新的數據算了一下覆蓋率,也很不錯,大部分用戶點擊的類目都命中了。

更離譜的還在後面,這個模型作完以後我就拋在腦後了,但沒想到的是從那以後就一直有各路大佬釘釘找我請教我這個模型是怎麼作的,他們對比了一下本身的數據都以爲很是準,想要學習學習。更誇張的是,後來聽說要作一個廣告預測模型,專門找了阿里媽媽廣告算法的同窗來作,搞了半天還不如這個模型的效果好。我當時據說這事的時候,真的震驚得下巴都要掉下來了。

如今回想起來當初,雖然仍然有些難以想象,但冷靜下來想一想,也是有一些緣由的。當時拍腦殼定的幾個值和作法都定對了,好比正負樣本比當時定的1:3,再好比當時正負樣本的選擇,以及一些分佈不太均勻的特徵作離散化處理等等,其實都是對的。只是當時基本上憑的感受和推測,不像如今這麼底氣足。

整體來講實踐派喜歡本身想方法,本身設計方案來解決問題,而不是一味參考paper。好比模型效果不太好,第一想法確定不是換一個模型或者是參考一下paper,想的必定是這個場景下還有哪些有用的特徵,或者是模型的哪些參數是否是要調整一下。有點像是華山派當中的氣宗,以氣馭劍,實踐決定理論,效果比如那些花拳繡腿管用。

個人思考

我以前是站實踐派的,由於技術是爲了業務服務的,在大小公司都是如此。也就是說有實際的效果和產出,比花裏胡哨的先進技術有用得多。固然這當中有一部分緣由是由於我是本科生,沒有通過正統的學術氛圍的洗禮和鍛鍊。

後來隨着我讀過的paper愈來愈多,加上視野愈來愈開闊,我對這個問題有了新的想法。paper當中先進的巧妙的作法不少,若是棄之不顧,只是閉門造車也同樣是不行的。其實這不是一個二選一的問題,一個優秀的算法工程師不該該只能解決問題,對於當今業界的發展狀況以及前景都應該心中有數。既能解決實際問題,也能夠展望行業發展,這個才能稱得上是專業。因此如今對這個問題,我感受應該三七分紅,三分學院派,七分實幹家。

寫這篇文章呢不是爲了分個誰高誰低,只是給你們提供一個新的視野,審視一下自身對照一下他人,若是可以開闊一點視野,找到一點共鳴,突破一點桎梏就更好了。

今天的文章就到這裏,衷心祝願你們天天都有所收穫。若是還喜歡今天的內容的話,請來一個三連支持吧~(點贊、關注、轉發

相關文章
相關標籤/搜索