論場景在研發中的重要性

隨着中國改革開放程度的加深,互聯網行業也逐漸出現變革,典型的變化就是由原來的低端重複性造輪子,逐步轉向高端,以技術創新爲主導。一個有力的證實就是近年來以技術驅動的創業公司愈來愈多,這在10年前是不可想象的。在人才要求上,對工做經驗再也不那麼看重,而更加劇視求職者的學歷,專業,背景。程序員

在這樣的背景下,一些原來傳統的互聯網大公司,將逐步失去競爭優點。固然事實上也沒這麼邪火,這個變化是緩慢的,也有許多公司不肯意接受應屆碩士,嫌棄他們沒有Ai經驗。由於他們認爲學術界和工業界有鴻溝。可是一些真正以技術創新驅動的Ai公司,更加青睞於高學歷,有研發背景的海歸。說句實話,目前國內的Ai,可以搞的起來的,也就那麼幾家而已,其他的都是炒做。一些新興的Ai創業公司,除了商湯,依圖,雲從,曠視外,nlp領域並無出現獨角獸。因此重點談一下nlp。算法

3月10號北理工舉辦了一場知識圖譜研討會,與會邀請了9位學術界和工業界的專家。在最後1個小時的問答環節裏,有聽衆向專家提出了這麼一個問題:招聘網站要作求職者和jd的匹配度,如何解決這樣的問題?專家搗鼓了半天,最後也沒給出使人滿意的答案來。其實我認爲,真正能解決問題的人,還不必定就是這些學術界的專家。都說場景是Ai第一要素,若是一我的成天期望着發論文活着,那麼他的思惟裏,對場景的概念應該是淡化的。迄今爲止,見到過的最務實的研發應該數阿里的達摩院了。阿里有真實海量的數據,有明確的落地場景,在這樣的背景下砸1000億搞研發,是比較靠譜的。函數

以前我有一個觀點,那就是研發Ai方案以前,必定要把人類自身對於特定場景的邏輯搞明白了,從中抽象出數學模型出來。而後作現有算法模型與場景的匹配度,若是全都匹配不上,那就在原來的基礎上從新整合出的模型出來。可是很遺憾,不少工業界的程序員並無意識到這個問題,對於一個算法,他的核心歷來不是公式推導,而是這個算法是如何產生的,能解決哪些問題,不能解決哪些問題,以及算法的缺陷和改進的方向。說白了,研發就是把握好大的方向,好比深度學習在語義理解中承擔什麼樣的角色?不少學者追捧如何改進seq2seq,論文滿天飛,從個人角度來看,這些工做是沒有太大的實際意義的。包括機器翻譯,單純依靠NMT也是不切實際的。固然,seq2seq對於描述性的文本,是很好的。對於描述性的文本,深度學習都會發揮很好的效果。緣由就是描述性的文本,規則不是很強,更須要向量這種語義表示來作語義類似度運算,這就是場景的問題了。而對於規則性強的場景,翻譯就得靠規則和語義類似度替換了,而對於商品標題這類問題,因爲大部分標題都是拼湊的,並非很符合語法,因此用seq2seq效果會不好的,這個時候統計建模就會發揮做用了。學習

之前面提到的招聘網站jd匹配問題,專家在篩選簡歷的時候和hr確定不同。因爲hr不懂技術,在看簡歷的時候,更可能是依靠規則,一條一條地比對,而每條規則的比重是不一樣的。好比老闆要求學歷是至高無上的,那麼hr在看簡歷時,每每先看學歷,一看不是海歸,或者985碩士博士,直接pass掉了。這就基於規則的邏輯,一條一條地看,評分,最後給出綜合的印象。而一樣的場景,技術專家篩選簡歷,除了這些規則外,他們會重點關注候選人的技術,自學能力,潛力,尤爲是一些描述性的文本,會重點關注。因此每每hr認爲不合適的,技術專家反而認爲合適。那麼,這樣的一個場景,很顯然咱們作模型匹配度的時候,是必須考慮二者的因素的。對於第一因素規則,這些規則實際上是有優先級關係的,好比劃分爲重要,必要,次要三個級別,每一個級別對最後綜合得分的貢獻度不一樣,也就是權重不一樣。在人工干預的階段,把這些規則全都羅列出來作處理。而這些規則會大量出如今結構化的文本中,由於一篇簡歷,總體會包括結構化的文本和描述性的文本兩部分。好比公司的實驗室想招聘AI研發人員,那麼學歷,學校,專業的優先級就是重要的,獲獎狀況,背景平臺是必要的,那麼畢業時間等其餘因素就是次要的。這些規則的權重不一樣,最後加權求和獲得基於規則的得分。網站

具體方案如上圖所示:其中u爲根據規則獲得的類似度分數,最後求總分的時候引入平滑係數,是由於兩部分的比重在實際中是不一樣的,須要手動調節。採用MSE做爲損失函數。另外在jd中,有的描述,好比可以修改lucene源代碼等,若是採用規則,效果會很是差,由於大部分程序員都是僅僅會使用lucene而已。因此簡歷中出現了lucene,並不表明就合適。翻譯

以前有人問過我,他們公司作的抽取,要求抽取出高管,基於規則很是差,準確率只有70%多,不知道怎麼解決。一句話,知識圖譜是良方。blog

學會case by case,遠比死學算法知識重要,仍是那個觀點,對於AI算法,推導不是核心。深度學習

相關文章
相關標籤/搜索