論場景在研發中的重要性

時間 2019-12-11

標籤場景研發重要性简体版

原文原文鏈接

隨着中國改革開放程度的加深，互聯網行業也逐漸出現變革，典型的變化就是由原來的低端重複性造輪子，逐步轉向高端，以技術創新爲主導。一個有力的證實就是近年來以技術驅動的創業公司愈來愈多，這在10年前是不可想象的。在人才要求上，對工做經驗再也不那麼看重，而更加劇視求職者的學歷，專業，背景。程序員

在這樣的背景下，一些原來傳統的互聯網大公司，將逐步失去競爭優點。固然事實上也沒這麼邪火，這個變化是緩慢的，也有許多公司不肯意接受應屆碩士，嫌棄他們沒有Ai經驗。由於他們認爲學術界和工業界有鴻溝。可是一些真正以技術創新驅動的Ai公司，更加青睞於高學歷，有研發背景的海歸。說句實話，目前國內的Ai，可以搞的起來的，也就那麼幾家而已，其他的都是炒做。一些新興的Ai創業公司，除了商湯，依圖，雲從，曠視外，nlp領域並無出現獨角獸。因此重點談一下nlp。算法

3月10號北理工舉辦了一場知識圖譜研討會，與會邀請了9位學術界和工業界的專家。在最後1個小時的問答環節裏，有聽衆向專家提出了這麼一個問題：招聘網站要作求職者和jd的匹配度，如何解決這樣的問題?專家搗鼓了半天，最後也沒給出使人滿意的答案來。其實我認爲，真正能解決問題的人，還不必定就是這些學術界的專家。都說場景是Ai第一要素，若是一我的成天期望着發論文活着，那麼他的思惟裏，對場景的概念應該是淡化的。迄今爲止，見到過的最務實的研發應該數阿里的達摩院了。阿里有真實海量的數據，有明確的落地場景，在這樣的背景下砸1000億搞研發，是比較靠譜的。函數

以前我有一個觀點，那就是研發Ai方案以前，必定要把人類自身對於特定場景的邏輯搞明白了，從中抽象出數學模型出來。而後作現有算法模型與場景的匹配度，若是全都匹配不上，那就在原來的基礎上從新整合出的模型出來。可是很遺憾，不少工業界的程序員並無意識到這個問題，對於一個算法，他的核心歷來不是公式推導，而是這個算法是如何產生的，能解決哪些問題，不能解決哪些問題，以及算法的缺陷和改進的方向。說白了，研發就是把握好大的方向，好比深度學習在語義理解中承擔什麼樣的角色？不少學者追捧如何改進seq2seq,論文滿天飛，從個人角度來看，這些工做是沒有太大的實際意義的。包括機器翻譯，單純依靠NMT也是不切實際的。固然，seq2seq對於描述性的文本，是很好的。對於描述性的文本，深度學習都會發揮很好的效果。緣由就是描述性的文本，規則不是很強，更須要向量這種語義表示來作語義類似度運算，這就是場景的問題了。而對於規則性強的場景，翻譯就得靠規則和語義類似度替換了，而對於商品標題這類問題，因爲大部分標題都是拼湊的，並非很符合語法，因此用seq2seq效果會不好的，這個時候統計建模就會發揮做用了。學習

之前面提到的招聘網站jd匹配問題，專家在篩選簡歷的時候和hr確定不同。因爲hr不懂技術，在看簡歷的時候，更可能是依靠規則，一條一條地比對，而每條規則的比重是不一樣的。好比老闆要求學歷是至高無上的，那麼hr在看簡歷時，每每先看學歷，一看不是海歸，或者985碩士博士，直接pass掉了。這就基於規則的邏輯，一條一條地看，評分，最後給出綜合的印象。而一樣的場景，技術專家篩選簡歷，除了這些規則外，他們會重點關注候選人的技術，自學能力，潛力，尤爲是一些描述性的文本，會重點關注。因此每每hr認爲不合適的，技術專家反而認爲合適。那麼，這樣的一個場景，很顯然咱們作模型匹配度的時候，是必須考慮二者的因素的。對於第一因素規則，這些規則實際上是有優先級關係的，好比劃分爲重要，必要，次要三個級別，每一個級別對最後綜合得分的貢獻度不一樣，也就是權重不一樣。在人工干預的階段，把這些規則全都羅列出來作處理。而這些規則會大量出如今結構化的文本中，由於一篇簡歷，總體會包括結構化的文本和描述性的文本兩部分。好比公司的實驗室想招聘AI研發人員，那麼學歷，學校，專業的優先級就是重要的，獲獎狀況，背景平臺是必要的，那麼畢業時間等其餘因素就是次要的。這些規則的權重不一樣，最後加權求和獲得基於規則的得分。網站

具體方案如上圖所示：其中u爲根據規則獲得的類似度分數，最後求總分的時候引入平滑係數，是由於兩部分的比重在實際中是不一樣的，須要手動調節。採用MSE做爲損失函數。另外在jd中，有的描述，好比可以修改lucene源代碼等，若是採用規則，效果會很是差，由於大部分程序員都是僅僅會使用lucene而已。因此簡歷中出現了lucene,並不表明就合適。翻譯

以前有人問過我，他們公司作的抽取，要求抽取出高管，基於規則很是差，準確率只有70%多，不知道怎麼解決。一句話，知識圖譜是良方。blog

學會case by case，遠比死學算法知識重要，仍是那個觀點，對於AI算法，推導不是核心。深度學習

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。