「千言數據集：文本類似度」權威評測，網易易智榮登榜首

日前，網易數帆旗下人工智能技術與服務品牌——網易易智在CCF和百度聯合舉辦的「千言數據集：文本類似度」行業測評中擊敗多支勁旅，榮登榜首。算法

文本類似度，即識別兩段文本在語義上是否類似，在天然語言處理（NLP）領域是一個重要研究方向，目前已大規模商用於智能客服、信息檢索、新聞推薦等領域，如已服務超40萬企業客戶的網易七魚智能客服，背後就有這項技術的支撐。markdown

榜單中「網易杭州研究院」爲網易易智團隊學習

知識沉澱與技術積累立功，網易易智文本類似度雄踞榜首

「千言數據集」系列評測是中文天然語言處理領域的大規模賽事，其中文本類似度開源項目收集了來自哈爾濱工業大學的LCQMC、BQ Corpus，以及谷歌的PAWS-X（中文）等公開數據集，指望對文本類似度模型效果進行綜合的評價，推進文本類似度在天然語言處理領域的應用和發展。測試

據瞭解，這些公開數據集在相關論文的支撐下，對現有的公開文本類似度模型進行了較全面的評估，具備較高的權威性，表明了文本類似度技術研究的最高水準。大數據

哈爾濱工業大學（深圳）LCQMC數據集任務示例優化

在本次文本類似度測評中，網易易智結合了多年技術經驗積累，和大規模預訓練語言模型的運用，再加上對比賽任務進行的針對性優化，取得了目前的優異成績。人工智能

網易易智的參賽隊伍表示，此次比賽任務主要有2個難點。一個難點是BQ Corpus數據集是金融領域的數據，該數據集涉及到金融行業的大量知識，而通用預訓練語言模型難以捕捉到特定行業的潛在知識。爲此，團隊採用半監督學習等方式，從網易內部多個業務場景中挖掘出泛金融領域知識，進而得到金融領域預訓練語言模型，最終在該任務上較大幅度領先於其餘參賽團隊。spa

而另外一個難點是PAWS-X數據集的質量問題，該數據來自於英文的翻譯，翻譯內容與真實中文有出入，尤爲會對算法形成干擾的是實體詞（如人名、地名）的翻譯不統一，即相同的人名，前一個句子保留英文原文，後一個句子卻音譯爲中文。針對這個數據特色，網易易智利用自研的NER（命名實體識別）服務進行實體詞的識別與歸一化，並利用自研的中文文本糾錯服務糾正其中的錯別字、語病以後，再進行模型訓練，最終在該任務上也取得了第一。翻譯

網易易智助力七魚機器人精準理解客戶訴求

網易易智基於文本類似度等系列NLP技術構建了一套智能對話系統，服務集團內部多個業務，如嚴選客服、IT諮詢等，並與七魚業務聯合打造智能客服機器人產品，服務集團外部客戶。code

以九陽股份有限公司爲例，其核心訴求之一，是經過高效、精準、人性化的諮詢服務保障用戶的購物體驗，如用戶對於小家電產品功能、操做、價格、優惠活動、養護、維修等問題的諮詢。

爲此，九陽接入了網易七魚在線機器人，在問題匹配率可高達90%以上的基礎上，提供更懂用戶的智能服務體驗。**基於網易易智文本類似度算法，七魚在線機器人實現了核心語義匹配，從而達成BOT、FAQ等功能。此外，經過語義匹配技術，七魚在線機器人還實現了對知識庫的智能挖掘與生成。**藉助這些能力，七魚在線機器人能夠高效、精準地解答不一樣場景下的客戶問題。

而在快遞領域，申通快遞也接入了七魚智能客服應對快遞諮詢問題，這是一個與上述金融、小家電徹底不一樣的領域，然而運用網易易智一樣的技術原理，智能客服快速實現了類似的效果。

網易易智NLP促進數字業務創新

文本類似度技術的商業價值並不侷限於智能客服領域。據網易易智負責人介紹，文本類似度技術大類歸於文本匹配，除了對話引擎裏，該技術在網易內部還有更多的應用落地，如網易雲音樂中的評論智能挖掘、直播/短視頻中的歌詞匹配以及知識公路業務中的視頻選題類似度檢測等創新解決方案應用。

而從整個技術領域來看，做爲一門讓機器理解人類語言的技術，NLP素有「人工智能皇冠上的明珠」之稱，既是難以攻克的前沿課題，也對數字業務創新具備重要的意義。除了文本類似度，網易易智也一直在探索NLP技術與業務創新的最大公約數，並取得了一些階段性的成果。

例如，語義解析技術在軟件測試中的使用，顯著提高自動化水平、實現降本增效，這對於數字化軟件質量的保障很是有利；文本糾錯技術在網易新聞等文稿審校場景中大規模使用，將拼寫及語法等錯誤及時發現並予以糾正，大幅提高用戶閱讀體驗，同時下降內容生產的工做量。

將來，網易易智還將聯合網易數帆旗下有數團隊，探索NLP在大數據系統中的應用，如支持業務人員與分析系統的天然語言交互，使得企業可以更好地發揮大數據的價值。