在線輸入法評測介紹

時間 2020-01-05

標籤在線輸入法評測介紹简体版

原文原文鏈接

對於任何一個新產品，效果評測都是質量保證的一個重要手段，須要使用某種通用的，被普遍認可的評價標準來對產品效果進行評價。評測不只要體現出被測產品質量，也應該能體現出與相同或類似產品對比，該被測產品的優點、不足。
本文結合輸入法評測過程，分享產品評測的一些基本思路和方法，但願可以對其餘產品評測過程有些許借鑑意義。html

1. 產品評測技術
一個產品的評測，開始階段都會面臨不少的問題，好比「要評測什麼」，「怎麼執行評測」，「用什麼數據來評」等等。下文將這些問題劃分爲一個評測步驟的幾個要素，並嘗試對這些問題的解決進行介紹，最終達到實現一個基本的產品評測過程。以下圖所示：算法

2. 評測指標
不一樣的產品因爲其功能、定位的差別性，會具備不一樣的評價指標。評價指標的確立是很是重要的，一套好的的評測指標，應該可以全面、客觀、準確得衡量和體現產品質量，讓開發、測試人員及時獲取產品相關指標，瞭解產品優缺點，並可以以此爲參考採起下一步措施。
新產品初期，可能會存在難以制定完整評測指標的困難。咱們能夠嘗試從用戶的角度出發，來思考什麼樣的產品質量才稱得上好呢？好比對於機器翻譯，就須要考慮如何評價一篇譯文好壞的問題，翻譯屆推崇「信、達、雅」這三個標準，也就是要求譯文能忠於原著，準確無誤，譯文通順流暢，符合語言表達習慣等等。從中，咱們就能夠提取「忠實度」，「流利度」這一類指標來衡量翻譯系統的質量。
評測指標的制定可能還會來源於開發人員但願爲用戶提供什麼樣質量的功能，達到或者超越對手哪些方面。若是同類產品已經在業內存在，一般也會有豐富的行業標準可供參考。咱們均可從中甄別信息用來構建評測體系。
可是建議的一點是，評測指標應該與PM、Rd、QA及項目相關人員達成一致，這樣最終的評測結果纔會有更普遍的參考和借鑑意義。
以輸入法爲例，以下圖示例，用戶的需求涵蓋了輸入效果的多個方面，體現了一個高質量輸入法法應該達到的標準。咱們的評測首先圍繞着是否知足用戶需求，抽象出了一系列指標來進行衡量。從項目人員的角度出發，他們但願產品的特點是可以實現中英文混輸，而且結合在線輸入法的特性，提升長句輸入的效果。另外輸入法的基本功能還包括簡拼、聯想等，這些均可以抽象爲評測指標來進行衡量。網絡

3. 評測方法
對於評測指標的衡量方法視產品、指標而不一樣，本文將其按照實現方式分爲了以下兩類：
3.1 人工評測
人是新產品的設計實現者，也是新產品的最終使用者，由人來衡量新產品質量是比較天然的。特別是對於某些產品或者指標，因爲其自己的複雜度、不肯定性或者其餘緣由，難以像公式或者數學題目那樣簡單客觀的描述、衡量出來，例如機器翻譯中的「流利度」指標，即衡量翻譯結果是否通順流暢，符合語言習慣。藉助現有的技術能力，咱們很難找到或者實現一個工具來完成這一目標，這時就須要藉助人力來完成評測了。
在經過人力實現評測時，須要注意如下幾點
 ※ 明確評測標準，確認與評測人員在理解上達成一致，減小主觀性。
 ※ 提供評測數據、環境等所需或者肯定獲取方式。
 ※ 約定結果記錄展示方式，讓評測所得即爲所需。
使用人工評價的方法獲得的結果通常是十分準確的，但主要問題在於評測的成本過高，週期過長（評測過程可能長達幾周甚至數月），評價結果也會隨着評價人的變化和時間的推移而不一樣，這使得評價結果不可重複，缺少客觀性。在這種評測方式下，研究人員沒法迅速得知產品改進的效果，延長了產品的開發週期。
人工評測的侷限性使得自動評測同時被提上了議事日程。
3.2 自動評測
自動評測是一種經過自動化方式實現對產品質量進行衡量的評測手段，與人工評測不一樣，它須要測試人員預先肯定自動比較的規則、預期結果或者是競品對象等等。自動評測有不少種可參考的實現方式，以下對我所瞭解的方式進行簡單介紹：
3.2.1 基於標註語料的自動評測
這是一種常見的評測方法。測試人員在評價產品前，先人工標註出一批符合要求的語料或者結果，並用其來與實際產品結果進行類似程度的比較，以此獲取產品評價和分析數據。
以機器翻譯產品爲例，目前在業界使用比較普遍的基於多元匹配的自動評測方法就屬於此類。評測人員會先給出一些標準的翻譯結果，而後比較機器生成的譯文與這些翻譯之間的類似程度。同一個句子能夠有多個不一樣的參考譯文，這些參考譯文都表達同一個含義，但可能使用了不一樣的詞彙，或者雖然使用了相同的詞彙但在句中的詞序不一樣。
這樣一來，機器翻譯自動評測的問題轉換爲比較機器翻譯系統輸出的一個翻譯結果和多個經過人工產生的正確的參考譯文之間的類似度的問題，使用不一樣的類似度計算方法便可獲得不一樣的自動評測方法，而類似度計算是一個比較容易實現的算法。
經過如上過程，咱們能夠獲得衡量翻譯結果質量的相關數據。一樣，咱們還能夠在競品上使用一樣的方式來獲取評測數據。
某些場景下，咱們也能夠經過自動化的方式來獲取標準語料或者結果，這樣可以擴大數據集，提升評測效率。
3.2.2 基於競品的自動評測
這裏的基於競品的比較可能會有兩種理解，
一是經過使用相同的評測數據，統一的測試方法和評價標準，爲不一樣的產品之間提供一個能夠比較基準並得到比較數據，便於項目相關人員隨時瞭解產品相對質量，並最終促進產品的進步。
第二種是以競品的輸出爲參考，用以衡量自身產品結果的準確性和合理性。這種方法在輸入法評測中有屢次的使用。例如在衡量輸入法詞典「缺詞率」指標時，評測人員會以市面上通用的輸入法結果來作參考。若是某個拼音，其餘輸入法可以共同出現的一個候選詞，卻不在被測輸入法中候選集合中，那麼頗有可能，這就是一個缺失的候選詞。經過這種方式，咱們能夠獲取一個基本的缺詞率指標，而且能夠提交缺詞候選集供人工review。ide

3.2.3 基於規則的自動評測
評測人員爲質量標準制定評分細則，經過自動化的手段來驗證產品效果與規則的匹配程度，以此獲取產品評價和分析數據。
輸入法的「詞序合理性」指標採用了這種方式。評測人員以高頻詞表爲參考，對候選結果制定了打分規則，若是高頻詞出如今首選的位置上，打5分，次位置上，4分，依次遞減。對於有重碼率的詞，詞序符合詞頻規則的，打5分，同理依次遞減。對於單個拼音分數低於閾值的，須要重點關注。總體分值累積後，咱們能夠對輸入法的詞序效果有基本的認知，也便於與舊版本、競品進行對比。工具

3.2.4 案例：在線輸入法自動評測
在線輸入法評測主要是從詞庫質量、算法合理性、策略正確性等角度，對輸入法效果進行評估、驗證。從用戶角度衡量、發現並推進修改效果問題，提升用戶體驗。
在線輸入法的核心評測指標在第2小節已經介紹過，這裏不贅述了。咱們將核心指標分爲了兩種類別：一類爲動態評測，即經過人工方式評估用戶使用體驗和動態策略的人工評測；第二類靜態評測，歸入的是能夠經過基於規則、數據和競品比較方式，實現自動執行的評測指標。
其中在線輸入法自動評測部分是由Qa主導參與的一個過程，負責了數據獲取，工具開發、評測執行及問題反饋主體過程。測試

 ※在線輸入法評測方法
評測指標的自動化實現涉及了上文介紹的三種實現方式，舉例介紹一下。大數據

 ※在線輸入法評測系統
爲了提升評測工具的易用性，測試組將這個評測工具集成爲了自動評測系統。這個系統包含以下幾個部分：

 ·評測數據管理：負責日誌、網絡數據採集，轉換。支持評測數據集的增刪等擴展操做，可經過配置文件選取須要執行的評測數據集。
 ·評測執行管理：支持對百度、搜狗、騰訊在線輸入法發送拼音請求，結果格式解析，與標註結果對比，統計。
 ·評測環境管理：以執行時間區分評測執行記錄，可進行歷史數據的保留。
 ·結果報告管理：對各個評測集可進行準確率和覆蓋率的分析。支持競品間的對比。支持版本間的對比。優化

有了自動評測工具，項目人員對系統進行任何一點小的改進後，都隨時可使用自動評測工具來了解產品各方面效果波動狀況。這無疑會縮短研究週期，對產品的研究起到極大的推進做用。
4. 評測數據
評測數據的選取一樣是很重要的一個環節，應該儘可能作到全面、客觀、合理有效，另外我的感受還有一條很是重要的原則是「符合應用場景」，即選取貼合用戶使用情景，符合用戶使用行爲的數據，這樣儘量的保證咱們的評測結論與最終用戶的使用感受是一致的。而不恰當的評測數據會嚴重影響評測結論，甚至干擾項目人員對於產品質量的瞭解和決策。
舉一個在某輸入法評測中遇到的case：
該輸入法的評測數據選用了產品log中的用戶拼音數據，經必定過濾處理後，跑被測輸入法和其餘幾個競品，評估首次命中率，及前五個候選的覆蓋率來比較產品質量。經過這種方式，給出的評估結論是被測產品各項指標與競品基本持平，質量可接受。
可是很快用戶反饋的產品實際使用感受卻與該結論有必定差距。基於此，後續評測人員採用網絡上的文本集合進行了一次數據評估，具體採用了新聞、bbs、生活、公文等多種類別，數量集大體爲400多個，切分紅：單詞文節；短語文節；以及整句輸入，以後獲得被測產品級其餘競品的候選。這一次評估結果以下
評估結果：spa

能夠看到，被測產品在質量上要明顯要落後於競品。
在這個例子中，評測人員在初期選用了單一的日誌數據，其自己只是統計了被測產品用戶的上屏結果，該集合能夠看做是近似被測產品的goodcase集合，統計不完整且干擾信息多，不符合全面、客觀和有效的標準，用這樣的數據來作評估不足以反應產品的總體質量。方法和數據的誤差，也就致使了對於產品不許確的評價結果。翻譯

這個case除了體現了評測數據的選擇問題外，也同時引出了下面的這個問題
5. 如何評價咱們的評測方法
應該如何評價一個產品的自動評測方法一樣是一個須要考慮的問題，一方面，因爲人是產品質量的最終裁定者，所以好的自動評測方法的結果應該儘量地與人工評測的結果一致。另外一方面，評測方法和工具的易操做性也成爲須要頻繁進行評測的項目人員考慮的重要因素。操做簡單、所需資源不多，開發成本合理，才能使其獲得普遍使用；

6. 結果分析
不管是人工評測仍是自動評測，提供給項目人員經常是各類指標和海量數據。評測人員須要進一步分析，從中甄別有效信息，來了解產品的技術指標，相對水平，缺陷所在。
以3.2.2結提到過的輸入法「缺詞率」指標爲例，相比於其餘競品，在線輸入法初期獲得的缺詞指標低於0.05，基本知足項目人員的預期。但經過評測人員對缺失條目的分析後發現，大量的缺詞集中的高頻口語粘接詞上，屬於詞庫構建的一個缺陷。問題得以修復，而且高頻口語粘接詞也被添加到評測體系之中。
評測結果最終做用於被測產品，並對產品質量起到推進做用，結果分析環節的重要性也是不言而喻的。而產品自身的發展完善也將促使評測人員研究並使用更爲全面，準確地評價產品質量的評測標準，不斷地提升人們對於評測結果的承認程度。

7. 結語
本文結合了在線輸入法項目，分享了產品評測的基本過程和方法，歸納以下圖所示。

在線輸入法評測工做貫穿了整個輸入法產品的開發過程，共進行過超過百次的評測任務。評測結果數據被收錄到了輸入法產品週報，成爲項目相關人員瞭解產品效果的有效途徑。開發人員可以以此爲依據進行產品效果的持續優化，改進，最終實現了在所有指標都優於或與競品持平的狀況下發布。目前產品上線穩定後，每日在進行時效性方面的自動監控，便於開發人員按期review線上效果，同時推動了效果評測規範化和流程化。而對於測試人員，經過參與評測，也更好地加深了對產品的理解，可以從用戶的角度爲改進產品效果提出更多的意見和建議，促進產品質量的提升。

隨着評測工做的不斷開展和實踐，新的方法和思路也會不斷的涌現出來，最終但願咱們的評測工做，不只可以成爲保證產品質量的重要手段，還能對產品向前發展，領域技術進步起到重要的推進做用。

（做者：zhaoyan)

【本文首發於：百度測試技術空間】 http://hi.baidu.com/baiduqa/blog/item/843ef9418b1b0d029213c662.html

【關注百度技術沙龍】