語料切詞算法研究

時間 2019-12-05

標籤語料算法研究简体版

原文原文鏈接

1，語料切詞需求

實際工程中，常有將文字轉爲語音播放的需求。好比車輛進場時播放「京B123Y5歡迎光臨」，車輛離場時播放「請繳費15元，一帆風順」等。算法

語料指基礎的語音材料，是控制系統提供的可播放的語音片斷。語料庫通常包括：單個的字母數字、使用漢字、經常使用的詞語組合如「歡迎光臨」、「一帆風順」等。以下表：編程

表1，語料庫

好比，要播放「京B123Y5歡迎光臨」，按照上述語料庫，分別對應：京à63，Bà38，1à1，2à2，3à3，Yà61，5à5，歡迎光臨à18，就須要按順序傳遞「語音索引號」參數列表：63，38，1,2,3,61,5,18

本文研究對於給定的語料庫，輸入任意文字字符串，如何高效轉換爲語料庫中對應的「語音索引號」列表。

顯然，要實現上述需求，就要對輸入的文字串進行切分（即切詞），同時切分以後的各部分片斷應知足如下要求：

1) 儘量多地對應於語料庫元素，即沒法讀出的片斷儘可能少

2) 優先採用語料庫中較長元素，使語音讀出更加天然。如，假設語料庫中有「有效期」、「有效」、「期」三種元素，那麼切詞應將「有效期」切爲一個詞，而不是切爲「有效」、「期」2個詞。

3) 計算速度儘量快，耗用CPU和內存儘量少。

首先，因爲切詞的位置和長度不肯定，形成切詞結果的可能性組合很是大。如輸入一個20字符的句子，對於一個語料長度最多10字符的1000條語料庫來講，徹底的匹配計算次數爲：

1000*10^20次。參照主流PC機每秒100億次浮點運算的能力，須要時間爲10^13秒。而通常實際要求均須要毫秒級反饋，所以採用有效算法進行查找十分必要。

有效算法依賴於有效的查找表，構建一個適合順序查找的「語料查找表（PLT）」頗有必要。如下爲構建要點：

1) 基於語料庫

2) 按語料欄位排序，而不是按索引號排序

3) 爲知足「要求3「，應從第一個字符開始比對和定位，所以對於語料庫中不存在首單字索引的語料，要增長「虛擬」語料。如語料庫中有「歡迎」一詞，但沒有「歡」這個字，就增長一條語料「歡」，其索引爲 -１，表示不存在。

4) 擴展PLT欄位：除了語音元素（語料）、索引號之外，增長長度、標記。

a) 長度爲語音元素的字節數。如A長度爲1，「歡迎光臨「長度爲8

b) 標記爲語料查找提供提示。詳見第5條。

5) 爲知足「要求2「，在已經查找到語料時，應繼續向後查找，看看是否能匹配到更長的語料。假設第L條語料的語音元素爲Y（L），若Y(L)不包含在Y(L+1)中，則沒必要向後查找，此時第L條語料的「標記」欄位設置爲0；不然設置爲1，其後凡包含Y(L)的語料，設置「標記」欄位爲2.

語料查找表（PLT，Part Lookup Table）編制原理如上，具體編制過程可編程實現。

以下是依據「表1，語料庫」實現的一個PLT。