語音轉文字對話識別

對話識別分析spa

哈工大的語音輸入轉文字是每說一句話添加一個逗號,說完就是句號,如如下示例:it

阿德自豪地說,固然嘍,我此次坐的飛船是新型的,阿德說,外婆,據說月球上的科研人員已研製出了無污染的太陽能汽車,市場上有賣的嗎。方法

直接看結果是得不出說話者所說的話的,因而,我針對這種句式進行分析提出一些識別對話方案。文字

通常出現的狀況:

對話開始標誌:

    句子結尾部分爲「...說」、「...問」、「...叫一聲」、「XX問XXX」、「...說道」、「...問道」、「...喊道」、「...喊着」、「...喊」

例如:

小白兔大聲喊:「燕子,燕子,你爲何飛得這麼低呀?」

睡蓮問:「小螞蟻,你怎麼啦?」

代碼實現方案:採用String的endsWith方法判斷是否有這些標誌

對話結束標誌:

1.對話結束的下一句出現另外一個主語,以及含有「XX說」

   例如:

        阿德自豪地說,固然嘍,我此次坐的飛船是新型的,阿德說,外婆,據說月球上的科研人員已研製出了無污染的太陽能汽車,市場上有賣的嗎。

   原句:

        阿德自豪地說:「固然嘍!我此次坐的飛船是新型的。」阿德說:「外婆,據說月球上的科研人員已研製出了無污染的太陽能汽車,市場上有賣的嗎?」

    代碼實現方案:採用String的endsWith方法判斷是否有這些標誌

2.下一句出現前一句的說話者

    例如:

         他猛地跳起來,說我也要幹第八次他四處奔走,招集打散的軍隊,動員人民起來抵抗。

    原句:

         他猛地跳起來,說:「我也要幹第八次!」他四處奔走,招集打散的軍隊,動員人民起來抵抗。

    代碼實現方案:將文本進行分詞處理,找出主語。

3.下一句句式爲「XXX的話剛說完」其中XXX爲開頭的說話者

    例如:

         地球爺爺說,不,我有手,並且有很大很大的力氣,能讓成熟的桃子掉下來,能讓踢到半空的足球掉下來,個人手,就是大家看不見的地心引力,地球爺爺的話剛說完,幾個桃子又從樹上掉了下來。

    原句:

         地球爺爺說:「不,我有手,並且有很大很大的力氣,能讓成熟的桃子掉下來,能讓踢到半空的足球掉下來……個人手,就是大家看不見的地心引力。」地球爺爺的話剛說完,幾個桃子又從樹上掉了下來。

   代碼實現方案:採用String的endsWith方法判斷是否有這些標誌

4.XXXXX說」XXX爲說話者,XX爲聽者,結束標誌,爲「XX聽了」。或者「XXXXX」,結束標記爲「XX/回答」

     例如:

          (1)伊琳娜越想越生氣,次日一早就去問朗志萬,您怎麼能夠提這樣的問題,來哄騙咱們小朋友呢,朗志萬聽了,哈哈大笑。

          (2)爺爺笑着問我,你知道這車要通過哪幾座主要城市嗎,我眨了眨眼睛說,鎮江,常州,無錫,蘇州,對嗎。

     原句:

          (1)伊琳娜越想越生氣,次日一早就去問朗志萬:「您怎麼能夠提這樣的問題,來哄騙咱們小朋友呢?」朗志萬聽了,哈哈大笑。

          (2)爺爺笑着問我:「你知道這車要通過哪幾座主要城市嗎?」我眨了眨眼睛說:「鎮江、常州、無錫、蘇州,對嗎?」

     以上只是部分分析,可能不是很全面,還須要後續的改進。

相關文章
相關標籤/搜索