對話識別分析spa
哈工大的語音輸入轉文字是每說一句話添加一個逗號,說完就是句號,如如下示例:it
阿德自豪地說,固然嘍,我此次坐的飛船是新型的,阿德說,外婆,據說月球上的科研人員已研製出了無污染的太陽能汽車,市場上有賣的嗎。方法
直接看結果是得不出說話者所說的話的,因而,我針對這種句式進行分析提出一些識別對話方案。文字
通常出現的狀況:
對話開始標誌:
句子結尾部分爲「...說」、「...問」、「...叫一聲」、「XX問XXX」、「...說道」、「...問道」、「...喊道」、「...喊着」、「...喊」
例如:
小白兔大聲喊:「燕子,燕子,你爲何飛得這麼低呀?」
睡蓮問:「小螞蟻,你怎麼啦?」
代碼實現方案:採用String的endsWith方法判斷是否有這些標誌
對話結束標誌:
1.對話結束的下一句出現另外一個主語,以及含有「XX說」
例如:
阿德自豪地說,固然嘍,我此次坐的飛船是新型的,阿德說,外婆,據說月球上的科研人員已研製出了無污染的太陽能汽車,市場上有賣的嗎。
原句:
阿德自豪地說:「固然嘍!我此次坐的飛船是新型的。」阿德說:「外婆,據說月球上的科研人員已研製出了無污染的太陽能汽車,市場上有賣的嗎?」
代碼實現方案:採用String的endsWith方法判斷是否有這些標誌
2.下一句出現前一句的說話者
例如:
他猛地跳起來,說,我也要幹第八次,他四處奔走,招集打散的軍隊,動員人民起來抵抗。
原句:
他猛地跳起來,說:「我也要幹第八次!」他四處奔走,招集打散的軍隊,動員人民起來抵抗。
代碼實現方案:將文本進行分詞處理,找出主語。
3.下一句句式爲「XXX的話剛說完」其中XXX爲開頭的說話者
例如:
地球爺爺說,不,我有手,並且有很大很大的力氣,能讓成熟的桃子掉下來,能讓踢到半空的足球掉下來,個人手,就是大家看不見的地心引力,地球爺爺的話剛說完,幾個桃子又從樹上掉了下來。
原句:
地球爺爺說:「不,我有手,並且有很大很大的力氣,能讓成熟的桃子掉下來,能讓踢到半空的足球掉下來……個人手,就是大家看不見的地心引力。」地球爺爺的話剛說完,幾個桃子又從樹上掉了下來。
代碼實現方案:採用String的endsWith方法判斷是否有這些標誌
4.「XXX對XX說」XXX爲說話者,XX爲聽者,結束標誌,爲「XX聽了」。或者「XXX問XX」,結束標記爲「XX說/回答」
例如:
(1)伊琳娜越想越生氣,次日一早就去問朗志萬,您怎麼能夠提這樣的問題,來哄騙咱們小朋友呢,朗志萬聽了,哈哈大笑。
(2)爺爺笑着問我,你知道這車要通過哪幾座主要城市嗎,我眨了眨眼睛說,鎮江,常州,無錫,蘇州,對嗎。
原句:
(1)伊琳娜越想越生氣,次日一早就去問朗志萬:「您怎麼能夠提這樣的問題,來哄騙咱們小朋友呢?」朗志萬聽了,哈哈大笑。
(2)爺爺笑着問我:「你知道這車要通過哪幾座主要城市嗎?」我眨了眨眼睛說:「鎮江、常州、無錫、蘇州,對嗎?」
以上只是部分分析,可能不是很全面,還須要後續的改進。