python實現中文文本分句

對於英文文本分句比較簡單,只要根據終結符"."劃分就好,中文文本分句看似很簡單,可是實現時會遇到不少麻煩,尤爲是處理社交媒體數據時,會遇到文本格式不規範等問題。下面代碼針對一段一段的短文本組成了文檔分句html import re def cut_sent(infile, outfile): cutLineFlag = ["?", "!", "。","…"] #本文使用的終結符,能夠修改
相關文章
相關標籤/搜索