中文信息處理之正向最大匹配法(上)

文章目錄 一、工具 二、任務分詞 1. 抽取詞表,統計詞頻 一、工具 語言:python3.5 語料:人民日報語料 二、任務分詞 1. 抽取詞表,統計詞頻 給的素材如圖 1 所示: 觀察上邊的格式,可以得到:所抽取的文本信息(包括標點)都是在兩個空格和 / 之間,所以正則表達式如下: # text 是文本信息 import re pattern = re.compile(r' (.*?)/')
相關文章
相關標籤/搜索