自然語言處理(NLP)筆記-文本預處理

時間 2021-07-12

標籤 natrual language processing 自然語言處理简体版

原文原文鏈接

文本預處理（text pre-processing) Why: 單詞由於時態，單複數，比較級等不同有不同的形態典型的文本預處理步驟： Tokenisation: 將文本分割爲句子，然後分割爲單詞。句子分割（sentence segmentetion）：在語法上正確的意思獨立的最短的一組詞。通過標點進行分割，歎號和問號是明確的，但是句號卻有點模糊（例如縮寫或者小數等）。可以通過a.手寫規則（if

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。