自然語言處理(NLP)筆記-文本預處理

文本預處理(text pre-processing) Why: 單詞由於時態,單複數,比較級等不同有不同的形態 典型的文本預處理步驟: Tokenisation: 將文本分割爲句子,然後分割爲單詞。 句子分割(sentence segmentetion):在語法上正確的意思獨立的最短的一組詞。通過標點進行分割,歎號和問號是明確的,但是句號卻有點模糊(例如縮寫或者小數等)。可以通過a.手寫規則(if
相關文章
相關標籤/搜索