中文自然語言處理的完整流程

第一步:獲取語料     語料,即語言材料。語料是語言學研究的內容。語料是構成語料庫的基本單元。所以,人們簡單地用文本作爲替代,並把文本中的上下文關係作爲現實世界中語言的上下文關係的替代品。我們把一個文本集合稱爲語料庫(Corpus),當有幾個這樣的文本集合的時候,我們稱之爲語料庫集合(Corpora)。(定義來源:百度百科)按語料來源,我們將語料分爲以下兩種: 1.已有語料 很多業務部門、公司等
相關文章
相關標籤/搜索