NLP-C2-W3-N-gram和自動補全

自動補全系統的一個關鍵組成部分是語言模型。給語言序列分配概率,更容易出現的序列得分越高。例如,「我有一支筆」比「我是一支筆」的概率更高,因爲第一個句子在現實世界中更容易出現。 步驟 加載和預處理數據 加載和tokenize數據 把句子分成訓練集和測試集。 用一個<unk>標記替換低頻單詞。 開發基於N-gram的語言模型 從給定的數據集計算n_gram的計數。 用k-smoothing估計下一個詞
相關文章
相關標籤/搜索