面試問題:2018年泰迪杯數據挖掘競賽賽題(自然語言處理、搜索引擎、文本檢索模型)

1、 賽題背景 日常生活中人們需要閱讀大量的文本。很多情況下我們只需要從文本中查找某一些片段來解決我們的問題,這是並不需要閱讀整篇文章。因此我們希望智能閱讀技術能夠在這方面提供一些幫助。 2、 系統流程圖初步設計 3、面試問題 3.1 簡單介紹一下文本預處理 文本預處理主要包括三個步驟:分詞、停用詞過濾以及詞頻統計。 首先是分詞。分詞即依據中文詞彙表將各個詞語單獨提煉出來。例如將「我們在教室學習」
相關文章
相關標籤/搜索