面試問題：2018年泰迪杯數據挖掘競賽賽題(自然語言處理、搜索引擎、文本檢索模型)

時間 2021-01-13

原文原文鏈接

1、賽題背景日常生活中人們需要閱讀大量的文本。很多情況下我們只需要從文本中查找某一些片段來解決我們的問題，這是並不需要閱讀整篇文章。因此我們希望智能閱讀技術能夠在這方面提供一些幫助。 2、系統流程圖初步設計 3、面試問題 3.1 簡單介紹一下文本預處理文本預處理主要包括三個步驟：分詞、停用詞過濾以及詞頻統計。首先是分詞。分詞即依據中文詞彙表將各個詞語單獨提煉出來。例如將「我們在教室學習」

>>阅读原文<<