文本關鍵字提取
用途:
- 用核心信息表明原始文檔
- 在文本聚類、分類、自動摘要等領域又很重要的做用
需求:針對一篇文章,在不加入人工干預的狀況下提取出關鍵詞(自動提取)算法
- 固然,首先須要進行分詞!
- 關鍵詞匹配:事先給定關鍵詞庫,而後在文檔中進行關鍵詞檢索。
- 關鍵詞提取:根據某種準則,從文檔中提取最重要的詞做爲關鍵字
- 有監督:提取出候選詞並標記是否爲關鍵詞,而後訓練相應的模型
- 無監督:給詞條打分,並基於最高分值提取
無監督方式的分析思路:基於詞頻
- 分析思路1:按照詞頻高低進行提取(存在弊端)
- 大量的高詞頻詞並沒有意義(例如停用詞)
- 即便出現頻率相同,常見詞的價值也明顯低於不常見詞
- 分析思路2:按照詞條在文檔中的重要性進行提取
- 如何肯定詞條在該文檔中的重要性?TF-IDF算法
- 基於網絡圖