文本關鍵字提取

文本關鍵字提取

用途:

  • 用核心信息表明原始文檔
  • 在文本聚類、分類、自動摘要等領域又很重要的做用

需求:針對一篇文章,在不加入人工干預的狀況下提取出關鍵詞(自動提取)算法

  1. 固然,首先須要進行分詞!
  2. 關鍵詞匹配:事先給定關鍵詞庫,而後在文檔中進行關鍵詞檢索
  3. 關鍵詞提取:根據某種準則,從文檔中提取最重要的詞做爲關鍵字
  • 有監督:提取出候選詞並標記是否爲關鍵詞,而後訓練相應的模型
  • 無監督:給詞條打分,並基於最高分值提取

無監督方式的分析思路:基於詞頻

  • 分析思路1:按照詞頻高低進行提取(存在弊端
    • 大量的高詞頻詞並沒有意義(例如停用詞
    • 即便出現頻率相同,常見詞的價值也明顯低於不常見詞
  • 分析思路2:按照詞條在文檔中的重要性進行提取
    • 如何肯定詞條在該文檔中的重要性?TF-IDF算法
    •  基於網絡圖
相關文章
相關標籤/搜索