文本分類——特徵選擇概述

內容提要 特徵選擇概述 常見模型 文檔頻率(DF) 卡方校驗(CHI) 信息增益(IG) 互信息(MI) 特徵選擇概述   在向量空間模型中,文本能夠選擇字、詞組、短語、甚至「概念」等多種元素表示。這些元素用來表徵文本的性質,區別文本的屬性,所以這些元素能夠被稱爲文本的特徵。在文本數據集上通常含有數萬甚至數十萬個不一樣的詞組,如此龐大的詞組構成的向量規模驚人,計算機運算很是困難。進行特徵選擇,對文
相關文章
相關標籤/搜索