機器學習 - 特徵選擇算法流程、分類、優化與發展綜述

原創做品,轉載請聯繫做者:微信(sunx5126)。算法

摘要:隨着大數據時代的到來,各行各業涌現的海量數據對數據處理的技術提出了新的挑戰,而特徵選擇做爲一種常見的降維方法也獲得愈來愈多的重視。本文概述了特徵選擇的流程和分類,而後主要從其優化發展歷程詳述不一樣類別特徵選擇算法的研究和應用,並基於此指出從此特徵選擇的發展方向。
關鍵詞:特徵選擇 特徵關聯,無監督,非完備系統,非均衡類別express

Abstract:With the advent of the era of big data, huge amounts of data that appeared in all walks of life brings a new challenge to data processing technology, as a common dimension reduction method, feature selection is becoming a more and more hop topic. This article outlined the general process of feature selection and classification, and then mainly analyse the development and application of the different category feature selection algorithm based on its performance optimization, and points out the future trend of feature selection.
Keywords: feature selection, non-supervision, incomplete information systems, unbalanced category微信

1 引言
特徵選擇指的是從原始輸入的特徵中選擇使得某種評估標準最優的特徵子集的過程。在其發展初期,主要是從統計學和信息處理的角度進行研究,所涉及的問題一般特徵數目很少[1 2 3]。隨着互聯網技術的發展,各行業數據的增長,特徵選擇也獲得愈來愈多的重視,被普遍研究和應用。網絡

2 定義及基本流程app

2.1 特徵選擇定義
給定樣本數據集T={O,F,C},其F={f1,f2,...fm},C={c1,c2...cm},O={o1,o2,...om}分別表示特徵,類別和數據樣本集。令J:2F→[0,1]爲特徵子集的評價函數,其中J(X)的值越大,表示特徵子集X所含信息量越多,在這種狀況下,特徵選擇算法一般有以下三種類型:
1 從特徵集F中找到一個特徵子集X,使得J(X)最大;
2 給定閾值J0,從F中找到一個最小本身X,使得J(X)>J0;
3 從F中找到一個子集X,使得J(X)儘可能大,且X中的特徵束儘可能少。
這三種表示方式體現了特徵選擇的不一樣方面和側重點,其中第一條着重所選特徵子集所含信息量,即選擇過程當中儘量不丟失信息;第二條強調選擇一個知足給定條件的最小子集;最後一條則是在子集大小和信息量之間去一個折中值。框架

2.2 基本流程
通常而言,特徵選擇過程由初始子集設定,搜索策略,子集評價和終止條件這四個部分組成。dom

初始子集設定是特徵選擇算法的開始,它的選擇對後面的搜索策略有直接的影響,若是初始子集S爲空,搜索過程將向選擇子集中加入候選特徵,即前向搜索;若是初始子集爲原始特徵空間,搜索過程將從特徵子集S中不斷剔除無關或不重要的特徵,即後向搜索;若是特徵子集從特徵集F中隨機產生,那麼搜索過程採起隨機搜索策略添加候選特徵或刪除已選特徵。
終止條件是根據候選子集的評價分值J(S)或其餘約束條件斷定當前候選子集S是否知足預先設定的條件,若條件知足,則選擇算法結束,返回後選擇特徵子集S做爲最終結果,不然搜索過程繼續循環,生成新的候選子集,直到終止條件知足便可,特徵選擇算法中常用如下終止條件:
(1) 候選子集S的特徵數目超出預先給定的閾值
(2) 搜索循環的次數超出預先給定的閾值
(3) 評價函數值J(S)達到最高或是最優
(4) 評價函數值J(S)超出預先給定的閾值
搜索策略和評價標準是特徵選擇算法的兩個關鍵問題,好的搜索策略能夠加快選擇度,找到最優的解,好的評價標準能夠保證所選擇的子集信息量大,冗餘小。
評價標準指根據某種評價準則中對所選擇的特徵及其子集的優劣程度進行評估的手段,直接決定選擇算法的輸出結果及分類模型的性能。評價標準的選擇一直都是特徵選擇算法的研究熱點,到目前爲止,提出了許多評價標準[4,5,6],包括: 距離度量,一致性度量[7,8],依賴性度量[9],信息度量[10],分類偏差度量[11,12]。機器學習

3 分類
採用不一樣的評價標準,特徵選擇算法大體能夠分爲如下幾種類型:函數

1) 搜索策略:基於窮舉搜索,序列搜索,隨機搜索
特徵選擇過程某種程度上就是一個子集搜索尋優問題。窮舉式搜索指的是對特徵空間每個特徵進行評價和度量,能夠搜索到每一個特徵子集。一般開銷大,計算時間長,不適合大規模的數據處理。
序列搜索在搜索過程當中依據某種次序不斷向當前特徵子集中添加或剔除特徵,從而得到優化特徵子集。比較典型的序列搜索算法如:前向後向搜索[13]、浮動搜索[14]、雙向搜索[13]、序列向前和序列向後算法等。序列搜索算法較容易實現,計算複雜度相對較小,但容易陷入局部最優。
隨機搜索由隨機產生的某個候選特徵子集開始,依照必定的啓發式信息和規則逐步逼近全局最優解。例如:遺傳算法(Genetic Algorithm, GA)、模擬退火算法(SimulatedAnnealing, SA)、粒子羣算法(Particl Swarm Optimization,PSO)和免疫算法(Immune Algorithm, IA)等。性能

2) 度量標準:基於距離,依賴性,一致性,信息熵和分類偏差
度量標準指用來評價特徵選擇算法性能的及其子集的優劣程度的手段。
基於距離指的是採用歐氏距離,馬氏距離等標準來衡量特徵間的相關性以及特徵與類別間的相關性。在向量空間模型的支持下,距離遠則表示相關性小,距離近則表示相關性大。
依賴性利用類別域特徵之間的統計相關性質度量特徵的重要性程度,即若是已知兩個變量是統計相關的,那麼就能夠利用其中一個變量的值來預測另外一個變量的值,當前,已經有許多統計相關係數,如t-test,F-measure,Parson相關係數,機率偏差,Fisher分數[15]等來描述特徵間及特徵與類別的相互依賴性。
一致性度量:給定兩個樣本,若他們的特徵值均相同,但所屬類別不一樣,則稱它們是不一致的,不然是不一致的[16]也就是說,不一致樣本間是互相矛盾衝突的,由於它們具備相同的性質特徵,但屬於不一樣的類別,樣本數據集的不一致性指該數據集中不一致的樣本數與樣本總數之間的比例,一致性度量標準就是利用這個特徵點反應特徵的重要性程度[8],若是去除某特徵後,數據集的不一致性將明顯增大,那麼就認爲該特徵很重要,不然即認爲不重要,該標準的優勢是可以得到一個較小的特徵子集,但它對噪聲數據很敏感,且只適合作離散特徵。
信息度量標準主要是利用信息熵等量化特徵相對於分類類別的不肯定性程度,以斷定起包含的分類信息的含量。信息度量標準的優點是它是一種無參的非線性的度量標準,且不須要預先知道樣本數據的分佈,信息熵能很好地量化恩正相對於類別的不肯定性程度
分類偏差度量基於這樣的原理:在文本分類問題中,特徵選擇的目的是使得後期的分類準確率高,所以若是採用分類偏差做爲評價標準,獲得的特徵子集將具備更好的性能。例如,Huang等[11]使用混合的遺傳算法與分類器一同通獲取特徵子集,並能明顯提升最終分類模型的分類性能。Neumann等[12]則是利用支持向量機的分類性能做爲特徵選擇的度量標準,

3) 評估特徵的個數:單特徵的選擇方法,多特徵的選擇方法
所謂單特徵的選擇方法指的是在評價特徵的重要程度的時候是基於特徵獨立性的原則,不考慮特徵間的相關性,而多特徵的選擇方法則是創建在特徵相關的基礎上,即某一特徵是否做爲候選特徵取決於自身的重要性和對已有特徵重要性的影響。

4) 有無類別信息:監督,半監督,無監督
對於有監督的特徵選擇,即在分類中樣本事先有類別信息,考慮特徵與類別間的相關性進行選擇,無監督的特徵選擇則無類別信息,根據特徵相關性進行聚合,通常來說,相關性越大的的特徵,重要性就越高。近些年來,也有學者開始研究半監督特徵選擇,因爲在文本分類中,類別信息是比較缺少的,然而單純的無監督技術並不夠成熟,所以不少學者採用先無監督聚類,而後在此基礎上考慮類別與特徵的相關性進行選擇。

5) 與學習算法的關係:Embedded[17,18,19],Filter,Wrapper[20,21]和混合選擇算法
特徵選擇在機器學習中被普遍使用和研究,根據特徵選擇與學習算法的關係,特徵選擇分爲不一樣的類別:
在嵌入式結構中,特徵選擇算法自己做爲組成部分嵌入到學習算法裏。如某些邏輯公式學習算法是經過向公式表達式中加減特徵實現的[22]。最典型的是決策樹算法,如Quinlan 的 ID3和C4.5[17,18]以及Breiman 的CART算法[19]等,決策樹生成的過程也就是特徵選擇的過程。
過濾式特徵選擇的評估標準獨立於學習算法,直接由數據集求得,評估依賴於數據集自己,一般是選擇和目標函數相關度大的特徵或者特徵子集。通常認爲相關度大特徵或者特徵子集會對應獲得後續學習算法較高的準確率,過濾式特徵選擇的評估方法不少,如類間距離,信息增益,關聯度以及不一致度等。
考慮到和學習法無關的過濾式特徵評價會和後續的分類算法產生較大的誤差,而學習算法基於所選特徵子集的性能是更好的特徵評價標準,不一樣的學習算法偏好不一樣的特徵子集,既然特徵選擇後的特徵子集最終將用於後續的學習算法,那麼該學習算法的性能就是最好的的評估標準。所以在Wrapper特徵選擇中將學習算法的性能做爲特徵選擇的評估標準。

4 優化發展歷程
特徵選擇最先從60年代起就有學者對此進行研究,發展到今天已有50多年的時間,特徵選擇的地位,做用隨着數據處理的需求的變化而不斷變化着,同時,外界的需求變化也對特徵選擇的技術不斷提出新的要求,爲了適應不斷更新的各行各業的數據,特徵選擇技術也在發生着質的變化,逐漸變得強大,方便各行各業的使用。整體來說,特徵選擇算法經歷了以下幾個重大的變化歷程:

4.1由基於閾值的單一的特徵選擇算法到多種特徵選擇算法結合尋找最優的特徵子集
基於閾值的單一的特徵選擇計算簡單,複雜度低效率高,適合作文本分類中的特徵選擇,主要有:文檔頻率方法(DF)[23] , 信息增益方法(IG) [ 23] ,互信息方法(MI) [23] ,CHI[23] 方法,指望交叉熵[24],文本證據權[24],優點率[24],基於詞頻覆蓋度[25],主份量分析[26] ,Focus,Relief,ReliefF的特徵選擇方法等,對於文本分類的特徵選擇的研究,比較有表明性的是Yang Yiming[27] 和Dunja Mladenic[ 27]的工做。
組合式的特徵選擇指多種特徵選擇算法一塊兒使用來選出最優的特徵子集。因爲每個特徵選擇的算法具備不一樣的優缺點,在單獨使用的時候沒法克服自身的缺陷,於是不一樣的算法正好優點互補。結合方式組要有如下幾種:
a、基於信息論和信息度量的各種特徵選擇算法的串聯結合:如Tf-idf(單純組合,基於位置的組合方式)IG-DF,TF-DF等。
b、遺傳算法[23] 和 禁忌搜索[24] 陳等提出了遺傳算法和禁忌搜索相混合的搜索策略GATS,並在此策略基礎上提出了特徵選擇算法FSOSGT,提升了特徵選擇的速度[28]。
c、遺傳算法和人工神經網絡[29]
謝等採用數理統計方法分析訓練先後神經網絡權值的變化狀況,改進權鏈接剪切算法,並得到適合具體問題的非全鏈接神經網絡。提出基於特徵模糊化和神經網絡的特徵選擇,並經過實驗證實了其有效性[29]。
d、序列搜索策略和分類性能評價準則. 文獻[25]、[26]、[30]中用序列搜索策略(SBS,SFS,FSFS)和分類性評價準則相結合來評價所選的特徵,也取得不錯的效果,相對於使用隨機搜索策略,節約時間。
e、Wrapper和隨機搜索策略。
文獻[31]提出用決策樹進行特徵選擇的Wrapper方法,用遺傳算法尋找使得決策樹分類錯誤率最小的一組特徵子集。文獻[27]結合正態極大似然模型來進行特徵選擇和分類, [32]用遺傳算法結合人工神經網絡進行一樣嘗試。[33]採用了支持向量機SVM 做爲分類器使得分類準確率能進一步提升。
f、集成學習文獻中的Filter和Wrapper結合的多種算法[34]
張提出了一系列Filter和Wrapper結合的特徵選擇算法,如Relief-Wrapper,主成分分析(principle component analysis),Recorre,Resbsw,Relief-GA-Wrapper等。
Filter與Wrapper方法的結合是如今的研究熱點。

4.2從基於完備決策表的特徵選擇到基於非完備決策表的特徵選擇算法
在特徵選擇技術發展的初期,數據比較單一且數據量小,直接對缺省值進行填充,而後看成完好省的數據集處理。所以特徵選擇最初發展的時候都基於完備決策表,一些學者提出了有效的約簡算法。如Hu等給出了一種較好的啓發式函數[35],提出了基於正域的屬性約簡算法; Wang等用信息論觀點和代數觀點對知識約簡進行了研究[36], 用條件熵爲啓發式信息求解決策表的約簡; Liu等提出了一個以區分矩陣爲基礎的基於屬性序的完備算法[36];Guan等在等價關係的基礎上定義了等價矩陣,經過矩陣的計算來刻畫粗糙集計算等[37],以上的算法可以下降完備意義下特徵選擇時間消耗, 提升效率。
對於缺省值經過某種標準進行補全使得完備意義下的特徵選擇算法可以正常進行,但填充的值畢竟跟實際的值,或者在直接缺省的狀況下是有偏差的,並且若是須要對缺省值進行精確預測,則要求相對較複雜的預測方法,這無疑給特徵選擇前的預處理帶來了很大的時間開銷和複雜度,所以,如何不對缺省值進行處理,就現有的非完備的信息系統提取有用的信息特徵就顯得相當重要。經典粗糙集理論的等價關係再也不適合.因而,完備信息系統被推廣到了非完備信息系統[38,39] .
針對非完備意義下的信息系統或決策表的特徵選擇, 近年來一些做者也作了初步探索[ 40,41] 。Liang 等給出了非完備信息系統中粗糙熵的定義[41], 並提出了基於粗糙熵的知識約簡算法; Huang 等[ 42] 經過引入信息量來刻畫屬性的重要度, 提出基於信息量的啓發式約簡算法;Meng 等[43] 提出了一種針對非完備決策表屬性約簡的快速算法.
然而, 現有的基於非完備決策表的約簡算法都不一樣程度地存在耗時較大的問題.Qian 和Liang 等[44,45]提出的正向近似是一種刻畫目標概念的有效方法. Qian 和Liang 等[ 46] 進一步研究了非完備意義下的正向近似,討論了非完備意義下如何經過正向近似的方法來刻畫粗糙集的粒度結構. 動態粒度下的正向近似思想,爲粒度計算和粗糙集理論提供了新的研究角度, 而且在規則提取和屬性約簡中也獲得了應用。

4.3從基於特徵獨立原則的特徵選擇到特徵關聯的特徵選擇算法
基於特徵獨立原則的特徵選擇的前提是假設各特徵間無關,認爲特徵集的文檔識別率是特徵集中每一個特徵的文檔識別率的線性和,這樣使得支持向量機在算法上獲得很好應用,在特徵選擇發展的初期,都是假設特徵獨立的。可是實際中不少特徵之間相關性很大,這些特徵在類別區分能力上是很是類似的, 若所有做爲候選特徵子集,就會致使大量特徵冗餘, 從而影響了分類器的性能。這種問題在某些類別的訓練樣本較少的狀況下會更加突出, 由於在稀疏類別中的特徵比那些主要類別中特徵的評估值要低, 傳統的特徵選擇算法每每會傾向於那些主要類別中的特徵關聯。
從信息論的角度來件,特徵選擇的目標就是尋找一個包含原始特徵集的所有或者大部分信息的特徵子集,該特徵子集的存在能夠最大程度地下降其餘未選擇特徵的不肯定性。根據分類中對特徵選擇的定義,是要找出與分類類別相關性最大,而彼此間相關性最小的特徵子集。基於此,學者們提出了一系列特徵選擇算法:Weston介紹了一種基於支持向量機的特徵選擇算法[47],依據該算法能夠選出那些分類信息明確的特徵。邱等提出的一種特徵間的模糊相關性和x2統計量線性組合的特徵選擇算法[48]。高等提出的基於雙詞關聯的文本特徵選擇[49]。蔣等提出的基於特徵相關性的特徵選擇[50],劉等提出一種基於條件互信息的特徵選擇算法[51],首先聚類特徵除去噪音,而後選出類相關度最大的特徵,去除不相關和冗餘特徵。張提出了一種基於最小聯合互信息虧損的最優特徵選擇算法[52]。Grandvalet 也介紹了一種能夠自動計算屬性間相互關係的算法[53]。
這類特徵選擇算法,考慮了特徵間的相關性,有效地下降特徵子集的冗餘。在考慮特徵相關性和冗餘度的特徵選擇算法的研究過程當中,較爲出名的是Markov Blanket 理論的出現,姚等給出了Markov blanket的定義以及一種基於近似Markov Blanket和動態互信息的特徵選擇算法[54],利用近似Markov Blanket原理準確地去除冗餘特徵,從而得到遠小於原始特徵規模的特徵子集。
Markov blanket的出現,是特徵相關性研究的一大重要成果。基於此,崔等提出了一種基於前向選擇的近似Markov Blanket特徵選擇算法[55],得到近似最優的特徵子集。姚等針對大量無關和冗餘特徵的存在可能下降分類器性能的問題[56],提出一種基於近似Markov blanket和動態互信息的特徵選擇算法並將其應用於集成學習,進而獲得一種集成特徵選擇算法。

4.4從面向均衡數據的特徵選擇到面向非均衡數據集的特徵選擇
基於均衡類別的數據集的特徵選擇算法默認要處理的數據集中各個類別的大小一致,或忽略類別大小對特徵選擇的算法結果的影響。但大多數特徵選擇算法偏心大類別,忽略小類別,所以,基於該平衡假設的特徵選擇的算法對於類別大小相差較大的數據集的處理則效果不佳。後期學者便提出了基於不均衡數據集的各類特徵選擇算法,對不一樣大小的類別中出現的特徵賦予不一樣的權重,來平衡類別大小形成的偏差。提出了兩類特徵選擇算法,一類是針對類別大小不一樣而提出的基於類別區分能力的特徵選擇,另外一類是針對類別語義不一樣提出的基於論域的特徵選擇。
第一類算法主要有;CTD(categorical descriptor term)SCIW(Strong class info words) [57]等。周等提出了類別區分詞的概念[58],應用改造的多類別優點率和類別區分詞的方法得到了較好的特徵選擇效果。徐等提出的基於區分類別能力的高性能特徵選擇方法[59],並對區分類別能力進行了量化。張等提出了考慮特徵在正類和負類中的分佈性質[60],結合分佈的狀況衡量特徵類別相關性的指標對特徵詞進行評價,他指出選擇具備較強類別信息的詞條是提升稀有類別分類性能的關鍵[61],分析並驗證了通常而言具備較強類別信息的詞條不是高頻詞,甚至有傾向於稀有詞的趨勢,提出算法DFICF。鄭將特徵選擇分爲兩類[62]:只選擇正例特徵(單面方法)和正例反例同時選擇(兩面方法),提出了一種從正例、反例中合理選擇特徵的方法,獲得了較好的分類效果.Forrnan則對反例進行了分析,他經過實驗發現將反例從特徵中去掉會下降分類的性能[63],因此反例在高性能分類中也是必要的.冀等提出了基於類別加權和方差統計的特徵選擇方法[64],經過加權以強化小類別的特徵。謝等將傳統F2score度量樣本特徵在兩類之間的辨別能力進行推廣,提出了改進的F2score,使其可以度量樣本特徵在多類之間的辨別能力大小.徐提出了基於類別分佈改進的特徵選擇方法( IFSM)[65],除此還有吳提出的在可變精度理論VPRS下的特徵選擇算法TF-CDF[66],王等提出了基於類別分佈的特徵選擇框架[67]等。這些算法在很大程度上促進了對於非均衡類別的特徵選擇的發展。
第二類特徵選擇算法主要有:趙等提出的基於語義和統計特徵的中文文本特徵選擇算法[48],利用詞共現模型的思想提取特徵共現集。徐提出的使用類別特徵域的方法將每一個類別中重要的特徵提取出來做爲重要特徵[65],吳等提出的基於論域的無監督文本特徵選擇方法[68]等。

4.5 從有監督的特徵選擇到無監督的特徵選擇
基於有監督的特徵選擇方法普遍應用於文本分類,可以濾掉絕大多數文本特徵詞而不會下降文本分類的效果[69]。可是,這些成熟的有監督特徵選擇方法是須要類別信息的,而文本聚類缺的偏偏是類別信息。目前雖然也存在一些成熟的無監督特徵選擇方法,例如文檔頻、單詞權、單詞熵、單詞貢獻度等,可是,它們僅能濾掉大約90%的噪聲詞,若再濾掉更多噪聲詞,就會大大下降文本聚類的效果[70]。所以,無監督特徵選擇仍然是目前文本聚類領域的一個研究熱點。而且隨着網絡數據的增多,對於特徵選擇的要求也愈來愈傾向於無監督的特徵選擇。
劉提出基於k-means的無監督特徵選擇算法[71],所獲得的聚類結果已經接近理想的有監督特徵選擇所獲得的聚類結果。朱提出了一種適用於無決策屬性的信息系統的啓發式屬性約簡算法[71]。徐等提出了一種基於互信息的無監督的特徵選擇方法(UFS-MI)[72],綜合考慮了相關度和冗餘度的特徵選擇標準UmRMR(無監督最小冗餘最大相關)來評價特徵的重要性.

5 特徵選擇的發展方向
根據上文對於特徵選擇算法的發展歷程來看,目前特徵選擇算法趨向於特徵相關性,多種算法結合,基於非完備決策表,無監督過程,而且可以處理不均衡數據集的方向發展。然而互聯網的發展速度飛快,數據的種類和豐富度也日益增多。而且,近幾年,出現了一些新的研究方向,好比基於特徵選擇的集成學習,結合克隆選擇和免疫網絡的多目標免疫優化的特徵選擇,加強式學習與特徵選擇的結合等。很難定論特徵選擇會朝着怎樣具體的方向發展,但隨着互聯網數據的增多,特徵選擇做爲一種有效的降維方法,必定會獲得更多的研究和拓展,其應用方向也變得愈來愈豐富。

6 結束語
本文概述特徵選擇的發展背景和流程,從不一樣角度對特徵選擇算法進行分類,指出理論研究和實際應用中所存在的困難和一些有待解決的問題.而後主要結合特徵選擇算法的發展歷程對各種特徵選擇算法進行詳細分析,而且得出從此的特徵選擇算法的發展方向和趨勢。

參考文獻【1】Lewis P M The characterstic selection problem in recognition system IRE Transaction on Information Theory,1962.8:171-178【2】Kittler J.Feature set search algorithms.Pattern Recognition and rough set reducts.The Third international Workshop on rough sets and Soft Computing,1994:310-317【3】 Cover TM The best two independent measurements are not the two best.IEEE Transaction on system,Man and Cybernetics,1974,4(1):116-117【4】Liu H ,Motoda H.feature selection for knowledge discovery and data mining[M]Boston:Kluwer Academic Publishers,1998.【5】Liu H,Yu L.Toward integrating feature selection algorithms for classification and Clustering [J].IEEE Transactions on knowledge and data engineering,2005,17(4):491-502.【6】Molina L C,Belanche L,Nebot A.Feature selection algorithms:a survey and experimental evalution number[R].Barcelona,Spain:universitat politecnica de Catalunya,2002.【7】DashM.LiuH.Consistency-based search in feature selection.[J] Artifical intelligence,2003,151(1-2):155-176.【8】Arauzo-Azofra A,Benitez J M,Castro J L.Consistency measure for feature selection [J].journal of intelligent information system,2008,30:273-292.【9】Zhang D,Chen S,Zhou Z-H.Constraint score:A new filter method for feature selection with pairwise constraints[J].Pattern Recognition,2008,41(5):1440-1451【10】Yu L,Liu H.Efficient feature selection via Analysis of Relevance and Redundancy[J].Journal of machine learning research,2004,5:1205-1224.【11】Huang J,Cai Y,Xu X.A hybird genetic algorithm for feature selection wrapper based on mutual information [J].Pattern Recognition letters,2007,28:1825-1844.【12】Neumann J,Schnorr C,Steiidl G.Combined SVM-based feature selection and classification[J].Machine learning,2005,61:129-150.【13】Kittler J, Feature set search algorithms,in:C.H.Chen, PatternRecognition and Signal Processing, Sijthoff and Noordhoff,1978:41-60.【14】 Pudil P, Novovicova N, Kittler J. Floating search method[J].Pattern Recognition Letters,1994(15) :1119-1125.【15】Devijver P A,Kittler J.pattern recognition-A statistical approach[M].London:prentice Hall,192.【16】DashM.LiuH.Consistency-based search in feature selection.[J] Artifical intelligence,2003,151(1-2):155-176.【17】Quinlan JR,Learning efficient classification produres and theirapplication to chess end games.Machine learnng:An artificial intelligence approach,San francisco,C ,A:Morgan Kaufmann,1983,463-482.【18】Quinlan J R,C4.5:programs for machine learning.San Francisco:Morgan kaufmann,1993.【19】Beriman L,Friedman J H,etal.Classification and Regression Trees.Wadsforth international Group,1984.【20】John G,Kohavi R,Pfleger K.Irrelevant features and the subset selection problem.In:Cohen W W,Hirsh H,Eds.The eleventh international conference on machine learning.San Fransisco:Morgan Kaufmann,1994,121-129.【21】Aha D W,Bankert R L.Feature selection for case-based classification of cloud types An empirioal comparison.In:Ada D Weds.In Working Notes of the AAAI94 Workshop on case-based reasoning.Menlo Park,CA:AAAI Press,1994,106-112.【22】Blum A L.Learning boolbean functions in an infinite attribute space.Machine learning.1992,9(4):373-386.【23】Holland J.Adaptation in Natural and Artifiicial Systems【24】GloverF.Feature paths for integer programming and links to artificial intelligence.【25】 Inza I,Larranaga P,Blanco R.Filter versus wrapper gene selection approaches in DNA microarray domains[J]. Artificial Intelligence in Medicine, 2004,31(2):91-103v【26】 Zhou Xiaobo,Wang Xiaodong,Dougherty E R.Gene selection using logistic regressions based on AIC,BIC and M DI criteria[J]. Journal of New Mathematics and Natural Computation,2005,1(1):129-145.【27】 Tabus I,Astola J.On the use of MDI principle in gene expression prediction[J]. EURASIP Journal of Applied Signal Processing,2001,4:297-303.【28】一種高效的面向輕量級入侵檢測系統的特徵選擇算法。【29】龐遺傳算法和人工神經網絡的分析和改進。【30】 Xiong Momiao,Fang Xiang-zhong,Zhao Jin-ying.Biomarkeri dentification by feature wrappers[J].GenomeResearch,2001,11(11):1878-1887.【31】 Hsu W H.Genetic wrappers for feature selection in decision trein duction and variable ordering in bayesian network Structure learning[J]. Information Sciences,2004,163(1/2/3):103-122.【32】 Li I, Weinberg C R, Darden TA. Gene selection for sampleclassification based on gene expression data:study of ensitivity to choice of parameters of the GA/KNN method[J].Bioinformatics,2001,17(12):l131-1142.【33】 Shima K,Todoriki M,Suzuki A. SVM-Based feature selection of latent semantic features[J]. Pattern Recognition Letters,2004,25(9):1051-1057.【34】Study n feature selection and ensemble learning Based on feature selection for High-Dimensional Datasets.【35】 Hu Xiao-Hua, Cercone N.Learning inrelational databases:A rough set approach. International Journal of Computational Intelligence, 1995, 11(2): 323-338【36】 LiuShao- Hui,ShengQiu-Jian,WuBin, ShiZhong-Zhi, HuFei.Research on efficient algorithms for Rough set methods.Chinese Journal of Computers, 2003, 26 (5): 524-529 (in Chinese)【37】 Guan Ji-Wen, Bell David A, Guan Z. Matrix computation for informat I systems.Information Sciences,2001,131:129-156【38】 Krysz kiewicz M. Rough set approach to incomplete information systems. Information Sciences,1998,112:39-49【39】Slow in skir R,Vsnderprooten D.Ageneralized definition of rough approximations based on similarity. IEEE Transactions on Data and Knowledge Engineering, 2000,12(2) :【40】Leung Yee, Wu Wei-Zhi, Zhang Wen-Xiu. Knowledge acquisition in incomplete information systems: A rough set approach. European Journal of Operational Research, 2006(68): 164- 183[ 22] Sun Hui-Qin, Zhang Xiong, Finding minimal reducts from incomplete information systems【41】 Liang Ji-Ye, Xu Zong-Ben. The algorithm on knowledge reduction in incomplete information systems. International Journal of Uncertainty Fuzziness and Knowledge-Based Systems, 2002,10(1):95-103【42】 Huang Bing, Zhou Xian-Zhong, Zhang Rong-Rong. At tribute reduction based on information quantity under incomplete information systems. Systems Engineering-Theory and Practice, 2005,4(4):55-60(in Chinese)【43】 Meng Zu-Qiang, Shi Zhong-Zhi. A fast approach to attribute reduction in incomplete decision systems with tolerance relation-based rough set s.Information Sciences,2009,179:2774-2793【44】Liang Ji-Ye, Qian Yu-Hua, Chu Cheng- Yuan,LiDe-Yu,Wang Jun-H ong. Rough set approximation based on dynamic granulation, Lecture Notes in Artificial Intelligence 3641,2005:701-708【45】 Qian Yu-Hua, Liang Ji-Ye, Dang Chuang-Yin. Convers approximation and rule extraction from decision tables in rough set theory. Computers an d Mathem at ics with Applicati on s,2008, 55: 1754-1765【46】 Qian Yu-H ua, Liang Ji-Ye. Positive approximation and ruleext racting in incomplete information systems. International Journal of Computer Science and Knowledge Engineering,2008,2(1):51-63【47】Stewart M Yang ,Xiao bin Wu,Zhi hong Deng,etal.Modification of feature selection methods using relative term frequency。【48】Feature selection m ethod for text based on linear comb inationQ IU Yun..fe,i WANG Jian..kun, LI Xue, SHAO Liang..shan【49】GAO Mao-ting,WangZheng -ou.New model for text feature selection based on twin words relationship.Computer Engineering and Applications,2007,43(10):183- 185.【50】JIANG Sheng-yi,WANG Lian-xi.Feature selection based on feature similarity measure.Computer Engineering and Applications,2010,46(20):153-156.【51】LIU Hai-yan, WANG Chao, NIU Jun-yu。Improved Feature Selection AlgorithmBased on Conditional Mutual Information(School of Computer Science, Fudan University, Shanghai 201203, China)【52】Kenneth Ward Church. Patrick Hanks Words accociation norms mutual information and lexicography【53】Guyon 1 Weston J.Barnhil S .Vapnik V. Gene Selction for cancclassfication using support vector machine.【54】Freature Selection Algorithm -based approximate markov blanket and dynamic mutual information Yao Xu Wang,Xiao-dan,Zhang yu-xi,Quan wen.【55】An Approximate Markov Blanket Feature Selection AlgorithmCUI Zi-Feng, XU Bao..Wen1, ZHANG Wei Feng, XU Jun Ling【56】 Yao Xu,Wang Xiao-dan,Zhang Yu-xi,Quan, Wen(Missile Institute,Air Force Engineering University, Sanyuan 713800,China)【57】 Yang Yiming, Pederson J O. A Comparative Study on Feature Selection in Text Categorization [ A]. Proceedings of the 14th International Conference on Machine learning[ C]. Nashville:Morgan Kaufmann,1997:412- 420.【58】Study on Feature Selection in Chinese Text CategorizationZHOU Qian, ZHAO Ming..sheng, HU min【59】Xu Y, Li JT, Wang B, Sun CM. A category resolve power-based feature selection method. Journal of Software,2008,19(1):82.89.【60】ZHANG Yu-fang,WANG Yong,XIONG Zhong-yang,LIU Ming(College of Computer,Chongqing University,Chongqing 400044,China)【61】Xu Yanl」,Li Jinta01,Wang Binl,Sun Chunmin91一,and Zhang Senl1(Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100080)2(North China Electric Power University,Beijing 102206)【62】基於同義詞詞林的文本特徵選擇方法 鄭豔紅,張東站【63】G Forrnan.An extensive empirical study of feature selectionmetrics for text classification.Journal of Machine Learning Research,2003,3(1):1289—1305【64】JI Jun-zhong1,WU Jin-yuan1,WU Chen-sheng2,DU Fang-hua1 1. Beijing Municipal Key Laboratory of Multimedia and Intelligent Software Technology,College of Computer Science and Technology,Beijing University of Technology,Beijing 100124,China;2. Beijing Institute Science and Technology Information,Beijing 100048,China)【65】Xu Hong-guo , WANG Su-ge( School of Mathematical Science , Shanxi University, Taiyuan 030006, China)【66】Wu Di①② Zhang Ya-ping① Yin Fu-liang①LiMing ②①(Department of computer science and Engineering, Dalian university of technology, Dalian 116024, China)【67】Jin g Hong-fang ,Wang Bin , Yangya-hui, Institute ofeomputing ehnolo, chinese Aeadmyo f seiencees ,Beijin g, 1 0 0-9 0【68】基於論域劃分的無監督文本特徵選擇方法 顥東吳懷廣( 鄭州輕工業學院計算機與通訊工程學院,鄭州450002)【69】 Gheyas I A,Smith L S. Feature subset selection in large dimensionality domains. Pattern Recognition,2010; 43(1): 5—13【70】 朱顥東,李紅嬋,鍾勇. 新穎的無監督特徵選擇方法. 電子科技大學學報,2010; 39( 3) : 412—415【71】 An unsupervised feature selection approach based on mutual information.Xu特徵平等:【72】Leonardis A,Bischof H.Robust recognition using eigenimages.Computere Vision and Ima Understanding.2000,78(1):99-118.

相關文章
相關標籤/搜索