因爲問題的不一樣和證據處理人員知識背景及偏好的不一樣,同一個證據處理人員在對不一樣問題,不一樣的證據處理人員針對同一個問題,均可能構建多個不一樣的識別框架。這些識別框架中包含的元素的數目、元素含義等方面可能有所差別,識別框架之間的邏輯關係也可能不一樣。html
而證據推理方法須要在同一個識別框架下對多批證據進行融合,爲此,須要對多個識別框架進行分類,並肯定識別框架等價及其相互之間的轉化方法。安全
通常來講,識別框架的類型不一樣,信息處理方法也不一樣。每種識別框架就表明了一種看待目標對象的抽象視角。網絡
就單個識別框架來講,根據識別框架中元素的不一樣,能夠將識別框架分爲多種類型。框架
設 Θ1,Θ2,.....,Θn 爲 n 個不一樣的識別框架,若這 n 個框架分別從不一樣的角度處理同一個問題,則稱這 n 個框架爲平行框架。函數
例如,在風險評估時,甲對某個指標比較熟悉,他對該指標所反映的風險程度構建識別框架:spa
Θ甲 = {低、較低、中、較高、高} 日誌
並給出了相應的信度函數。code
而乙對該指標的熟悉程度相對較弱,構建的風險程度識別框架爲:htm
Θ乙 = {低、中、高} 對象
也給出了相應的信度函數。
能夠看出,因爲專家自身知識背景和我的偏好的不一樣,對同一個問題構造的識別框架也不一樣,此時的識別框架 Θ甲 和 Θ乙 爲兩個平行框架。
通常來講,平行框架是針對同一個問題不一樣方面,或不一樣信息源針對同一問題某個方面而構建的,其特性和概念是相容的,一般有公共的精細框架,故平行框架是相容框架。
筆者思考:
對於安全數據分析來講,一項基礎工做就是所謂的日誌採集,例如進程啓動日誌、進程網絡外連日誌、進程寫文件日誌、文件落盤日誌。這些不一樣的日誌表明了當前系統行爲的一個描述切面。從識別框架的角度來看,基於不一樣的日誌能夠抽象爲不一樣的離散狀態集(集合中的每個狀態表明瞭一個系統狀態描述)。
設 Θ1,Θ2,.....,Θn 爲 n 個不一樣的識別框架,若這 n 個框架中後一個識別框架中的元素用來修飾(說明)前一個識別框架中的元素。
則稱這 n 個框架爲 n 維遞進框架。
例如,在科學基金立項評審的同行評議表中,「綜合評價」和「熟悉程度」能夠看作一個兩維遞進識別框架。
設 Θ1,Θ2,.....,Θn 爲 n 個不一樣的識別框架,若這 n 個框架中並列框架和遞進框架並存,則稱這 n 個框架爲混合框架。
例如,在科學基金立項評審的同行評議表中,「綜合評價」、「資助意見」、「熟悉程度」三個框架本質上是一組混合框架,
在多個識別框架的構建過程當中,平行框架一般是針對決策問題屬性的特色或決策者根據本身的知識背景和偏好而構建的;而遞進框架一般是用來反映決策主體與決策過程特徵信息的,每每反映了決策者給出的決策信息質量。
爲了便於將不一樣識別框架上的信息進行融合,通常要求將不一樣識別框架上的信息轉化到同一個識別框架上,爲此,須要對不一樣識別框架的等價性和評估等價的概念進行界定。
設兩個識別框架分別爲 Θ = {θn,n=1,2,....,N1} 和 Ω = {ωn,n=1,2,....,N2},若對,都存在惟一的 ωn 與之等價,記爲:
反之,若對,都存在惟一的 θn ∈ Θ 與之等價,則稱識別框架 Θ 和 Ω 等價(一正一反都成立),記爲:
例如,在對汽車的發動機的噪聲進行評價時,存在兩個識別框架,
兩個識別框架的元素,都彼此存在惟一的等價元素,則識別框架 Θ 和 Ω 等價。
顯然,若識別框架 Θ 和 Ω 等價,則有 N1 = N2。
設 Θ 和 Ω 爲兩個等價的識別框架,且在兩個識別框架下的基本可信度分配分別爲:
則當且僅當 N1 = N2 且 β1,n = γ2,n 成立時(n=1,2,...,N1),稱兩個基本可信度分配 m1 與 m2 等價,記爲
這裏須要注意的是,實際狀況中,徹底等價的識別框架是比較少見的,而是彼此錯位的,即彼此相容而又不徹底一一對應(N1 ≠ N2),且一個框架中的元素(θ ∈ Θ)並不必定剛好對應於另外一個框架中的某個元素(ω ∈ Ω),而是以必定程度對應於另外一框架中多個元素。
爲此,這裏給出識別框架元素間機率等價的概念定義。
若 θ1,n ∈ Θ 以 α2,l(l=1,2,....,N2) 的程度對應於 ωl ∈ Ω,其中
0 ≤ α2,l ≤ 1,,即知足機率完備性
則稱框架 Θ 中的元素 θ1,n 與框架 Ω 中的元素集 {(ωl,α2,l),l=12,....,N2} 以機率等價,記爲:
在多屬性羣決策中,上述等價關係一般是由決策者提供的,其中意味着元素 θ1,n ∈ Θ 的效用和 {(ωl,α2,l),l=12,....,N2} 的指望效用
相等。
若對,均有
;反過來,對
,均有
,則稱識別框架 Θ 和 Ω 以機率等價,記爲:
所以,從邏輯關係上來講,識別框架能夠分爲:
從轉化關係(等價關係)來講,有
傳統的基於單層識別框架的決策在信息的表示上,未能反映決策者提供的決策信息的質量,所以信息對多個意見的合成具備重要做用,直接影響了決策質量。也就是所謂的訓練樣本的純度和豐富度決定了模型的最終效果。
所以,有必要增長一維信息反映專家決策知識和行爲特徵,並對原有決策信息進行修正,以更加精確有效地利用專家信息。
咱們本章來討論兩維語義信息的語義表示及集結方法。
設 Hn(n=1,2,...,N) 和 St(t=1,2,...,T) 分別爲預先定義好的語言評價集 H 和 S 中的第 n 個和第 t 個元素,其中 Hn 和 St 知足如下幾個特性:
極大化運算和極小化運算:當時,有 max(Hi,Hj) = Hi,max(Si,Sj) = Si,min(Hi,Hj) = Hj,min(Si,Sj) = Sj
對一個判決問題,決策者同時構建了兩個識別框架(語言短語集)H = {H1,H2,....,HN} 和 S = {S1,S2,....,ST},使用了1、二兩個維度識別框架中的評價信息描述本身對於某一事物的評判。
這種由兩個維度造成的語言評價信息 (Hn,St) 稱爲兩維語義評價信息。
例如,在國家天然科學基金立項評估中,同行評議意見表中預先構建了兩個語言評估框架:
同行評議專家提供評價信息 (Hn,St)(n=1,2,3,4; t=1,2,3) 即爲兩維語義評價信息。
在兩維語義評價信息中,第二維評價信息是用來描述第一維評價信息質量的,經過第二維語義評價信息,不只可以反映決策者評價信息的質量,同時也能反映決策信息的不肯定和不徹底程度。
例如,同行評議專家提供評價信息 (優,較爲熟悉) 即爲兩維語義信息的一個實例,
因爲兩維語義信息不只可以反映決策者評價信息的質量,同時也能反映決策信息的不肯定和不徹底程度。
同時咱們知道,證據理論用信度函數表示證據,信度函數知足半可加性,它比機率函數能更恰當表示信息中的」不肯定性「和」不知性「。所以,兩維語義信息的語義,可用信度函數來表示,便可用證據理論中的證據體來表示兩維語義評價信息。
設 H = {H1,H2,....,HN} 和 S = {S1,S2,....,ST} 分別爲1、二兩個維度上的語言集,將語言集 H 視爲證據理論中的識別框架,則兩維語義信息 (Hn,St) 的語義可經過映射 f 表示爲證據體:
其中,βtk 表明一個點信度,表示兩維語義信息 (Hn,St) 支持 Hk ∈ H(k=1,2,...,N) 爲真的置信度,且知足:
,即信度分配函數的完備性
則稱 f 爲兩維語義的點信度表示函數。
兩維語義的點信度表示函數可由多個專家基於領域經驗得出,也能夠經過數據驅動的方式從大樣本中得出(例如神經網絡)。
通常來講,兩維語義的點信度函數遵循如下規則:
信度單峯規則:(Hn,St) 轉化成的證據體 {(Hk,βtk),k=1,2,....,N},其信度應以 Hn 爲單峯,且距離 Hn 越遠,其信度就越小。即對,有
,且若 | i-n | < | j-n |,則有 βt(Hi) > βt(Hj),其中 i,j ∈ {1,2,....,N}
兩維語義的點信度表示法要求給出兩維語義支持各語言評價等級的精確置信度,這對決策者的領域知識或者有監督樣本集的要求較高。
可是因爲客觀事物的複雜性(相關性不明顯,或者僞相關性)和人類自身知識的侷限性,兩維語義的區間信度比精確的點信度表示更容易獲取。
針對兩維語義信息 (Hn,St) 的語義,假設專家用映射 g 表示區間信度:
其中,表明一個區間信度,表示兩維語義信息 (Hn,St) 支持 Hk ∈ H(k=1,2,...,N) 爲真的置信度,且知足:
,一樣須要知足信度分配函數的完備性
則稱 g 爲兩維語義的區間信度表示函數。
相似的,兩維語義的區間信度表示法也一樣遵循」不徹底信息「和」信度單峯「語義規則。
由兩位語義信息 (Hn,St) 的信度表示法可知,兩維語義信息不只反映了決策者對待處理問題的評價,同時反映了決策信息的質量(包括決策信息的不肯定性和不徹底性),所以對兩維語義信息進行比較,關鍵是如何處理不肯定和不徹底信息。
對於兩維語義的點信度表示法,能夠採用兩種處理方法:
對於兩維語義的區間信度語義表示法,可利用基於連續的有序加權平均算子(continuous ordered weighted averaging,C-OWA)算子的區間信度的點化法,將區間信度轉化爲點信度,再進行比較。
點指望得分法將兩維語義中的第一個維度上的語言短語量化爲得分,經過兩維語義的證據體表示中的信度計算兩維語義信息的加權平均得分。
設第一個維度上的語言集 H = {H1,H2,....,HN},且(i < j),(Hn,St) 的點信度語義爲
。假設語言短語 Hi 的得分爲 hi,知足 hi < hj(i < j)。與加權平均法相似,可定義兩維語義信息的指望得分 E[(Hn,St)]:
由證據體表示的兩維語義信息,經過指望得分化爲得分值,從而可將多個兩維語義信息進行比較、排序。這種方法計算簡單,但缺點是處理過程有損失。
區間指望得分法首先也將兩維語義中的第一個維度上的語言短語量化爲得分,當 βt(H)>0時,爲了便於多個兩維語義信息比較,將這部分信度分別賦予最小分值和最大分值,由此,產生一個得分區間。
設第一個維度上的語言集 H = {H1,H2,....,HN},且(i < j),(Hn,St) 的點信度語義爲
。假設語言短語 Hi 的得分爲 hi,知足 hi < hj(i < j)。
當時,說明因爲人們對問題的不確知而將這一部分信度賦予了整個框架。爲了便於比較,將這部分信度分別賦予 min(H1,H2,...,HN) = H1,max(H1,H2,...,HN) = H1。則兩維語義信息 (Hn,St) 的最小、最大指望得分分別爲:
從而可得兩維語義信息 (Hn,St) 的指望得分區間:
[minE[(Hn,St)],maxE[(Hn,St)]]
這種信度分配方法很容易理解,由於因爲信息的不徹底或人們認識能力的侷限性,信度 βt(H) 不知該分配到哪一個評語上,但不管這部分信度如何分配,兩維語義信息 (Hn,St) 的指望得分均落在上述區間中。
顯然,當 β1(H) = 0 時,上述區間退化成一個點;而當 βt(H) = 1 時,即當人們對問題徹底無知時,該區間就退化爲 [h1,hN]。
根據區間數的可能度公式可對多個兩維語義信息進行比較、排序。
相比點指望得分法,得分區間法計算較複雜,但結果更精確,處理過程當中信心損失較少。
根據兩位語義信息的語義表示,對多個兩維語義信息的集結轉化成了對多條證據的集結。
目前,證據的融合方法主要有:
Dempster合成規則在處理高度衝突的證據時,其結果每每有悖常理,例如著名的Zadeh悖論。
改進的衝突證據合成規則從不一樣的角度對Dempster合成規則進行了改善,而且在某些領域取得了較好的應用,但處理的衝突證據都有必定應用背景和使用哦範圍限制,且在處理不一樣權重信息的證據方面也存在必定的困難。
而證據推理方法是由Yang等人在1994年提出來的,後又對此進行了完善和發展。該方法應用權重修正證據源,並在合成過程當中對未分配的信度進一步細分爲由權重引發的不徹底和由信息源給出的判斷不徹底兩部分。證據推理合成規則在處理不一樣權重的多條證據的融合方面具備獨特的優點,且能很好地處理高度衝突的證據合成問題。
因爲不一樣的兩維語義信息的質量不一樣,其在信息融合的重要性也不相同,即不一樣兩維語義信息的權重不一樣,且多個兩維語義信息也存在高度衝突狀況。所以,咱們經過引入證據推理算子對多個兩維語義信息進行融合。
設有 p 個信息源給出的兩維語義評價信息爲:
其點信度語義表示爲:
其中,爲第 i 個信息源 Ei 支持評價對象評爲等級 Hn 的置信程度,且知足:
假設權重向量爲:
知足:
則可應用證據推理算子將多個兩維語義信息進行集成。
綜合 p 個兩維語義評價信息後,其集成結果仍爲證據體,能夠表示爲:
假設預先設定的針對評價對象的語言評價集 H = {H1,H2,H3,H4} = {差,中,良,優},專家對評價對象的熟悉程度的語言評價集爲 S = {S1,S2,S3} = {熟悉,較熟悉,部分熟悉}。
現有五位專家 Ei(i=1,2,3,4,5),針對某一個評價對象給出的兩維語義評價信息爲:
假設專家採用兩維語義的點信度表示,且給出點信度語義表示以下表所示:
根據上表中兩維語義的點信度表示,5位專家給出的兩維語義評價信息的點信度可分別表示爲:
設5位專家的權重向量爲(根據專家對專家的瞭解這一領域知識得出):
則由證據推理算子,將5位專家給出兩維語義信息進行集結爲:
即綜合5位專家的意見,認爲該評價對象爲」優「、」良「、」中「、」差「的可信度分別爲:19.85%、35.21%、27.54%、1.26%、還有另外16.14%的信度不知道被評爲哪一個等級。
Relevant Link:
《證據推理理論方法及其在決策評估中的應用》
影響專家評價準確性的因素主要有兩個方面,
通常來講,專家對決策對象熟悉程度越高,評價的準確性就越高;對同一個決策對象的評價與其餘專家評價的差別性越小,該專家對評價標準掌握的狀況的狀況可能就相對越好。
與其餘專家評價的差別性,能夠經過對同一個決策對象各專家評價信息的距離或類似度來度量。
假設第一維度(對決策對象的評價)的評語集爲 H1,H2,.....,HN,分別賦值爲 h1,h2,....,hN,知足當 i ≥ j 時,hi ≥ hj,則評價信息 Hi 和 Hj 的距離可定義爲:
顯然,di,j 知足距離的基本性質:
假設有 p 個專家對某一決策對象進行評價,則能夠計算出專家們提供評價信息之間的兩兩距離,可用一個距離矩陣表示:
定義評價信息 Hi 和 Hj 之間的類似性測度 Sim(Hi,Hj) 爲:
其結果能夠用一個類似矩陣表示:
兩個評價信息距離越小,它們的類似性程度就越大,該評價系統中對評價信息 Hi 的支持度 Sup(Hi) 爲:
從公式中能夠看出,支持度體現了某個專家的評價信息 Hi 在同行中的累計類似程度,通俗地說就是羣體共識。
將支持度歸一化後可得評價信息 Hi 的可信度 Crdi:
可將 Crdi 做爲專家 Ei 提供評價信息的一個權重 ui,即權重 ui 爲:
另外,第二維度的評價值 St 是對第一維評價信息質量的評價,可將第二維度的評價值 St 進行量化。假設專家 Ei 給出的第二維度的評語的量化值爲 qt,則可賦予該專家評價信息的另外一個權重 vi 爲:
爲了全面反映專家評價信息的重要性,此處利用專家給出的兩維語義評價信息,根據每一個維度的評價信息分別對專家進行賦權,再採用乘法合成法對專家評價信息進行組合賦權,專家評價信息的最終權重 wi 爲:
筆者提醒:
這和以前討論的基於證據聯盟的證據融合方式,其原理是相似的。
假設有 M 個備選方案 aj(j=1,2,...,M),專家 Ei 對方案 aj 給出的兩維語義評價信息爲:
針對多個專家給出的兩維語義評價信息,能夠根據如下步驟進行決策: