本體概述

目錄
1.定義
2.本體的目標和做用
3.
本體構成要素
4.領域本體與上層本體
5.本體語言
6.
構造Ontology 的規則
7.本體在信息檢索的應用

1.定義

   –    1991/Neches 等:給出構成相關領域詞彙的基本術語和關係,以及利用這些術語和關係構成的規定這些詞彙外延的規則的定義;  
   –    1993/Gruber :概念模型的明確的規範說明;  
   –    1997/Borst :共享概念模型的形式化規範說明;  
   –    1998/Studer :共享概念模型的明確的形式化規範說明 
  以上摘自《2003_北大_李芸_Ontology研究綜述 

   在人工智能界,最先給出Ontology定義的是Neches等人,他們將Ontology定義爲「給出構成相關領域詞彙的基本術語和關係,以及利用這些 術語和關係構成的規定這些詞彙外延的規則的定義」。Neches認爲:「本體定義了組成主題領域的詞彙表的基本術語及其關係,以及結合這些術語和關係來定 義詞彙表外延的規則。。後來在信息系統、知識系統等領域,愈來愈多的人研究Ontology,並給出了許多不一樣的定義。其中最著名並被引用得最爲廣 泛的定義是由Gruber提出的,「本體是概念化的明確的規範說明」,原文參見:
  "An ontology is an explicit specification of a conceptualization. The term is borrowed from philosophy, where an Ontology is a systematic account of Existence. For AI systems, what "exists" is that which can be represented. When the knowledge of a domain is represented in a declarative formalism, the set of objects that can be represented is called the universe of discourse. This set of objects, and the describable relationships among them, are reflected in the representational vocabulary with which a knowledge-based program represents knowledge. Thus, in the context of AI, we can describe the ontology of a program by defining a set of representational terms. In such an ontology, definitions associate the names of entities in the universe of discourse (e.g., classes, relations, functions, or other objects) with human-readable text describing what the names mean, and formal axioms that constrain the interpretation and well-formed use of these terms. Formally, an ontology is the statement of a logical theory."。
  和這個定義相似的有N. Guarino and P. Giaretta (1995)「本體是概念化的明確的部分的說明/一種邏輯語言的模型」(「an ontology is an explicit, partial account of a conceptualization/ the intended models of a logical language.」)。
  W. N. Borst對該定義也進行了引伸「本體是共享的概念模型的形式化的規範說明」(「An ontology is a formal specification of a shared conceptualization」)

  Studer對這個定義進行分析後認爲Ontology的概念包括四個主要方面
  1. 概念化(conceptualization):客觀世界的現象的抽象模型;
  2. 明確(explicit):概念及它們之間聯繫都被精肯定義;
  3. 形式化(formal):精確的數學描述;
  4. 共享(share):本體中反映的知識是其使用者共同承認的。
  原文:「an abstract model of a phenomenon termed ‘conceptualization’,a precise mathematical description hints the word ‘formal’, the precision of concepts and their relationships clearly defined are expressed by the term ’explicit’ and the existence of an agreement between ontology users is hinted by the term ‘shared’.」

其它人的定義:
  Swartout將本體定義爲:「本體是一個爲描述某個領域而按繼承關係組織起來做爲一個知識 庫的骨架的一系列術語」。(「An ontology is a hierarchically structured set of terms for describing a domain that can be used as a skeletal foundation for a knowledge base.」)。他的定義強調了本體中術語(terms)的重要性。
  Fensel定義「本體是對一個特定領域中重要概念的共享的形式化的描述」。(「An ontology is a common, shared and formal description of important concepts in an specific domain.」)。
  Noy F.N. 認爲「本體是對某個領域中的概念的形式化的明確的表示,每一個概念的特性描述了概念的各個方面及其約束的特徵和屬性。」(「An ontology is a formal explicit representation of concepts in a domain, properties of each concept describes characteristics and attributes of the concept known as slots and constrains on these slots.」)。
  Fonseca定義「本體是以某一觀點用詳細明確的詞彙表描述實體、概念、特性和相關功能的理論」。(「An ontology is a theory which uses a specific vocabulary to describe entities, classes, properties and related function with certain point of view.」)。
  Starla認爲「本體必需包括所使用術語的規範說明、決定這些術語含義的協議、以及術語之間 的聯繫,來表達概念」。(「An ontology necessarily includes a specification of the terms used (terminology) and agreements that allow to determine their meaning, along with the possible inter-relationships between these terms, standing for "concepts".」)。
  M. Uschold and M. Gruninger認爲「」(「Ontology is an explicit account or representation of (some part of) a conceptualisation.」)。他還推薦了一個來自SRKB(Shared Re-usable Knowledge Bases)電子郵件列表的定義「本體是關於共享的概念模型的協議。共享的概念模型包括進行領域知識建模的概念框架、互操做的agent之間進行交流的內容明確協議、以及表達特定領域理論的協定。在知識共享的上下文環境中,本體特指表達性詞彙表的定義的形式。一個很是簡單的例子就是分類的層次結構,指明瞭 類和它們之間的包含關係。關係數據庫模式的做用也和本體同樣,它指定了某些共享數據庫之間能夠存在的關係以及必須保持的完整性約束 」(「Ontologies are agreements about shared conceptualization. Shared conceptualizations include conceptual frameworks for modeling domain knowledge; content-specific protocols for communication among inter-operating agents; and agreements about the representation of particular domain theories. In the knowledge sharing context, ontologies are specified in the form of definitions of representational vocabulary. A very simple case would be a type hierarchy, specifying classes and their subsumption relationships. Relational database shemata also serve as ontologies by specifying the relations that can exist in some shared database and the integrity constraints that must hold for them.」)。
    以上摘自《百度百科_本體http://baike.baidu.com/view/29987.htm

2.本體的目標和做用
   (1)提供通識術語。本體爲羣體提供了描述客觀世界的標準要領和術語,這些術語受到了嚴格的定義,獲得了羣體共同承認。
   (2)形式化隱性知識。隱性知識包括存在於羣體生活環境中的、人們平常無心識使用的概念體系和專家知識。本體將對這些知識的形式化表達起到關鍵做用。
   (3)結構化知識。本體爲描述存在實體的概念和關係提供了知識組織模式或知識組織大綱。數據庫的概念模式能夠說是數據庫的本體。
   (4)知識體系化。本體爲知識體系化提供了構件。這些構件是通過嚴密定義了的、羣體共識的概念和術語。經過構件能豐富地描述各類現象、事實和理論知識。
   (5)標準化。正如工業標準化工做在工業生產中所起的決定性做用同樣,本體將在網絡化、大規模化、高效率知識處理中發揮重要的做用。
   (6)設計原理描述。產品設計是一種非單調的知識組織過程,很好地理解最終設計結果須要索引和參與設計相關的大量知識源,所以,基於本體的上下文關係、使用條件和橫向聯繫等知識描述能力,可以刻畫設計中的因果關係、推理方法等設計信息,全面地表達出設計者意圖。
   (7)元模型。模型是實體存在的抽象,模型的組成來自於實體存在的概念和彼此創建的關係。組成模型的最小集又能夠被認爲是元模型。從本體的「組織知識的知識」(構件知識)上講,本體是一種元模型。
   (8)內容的理論。從問題求解的數據結構、數據處理和數據視圖三階段劃分來看,本體是研究數據結構或系統內容的理論。

對以上本體的做用能夠概括爲如下幾點:
   (1)支持知識交流
   本體的分析澄清了領域知識的結構,從而爲知識表示打好基礎。本體能夠重用,從而避免重複的領域知識分析。經過構建一個統一框架或者一個規範模型來減小概念和術語上的差別,使得工做在不一樣領域之中或者應用不一樣操做平臺的人員之間信息的共享和交換成爲可能。
   (2)支持不一樣系統之間的互操做
   在不一樣的建模方法、範式、語言和軟件工具之間進行翻譯和映射,以實現不一樣系統之間的互操做和集成。這種應用可細分爲兩類:低概念化本體和高概念化本體。前者只要求操做者使用相同的詞彙,但不可以保證他們對於同一詞彙(或者知識)有相同的解釋或是理解,這種應用中本體通常不包含有語義信息。後者本體是一種對知識表示語言中的構建和約束做通常化的語義解釋,目的就是實現使用者之間進行語義層次上的知識的共享和互操做。
   (3)提升信息化的實施效率和質量
   本體的製造企業知識集成技術的研究在軟件系統的設計以及實現過程當中,採用基於本體的方法有不少好處。利用本體對需求解決的問題和任務進行規範描述,能夠提升需求分析、信息獲取的效率,節約成本。同時,利用本體的概念化的表達能夠實現對信息(或者知識)的一致性進行自動或者半自動的檢查,從而提升了系統的可靠性。另外,本體是領域內重要實體、屬性、過程及其相互關係形式化描述的基礎。這種形式化描述可成爲軟件系統中可重用和共享的組件。 

   以上摘自《百度_本體吧http://tieba.baidu.com/f?kz=515175255

   不少人工產品都有很強的Ontology的味道,好比:術語表、術語學、字典、百科全書、知識庫、數據庫模式。
   本體目前的應用領域包括(但不只限於):人工智能、語義網、軟件工程、 生物醫學信息學、圖書館學以及信息架構。

3.本體構成要素
   
Perez 等人認爲Ontology 能夠按分類法來組織,他概括出Ontology 包含5 個基本的建模元語(Modeling Primitive) 。這些元語分別爲:類(classes) ,關係(relations) ,函數(functions) ,公理(axioms) 和實例(instances) 。 一般也把classes 寫成concepts。
:集合sets)、概念、對象類型或者說事物的種類
關係:  關係表明了在領域中類之間的交互做用。形式上定義爲n 維笛卡兒乘積的子集: R : C1 ×C2×⋯×Cn 。
                 如:子類關係( subclass-of) 。
函數: 函數是一類特殊的關係。在這種關係中前n - 1 個元素能夠唯一決定第n 個元素。形式化的定義以下: F : C1 ×C2 ×⋯×Cn-1→Cn 。
    例如Mother-of 關係就是一個函數,其中Mother-of ( x , y) 表示y 是x 的母親,顯然x 能夠唯一肯定他的母親y 。
公理:公理表明永真斷言,好比概念乙屬於概念甲的範圍。
實例:實例表明元素。
 
 從語義上分析,實例表示的就是對象,而類表示的則是對象的集合,關係對應於對象元組的集合。
類的 基本的關係有4 種:part-of ,kind-of ,instance-of 和attribute-of 。

  在實際的應用中,不必定要嚴格地按照上述5 類元語來構造Ontology。同時概念之間的關係也不只限於上面列出的4 種基本關係,能夠根據特定領域的具體狀況定義相應的關係,以知足應用的須要。
   以上摘自《2003_北大_李芸_Ontology研究綜述 》、《 wiki_本體論


4.本體分類
根據本體不一樣方面的屬性(如形式化程度、目的和描述對象),能夠對本體進行不一樣的分類。
   如根據本體的形式化程度不一樣,能夠把本體分爲高度非形式化的(highly informal)、結構非形式化的(structured-informal)、半形式化的(semi-formal)和嚴格形式化的(rigorously formal)。
   根據本體的描述對象不一樣,能夠把本體分爲特殊領域本體(如醫藥、地理、金融等)、通常世界知識本體、問題求解本體和知識表示語言本體等。
   因爲本體的分類方法不少,目前尚未可以被普遍接受的分類標準。但如下幾個概念的定義意義明確,並從某種程度上提供了本體的分類方法:
   
領域本體(domain ontology或者說domain-specific ontology,即基於領域描述的本體)所建模的是某個特定領域,或者現實世界的一部分。領域本體所表達的是那些適合於該領域的那些術語的特殊含義。例如,就拿具備許多種含義的英文單詞「card」來講。關於撲克領域的本體可能會賦予該詞以「打撲克」的意思,而關於計算機硬件領域的本體則可能會賦予其「穿孔卡片」和「視頻卡」的意思。
   問題求解模型(PROBLEM SOLVING MODEL):以問題求解方法爲描述對象的本體。
   表示本體(REPRESENTATION ONTOLOGY):以知識表示語言爲描述對象的本體。在表示本體中,類、對象、關係、屬性、槽等術語通過嚴謹的分析和定義

    以上摘自《 綜述:本體的概念、方法和應用

   有人還提出了可分爲領域本體和上層本體。
   上層本體(upper ontology或者說foundation ontology,即基礎本體)是指一種由那些在各類各樣的領域本體之中都廣泛適用的共同對象所構成的模型。其中所收錄的核心詞表,能夠用來描述一套領域當中的對象。目前,存在着幾部現成可用的標準化上層本體,包括都柏林核心、通用形式化本體(General Formal Ontology,GFO)、OpenCyc/ResearchCyc、推薦上層合併本體(Suggested Upper Merged Ontology,SUMO)以及DOLCE。另外,有些人認爲WordNet屬於上層本體,但實際上它並非一部本體:WordNet只是由一部分類法(taxonomy)與一部受控詞表所造成的獨特組合(參見上述關於「屬性」方面的內容)。
   以上摘自《
wiki_本體論
  
5.本體語言
   目前的領域知識表達採用謂詞邏輯(predicate calculus)做爲基本的形式化方法(加上type-of關係表達類的繼承關係),情景邏輯(situational calculus)是謂詞邏輯的變種,它引入時間的概念來表達狀態、事件和過程。若是咱們把圖像和其它感受形式也包括到知識範疇中來,就須要很是不一樣的表達方式。可是目前,謂詞邏輯爲本體共享技術開了一個好頭。  

    以上摘自《 綜述:本體的概念、方法和應用

   本體語言使得用戶爲領域模型編寫清晰的、形式化的概念描述,所以它應該知足如下要求:
        良好定義的語法(a well-defined syntax)
        良好定義的語義(a well-defined semantics)
        有效的推理支持(efficient reasoning support)
        充分的表達能力(sufficient expressive power)
        表達的方便性(convenience of expression)
   大量的研究工做者活躍在該領域,所以誕生了許多種本體描述語言,有RDF和RDF-S、OIL、DAML、OWL(注:DAML+OIL再也不單獨列出,認爲 它是一個過渡,直接介紹OWL)、KIF、SHOE、XOL、OCML、Ontolingua、CycL、Loom。咱們簡單把它們歸類以下:
   和Web相關的有:RDF和RDF-S、OIL、DAML、OWL、SHOE、XOL。其中RDF和RDF-S、OIL、DAML、OWL、XOL之間有 着密切的聯繫,是W3C的本體語言棧中的不一樣層次,也都是基於XML的。而SHOE是基於HTML的,在HTML的一個擴展。
   和具體系統相關的(基本只在相關項目中使用的)有:Ontolingua、CycL、Loom。
   KIF已是美國國家標準,可是它並無被普遍應用於互聯網,做爲一種交換格式更多的應用於企業級。
   下面咱們逐一進行介紹。

1.RDF、RDF-S
   Resource Description Framework,資源描述框架,是W3C在XML的基礎上推薦的一種標準,用於表示任何的資源信息。RDF提出了一個簡單的模型用來表示任意類型的數據。這個數據類型由節點和節點之間帶有標記的鏈接弧所組成。節點用來表示Web上的資源,弧用來表示這些資源的屬性。所以,這個數據模型能夠方便的描述對象(或者資源)以及它們之間關係。RDF的數據模型實質上是一種二元關係的表達,因爲任何複雜的關係均可以分解爲多個簡單的二元關係,所以RDF的數據模型能夠做爲其餘任何複雜關係模型的基礎模型。W3C推薦以RDF標準來解決XML的語義侷限。
   RDF和XML是互爲補充的。首先,RDF但願以一種標準化,互操做的方式來規範XML的語義。XML文檔能夠經過簡單的方式實現對RDF的引用。其次,因爲RDF是以一種建模的方式來描述數據語義的,這使得RDF能夠不受具體語法表示的限制。可是RDF仍然須要一種合適的語法格式來實現RDF在Web上的應用。將RDF序列化爲XML表示可使RDF得到更好的應用可處理特性,並使得RDF數據能夠像XML數據同樣的容易使用、傳輸和存儲。
   所以,RDF是定製XML的良伴,而不僅是對某個特定類型數據的規範表示,XML和RDF的結合,不只能夠實現數據基於語義的描述,也充分發揮了XML與RDF的各自優勢,便於Web數據的檢索和相關知識的發現。
   與XML中的標記(tags)相似,RDF中的屬性(properties)集也是沒有任何限制的。也就是說存在同義詞現象和一詞多意現象。RDF的模型不具有解決這兩個問題的能力,而RDF Schema雖然能夠爲RDF資源的的屬性和類型提供詞彙表,可是基於RDF的數據語義描述仍然可能存在語義衝突。爲了消解語義衝突,咱們在描述數據語義 的時候能夠經過引用Ontology的相關技術,對語義描述結果做進一步的約束。幸運的是,RDF(Schema)在提供了簡單的機器可理解語義模型的同時,爲領域化的Ontology語言(OIL,OWL)提供了建模基礎,並使得基於RDF的應用能夠方便地與這些Ontology語言所生成的 Ontology進行合併。RDF的這一特性使得基於RDF的語義描述結果具有了能夠和更多的領域知識進行交互的能力,也使基於XML和RDF的Web數據描述具有了良好的生命力。
2.OIL
   Ontology Inference Layer/Ontology Interchange Language。OIL是一種針對本體的基於互聯網的表現和推理層。它是由the European Union IST programme for Information Society Technologies under the On-To-Knowledge project (IST-1999-1013) and IBROW (IST-1999-19005)資助的,也獲得了更普遍的研究者的參與。
   OIL綜合了三個不一樣團體的工做,提供一種通用的語義互聯網的標記語言。這三方面的工做分別是:
   基於框架的系統:基於框架的語言在AI中有很長的歷史,它們的中心建模元語是類(稱做框架)和屬性(稱爲槽)。
   描述邏輯:描述邏輯經過概念(對應於類或者框架)和角色(對應於槽)描述知識。DL的一個重要特徵是它們具備良好理解理論性質,而且在DL中任何表達的含義均可以經過數學的精確的方式描述。OIL從DL中繼承了形式化語義和有效的推理支持。
   互聯網標準:這裏指的是XML和RDF。OIL標記語言的語法源自W3C的這些標準

   OIL 的使用比較普遍,支持OIL的工具也不少,最著名的有OILEd,是一個基於OIL的本體編輯器。其餘一些工具,好比OntoEdit、the FaCT (Fast Classification of Terminologies) System等也都支持OIL。

3.DAML
    DARPA Agent Markup Language,該項目正式開始於2000年8月,由美國政府支持,目標是開發一種語言和一組工具,爲語義互聯網提供支持。Mark Greaves是該項目的領導者。DAML造成於DAML-ONT(一種本體語言)和DAML-Logic(一種表達公理和規則的語言)。
DAML 提出的緣由和OIL相似,一批支持語義互聯網的研究者發現XML、RDF做爲模式語言其表達能力頗有限,但願開發一種有更強的表達能力的模式語言。儘管 DAML並非W3C的標準,可是參與的開發者中有不少來自W3C的工做者,包括Tim Berners-Lee。
   DAML擴展了RDF,增長了更多的更復雜的類、屬性等定義。它一度很流行,成爲網上不少本體的描述語言,直到DAML的研究者和OIL的研究者開始合做,推出了DAML+OIL語言,成爲W3C研究語言互聯網的本體語言的起點。

4.OWL
   OWL 全稱Web Ontology Language,是W3C推薦的語義互聯網中本體描述語言的標準。它是從歐美一些研究機構的一種結合性的描述語言DAML+OIL發展起來的,其中 DAML來自美國的提案DAML-ONT,OIL來自歐洲的一種本體描述語言(兩者在上文都有介紹)。在W3C提出的本體語言棧中,OWL處於最上層,見下圖。

針對不一樣的需求OWL有三個子語言,描述列表以下:
子語言描述例子
   OWL Lite用於提供給那些只須要一個分類層次和簡單的屬性約束的用戶。支持基數(cardinality),只容許基數爲0或1。
   OWL DL支持那些須要在推理系統上進行最大程度表達的用戶,這裏的推理系統可以保證計算徹底性(computational completeness,即全部地結論都可以保證被計算出來)和可決定性(decidability,即全部的計算都在有限的時間內完成)。它包括了 OWL語言的全部約束,可是能夠被僅僅置於特定的約束下。當一個類能夠是多個類的一個子類時,它被約束不能是另一個類的實例。
   OWL Full支持那些須要在沒有計算保證的語法自由的RDF上進行最大程度表達的用戶。它容許在一個Ontology在預約義的(RDF、OWL)詞彙表上增長詞彙,從而任何推理軟件均不能支持OWL FULL的全部feature。一個類能夠被同時表達爲許多個體的一個集合以及這個集合中的一個個體。

這三種子語言之間的關係是:
   每一個合法的OWL Lite都是一個合法的OWL DL;
   每一個合法的OWL DL都是一個合法的OWL Full;
   每一個有效的OWL Lite結論都是一個有效的OWL DL結論;
   每一個有效的OWL DL結論都是一個有效的OWL Full結論。

用戶在選擇使用哪一種語言時的主要考慮是:
   選擇OWL Lite仍是OWL DL主要取決於用戶須要整個語言在多大程度上給出了約束的可表達性;
   選擇OWL DL仍是OWL Full主要取決於用戶在多大程度上須要RDF的元模型機制(如定義類型的類型以及爲類型賦予屬性);
   在使用OWL Full而不是OWL DL時,推理的支持不可預測,由於目前尚未徹底的OWL Full的實現。

這三種子語言與RDF的關係是:
   OWL Full能夠當作是RDF的擴展;
   OWL Lite和OWL Full能夠當作是一個約束化的RDF的擴展;
   全部的OWL文檔(Lite,DL,Full)都是一個RDF文檔;
   全部的RDF文檔都是一個OWL Full文檔;
   只有一些RDF文檔是一個合法的OWL Lite和OWL DL文。

5.KIF
   Knowledge Interchange format (KIF) 是一種爲了在不一樣的計算機系統(這裏的不一樣是指由不一樣的程序員在不一樣的時間使用不一樣的語言開發等)之間交換知識而設計的語言。它的主要目的不是和人交互, 也不是在一個計算機系統內部做爲知識的表現方式,只有在不一樣的計算機系統之間須要交換知識的時候,它們把各自的內部表現方式轉換成KIF,交互後再轉換成 各自的方式。它是由斯坦福大學的The Logic Group提出並實現的,是一種美國標準(ANSI)。
在KIF的設計中,如下特徵是其本質特性:
   有公開的語義。它再也不須要專門的解釋器。
   在邏輯上是全面的。能夠對任意的邏輯語句進行表達。
   提供對元知識的表現

   除了這幾個本質特徵之外,KIF還儘可能的最大化實現能力和可讀性。

6.SHOE
   全稱:Simple HTML Ontology Extensions,簡單HTML的本體擴展。這是一種與XML一致的互聯網知識表達語言,使得網頁編輯者能夠對他們的互聯網文檔進行標註。由馬里蘭大學計算機系提出的,可是目前他們有關本體的研究項目已經使用OWL和DAML+OIL做爲互聯網本體的描述語言,SHOE已經中止研究了。
   SHOE是HTML的一個超集,它擴展了一些標記,使得在HTML中能夠增長任意的語義數據。它的標記有兩類,一類用於建立本體,一類用於註解文檔。

7.XOL
   Ontology Exchange Language,本體交換語言。源於SRI International's Artificial Intelligence Center (AIC)的Bioinformatics Research Group。XOL設計之初是爲生物信息學領域本體的交換,可是它能夠應用於各類領域。它是一種簡單通用的定義本體的方法。基於XML和RDF Schema有兩種變體。其目的是在不一樣的數據庫、本體開發工具、或者其餘應用程序之間交換本體。

8.OCML
   Operational Conceptual Modelling Language,是由英國的Knowledge Media Institute實驗室開發的。OCML建模語言經過幾種具體的構件(Functional terms、Control terms、Logical expressions)來支持知識模型的建模架構。該語言使得對函數、關係、類、實例和規則的形式化操做成爲可能。它還包括定義本體及問題解決方法的機制。KMI的WebOnto編輯器是基於OCML的。

9.Ontolingua
   一種基於KIF(knowledge interchange format)的提供統一的規範格式來構建Ontology的語言。其特色是:爲構造和維護Ontology提供了統一的、計算機可讀的方式;由其構造的 Ontology能夠方便地轉換到各類知識表示和推理系統(Prolog、CORBA的IDL、CLIPS、LOOM、Epikit、Algernon和 KIF),從而將Ontology的維護與使用它的目標系統隔開;主要用於Ontology服務器。

10.CycL
   Cyc系統的描述語言,一種體系龐大而很是靈活的知識描述語言。其特色是:在一階謂詞演算的基礎上擴充了等價推理、缺省推理等功能;具有一些二階謂詞演算的能力;其語言環境中配有功能很強的可進行推理的推理機。

11.loom 
   
Ontosaurus描述語言, 一種基於一階謂詞邏輯的高級編程語言,屬於描述邏輯體系。其特色是:提供表達能力強、聲明性的規範說明語言;提供強大的演繹推理能力;提供多種編程風格和知識庫服務。該語言後來發展成爲PowerLoom語言。PowerLoom是KIF的變體,它是基於邏輯的,具有很強表達能力的描述語言, 採用先後鏈規則(backward and forward chainer)做爲推理機制。

   在選擇本體描述語言時,咱們的基本認識是向標準看齊,而且咱們項目的應用領域也是基於Web信息服務,所以,OWL很天然的成爲首選。
   以上摘自《本體概念、描述語言和方法論方面的綜述.doc》

6.構造Ontology 的規則
   目前已有的Ontologies 不少,出於對各自問題域和具體工程的考慮,構造Ontologies 的過程也是各不相同的。因爲沒有一個標準的Ontology 構造方法,很多研究人員出於指導人們構造Ontologies 的目的,從實踐出發,提出了很多有益於構造Ontology 的標準,其中最有影響的是Gruber 於1995 年在文獻[17 ]中提出的5 條規則:
   –明確性和客觀性:即Ontology 應該用天然語言對所定義術語給出明確的、客觀的語義定義。
   –徹底性:即所給出的定義是完整的,徹底能表達所描述術語的含義。
   –一致性:即由術語得出的推論與術語自己的含義是相容的,不會產生矛盾。
   –最大單調可擴展性:即向Ontology 中添加通用或專用的術語時,不須要修改其已有的內容。
   –最小承諾:即對待建模對象給出儘量少的約束。

7.本體在信息檢索的應用
   Ontology 在信息檢索技術可分爲3類
      全文檢索(Text retrieval)
      數據檢索(Data retrieval)
      知識檢索(Knowledge retrieval) 
    全文檢索的特色是把用戶的查詢請求和全文中的每個詞進行比較,不考慮查詢請求與文件語義上的匹配,這種方式雖然能夠保證查全率,可是查準率卻大大地下降了。
    數據檢索的特色是查詢要求和信息系統中的數據都遵循必定的格式,具備必定的結構,容許對特定的字段檢索(例如:做者=「王剛」) 。數據檢索須要有標識字段的方法。數據檢索的性能取決於所使用的標識字段的方法和用戶對這種方法的理解,所以具備很大的侷限性。數據檢索支持語義匹配的能力也較差。
   知識檢索強調的是基於知識的、語義上的匹配,所以在查準率和查全率上有更好的保證。目前知識檢索是信息檢索研究的重點,特別是面向Web 信息的知識檢索。

基於Ontology 的信息檢索的基本設計思想
(1) 在領域專家的幫助下,創建相關領域的Ontology。
(2) 收集信息源中的數據,並參照已創建的Ontology ,把收集來的數據按規定的格式存儲在元數據庫(關係數據庫、知識庫等) 中。
(3) 對用戶檢索界面獲取的查詢請求,查詢轉換器按照Ontology 把查詢請求轉換成規定的格式,在Ontology 的幫助下從元數據庫中匹配出符合條件的數據集合。
(4) 檢索的結果通過定製處理後,返回給用戶。

    目前Ontology 應用在信息檢索中的著名項目包括(Onto)2 Agent 、Ontobroker和SKC 。這3個項目也分別表明了3 個方向。
   (Onto) 2 Agent 的目的是爲了幫助用戶檢索到所須要的WWW上已有的Ontology ,主要採用了參照Ontology。參照Ontology 是以WWW上已有的Ontology 爲對象創建起來的Ontology ,它保存有各種Ontology 的元數據。
   Ontobroker 面向的是WWW上的網頁資源,目的是爲用戶檢索到所須要的網頁,這些網頁含有用戶所關心的內容。
   SKC 是一個正在進行的項目,其目標是解決信息系統語義異構的問題,實現異構的自治系統之間的互操做。該項目但願經過在Ontology 上創建一個代數系統,用這個代數系統來實現各Ontology 之間的互操做,從而實現異構系統之間的互操做。
   
以上摘自《2003_北大_李芸_Ontology研究綜述 

8.本體研究現狀
1.領域本體研究
1.1 CYC
   CYC是位於美國德州奧斯汀的MCC (Microelectronics and Computer Technology Corporation)公司的研究項目,其目的是經過本體開發爲常識推理(common sense reasoning)提供基礎。
   CYC中的知識用一階謂詞邏輯的變種CYCL表達。知識庫中包含簡單的聲明、推理規則、推理控制規則。在知識庫的基礎上,可使用推理機產生新的推斷。
   CYC本體按照模塊(module)組織,稱爲微理論(microtheories)。每一個微理論包括某一特定領域知識和推理所需的概念,如空間、時間、因果、智能體等。某一領域本體可能包括多個微理論,以反映該領域建模的不一樣側面和前提。在這個意義上,CYC不是一體的集成本體,而是一個微理論的網絡,該網絡的並集爲若干領域提供本體約定。

1.2 TOVE
   TOVE (TOronto Virtual Enterprise)是加拿大多倫多大學的研究項目,其目的是構造企業本體,並具備如下特徵:
   1)爲企業的應用軟件提供共享的術語;
   2)用一階謂詞邏輯爲每一個術語定義儘量精確的含義;
   3)用一組Prolog公理來實現本體語義約束,使TOVE可以自動的對與企業有關的常識性問題進行演繹推理;
   4)定義一套符號,對術語和概念進行圖形化的描述。
   TOVE本體包括活動、組織、資源、產品、成本和質量等部分,它們組成了集成的企業模型。

1.3 Enterprise
   Enterprise項目是英國愛丁堡大學人工智能應用研究所(AIAI: Artificial Intelligence Application Institute)的研究項目。其目的是經過一個集成框架,集成企業建模的方法和工具,以改進和代替現有的建模方法。該集成框架以企業建模本體爲基礎。經過提供一組工具,能夠輔助用戶進行企業建模和分析,
具體內容包括:
   1)對於企業模型的捕獲和描述;
   2) 描述經營問題和需求;
   3)在戰略、戰術和操做層次上,肯定和評估解決問題的方法以及系統的設計和實現;
   4)對相關的度量體系進行表示,並支持高級仿真。

企業本體由如下部分構成:
   元本體:實體,關係,角色,行動者,事件狀態
   活動和過程:活動,資源,計劃,能力
   組織:組織單元,合法實體,管理,全部權
   策略:目的,策略,有助於實現,假設
   營銷:銷售,產品,零售商,客戶,市場

1.4 KACTUS
   KACTUS是歐洲ESPRIT項目。其目的是開發出技術系統全生命週期的知識重用方法學,以便在設計、診斷、操做、維護、再設計和培訓時使用同一知識庫。經過構造支持產品知識重用的本體,KACTUS可以支持計算機集成制造方法和知識工程方法的集成。另外,KACTUS還試圖將本體同現有標準(如STEP)進行集成。
   KACTUS的主要表達方法是CML(概念建模語言:Conceptual Modelling Language)。與其它的本體表達方法不一樣,CML在領域知識、推理知識、任務知識和問題求解知識之間做了區分。
   KACTUS還提供了交互式的環境,支持本體的瀏覽、編輯和管理。除了CML之外,KACTUS工具還提供了對EXPRESS和Ontolingua的支持。 
  
2 表示本體和問題求解模型
2.1 KSL Knowledge Sharing Effort
   Knowledge Sharing Effort是美國DARPA項目,主要由斯坦福大學知識系統實驗室承擔。其目的是使得知識系統的開發者可以從可重用的模塊庫中選擇構件,進行裝配,造成所需的新系統。該項目分爲四部份內容:
   1)不一樣語言表示的知識庫之間的翻譯機制(KIF: Knowledge Interchange Format);
   2)在一族表達範式之間創建共同的語言版本和推理模塊;
   3)基於知識的系統之間的通信協議(KQML: Knowledge Query and Manipulation Language);
   4)本體庫,即爲構造領域知識庫而預置的基礎。KIF是一種中性語言,可以表示目前高級知識表示語言中幾乎全部重要的概念和區別。
   爲了解決本體表示不統一的問題,他們還開發了基於Web的Ontolingua系統。Ontolingua是獨立於特定表示系統的本體定義機制,它容許用KIF定義類、關係和對象,並能將這些定義翻譯成幾種特定的表示語言。Ontolingua還進一步定義了框架本體(表示本體),來支持本體的移植。

2.2 Guarino對於本體的研究
   Guarino是意大利帕多瓦大學LADSEB- CNR(Institute for Systems Theory and Biomedical Engineering)的高級研究員。他分析總結了本體及相關概念的含義,提出了「本體層」的概念[17],研究了表示本體的本體約定,並探索了本體在物理對象、STEP語義方面的應用,具備重要的參考價值。

3.2.3 CommonKADS
   CommonKADS是歐洲ESPRIT項目,它在問題求解模型研究方面有重要做用。它定義了技能模型(Model of Expertise)、解釋模型(Interpretation Model)和任務模型(Task Model)等重要概念。技能模型包括啓發式模型(基於規則的求解模型)、深度模型(基於功能和結構信息的求解模型)、隱含模型(基於鏈接主義方法的求解模型)、能力模型(與表示語言獨立的對於技能的高層描述)、分佈式模型(Multi-agent問題求解系統)等。解釋模型是對問題求解方法的描述。任務模型是對問題求解過程控制結構的描述。

3本體與標準之間的集成
   本體的開發可使得不一樣工具之間的表示標準化,目前有幾個項目正在進行這方面的工做。如工做流管理同盟、STEP和EXPRESS、CORBA和KIF等。
   工做流管理同盟(Workflow Management Coalition)定義了一組詞彙,包括定義、使用、同義詞等。這些詞彙做爲半形式化的本體進行共享。另外,MIT、斯坦福大學、多倫多大學、愛丁堡大學等還聯合開發了PIF(Process Interchange Fromat),來支持不一樣軟件系統之間的過程數據交換。
   STEP (Standard for the Exchange of Product Model Data)是進行產品定義和描述的中性語言,其目的是在不一樣的應用之間進行信息交換和互操做。STEP使用EXPRESS做爲建模語言,但EXPRESS 並不能徹底解決產品建模的語義問題,參考文獻中對此問題進行了基於本體的初步探討。
   CORBA (the Common Object Request Broker Architecture)標準的出現是爲了解決分佈式環境下的對象互操做問題。它使用IDL(Interface Definition Language:接口定義語言)來定義遠程對象間進行互操做的接口。KSL的Ontolingua服務提供了IDL和Ontolingua之間的翻譯。 CORBA定義了對象模型,對象的實現提供了對象的語義。業務對象管理組(Business Object Management group)還提供了詞彙表,這些均可以看做本體的雛形。
   KIF和概念圖(conceptual graphs)都是用來表示本體的語言,它們都基於一階謂詞邏輯,但細節上有所不一樣。目前正在開發系統,實現二者之間的翻譯和映射。
   
以上摘自《 綜述:本體的概念、方法和應用



總結:
(1)本體的具體清晰的解釋
   
目前公認的是
   1998/Studer :共享概念模型的明確的形式化規範說明 
  包括四個主要方面
  1. 概念化(conceptualization):客觀世界的現象的抽象模型;
  2. 明確(explicit):概念及它們之間聯繫都被精肯定義;
  3. 形式化(formal):精確的數學描述;
  4. 共享(share):本體中反映的知識是其使用者共同承認的。
   這段話具體形象的說明了本體究竟是什麼,用來幹什麼。
(2)什麼是概念
   概念是意義的載體。一個單一的概念能夠用任何數目的語言來表達;術語則是概念的表達形式。狗的概念能夠表達爲德語的 Hund,法語的 chien 和西班牙語的 perro。概念在必定意義上獨立於語言的事實使得翻譯成爲可能 - 在各類語言中詞有同一的意義,由於它們表達了相同的概念。
   概念是人類對一個複雜的過程或事物的理解。從哲學的觀念來講概念是思惟的基本單位。在平常用語中人們每每將概念與一個詞或一個名詞(術語)同等對待。
   概念內容(內涵)包括全部一個組成該概念的事物的特性和關係。好比「飼養技術」的內容包括全部有關於這個技術的特性。但在定義這個概念時人們挑選出這些特性中最關鍵的,好比:「飼養技術是繁殖、餵養、圈養和使用農業用動物和以此提取有價值的產品的技術」。
   中華人民共和國國家標準GB/T 15237.1—2000:「概念」是對特徵的獨特組合而造成的知識單元

(3)本體構成要素
   本體基本要素爲:
類/概念(classes) ,關係(relations) ,函數(functions) ,公理(axioms) 和實例(instances)
   基本關係有4 種:part-of ,kind-of ,instance-of 和attribute-of

(4)本體語言
   本體語言目前成爲標準的是OWL
   具有較強推理能力的是Cyc和loom
   這三個本體語言值得關注

原文出處:http://blog.chinaunix.net/uid-122937-id-142852.html
相關文章
相關標籤/搜索