RDF——Web數據集成的元數據解決方案

時間 2019-12-18

標籤 rdf web 數據集成解決方案欄目 HTML 简体版

原文原文鏈接

搜索引擎

Yahoo

Altavista

Infoseek

一．引言
在現今的社會中，信息無處不在，從這些信息中獲取對本身有用的信息並非件容易的事。固然也有例外的，好比，在圖書館裏你能夠根據書名或做者名或關鍵字的信息找到藏書號，從而很容易找到所要的書，在音像店裏你能夠根據片名、主演等信息方便的找到本身所要的影碟。這兩個系統有一個共同的特色——它們都是創建在元數據之上。
元數據是關於數據的數據或關於信息的信息。例如：書的文本就是書的數據，而書名、做者、版權數據都是書的元數據。元數據並不必定就是用來檢索的，也可用於內部的管理，如圖書館系統能夠爲書定義被借次數這個元數據，以瞭解書的被借閱狀況，肯定是否要增長副本數。元數據的使用，能夠大大提升系統的檢索和管理的效率。
網絡是個大的數據庫，它裏面包含的數據比起圖書館和音像店來可要複雜的多，五花八門，什麼都有，但有一個問題——網絡基本上沒有元數據。那搜索引擎是怎麼工做的呢？其實，搜索引擎中除極少數如Yahoo!外，基本上都是採用網頁的全文檢索來提供檢索服務，這就可想而之其查準率之低了。Yahoo! 將其收集到的網站及網頁分門別類加以索引和文摘（由人工完成），從而大大提升了查準率，這也是其流行的一個重要緣由。但對如此浩瀚的信息海洋若都採用人工標引顯然是不現實的，因此咱們用Yahoo!檢索的時候查全率不如象Altavista、Infoseek這樣的搜索引擎高，緣由是其收錄的網站網頁數量有限。若是網絡上的資源在建立之初就都使用元數據來描述其自身的信息，那不就能夠省去人工標引的麻煩嗎？是的，可是怎樣用元數據來描述，這得有個標準， W3C提出的用於描述Web資源的RDF（Resource Description Framework 資源描述框架）就是這樣的一個標準，RDF給出了Web數據集成的元數據解決方案。

二． RDF簡介
RDF的含義就是描述資源的框架（Framework for Describing Resources），下面咱們逐個來看這三個詞的意思。
資源（Resource）：全部在Web上被命名、具備URI(Unified Resource Identifier 統一資源描述符)的東西。如網頁、XML文檔中的元素等；
描述（Decription）：對資源屬性（Property）的一個陳述（Statement），以代表資源的特性或者資源之間的聯繫；
框架（Frameword）：與被描述資源無關的通用模型，以包容和管理資源的多樣性、不一致性和重複性。
綜合起來，RDF就是定義了一種通用的框架，即資源—屬性—值的三元組，一不變應萬變，來描述Web上的各類資源。
下面咱們來看一個簡單的RDF的例子：
<rdf : Description about='http://www.textuality.com/RDF/Why-RDF.html'> (指明被描述資源的URI)
<Author> Tim Bray </Author> （被描述資源有一個叫Author即做者的屬性，其值是Tim Bray）
<Home-Page rdf:resource='http://www.textuality.com/'> （被描述資源有一叫Home-Page即主頁的屬性，其值指向另外一資源）
</rdf: Description> （結束標誌）

三． RDF實現Web元數據描述與交換的機制
3．1 RDF的兩大關鍵技術
RDF有兩大關鍵技術——URI和XML。URI是Web資源的惟一標識，它是更經常使用的統一資源定位符URL的超集，除了網頁之外，它還能夠標識頁面上的元素、書籍、電視等資源，甚至能夠標識某一我的。在RDF中，資源無所不在，資源的屬性是資源，屬性的值能夠是資源，甚至與一個陳述也能夠是資源，也就是說，全部這些均可以用URI標識，能夠再用RDF來描述。那RDF怎樣放在網絡上讓人使用呢？XML做爲一種通用的文件格式承擔了這個責任，它定義了RDF的表示語法，這樣就能夠方便的用XML來交換RDF的數據。
3．2 詞聚集
咱們能夠看到，RDF只定義了用於描述資源的框架，它並無定義用哪些元數據來描述資源。這正是其高明之處。由於顯然描述不一樣資源的元數據是不一樣的，而若是要定義一種元數據集，包括全部種類的資源，這在目前仍是不現實的，不但工做量巨大，並且即便定義出這樣的元數據集，能不能被你們採納仍是個問題，由於對於圖書館這樣已經用元數據描述其資源的系統，要放棄原來的元數據集採用一種新的元數據集，其工做量是可想而知的，估計實施過程當中遇到的阻力會很大。
RDF採用的是另一種方法，即它容許任何人定義元數據來描述特定的資源，因爲資源的屬性不止一種，所以實際上通常是定義一個元數據集，這在RDF中被稱做詞聚集（Vocabulary），詞聚集也是一種資源，能夠用URI來惟一標識，這樣，在用RDF描述資源的時候，可使用各類詞聚集，只要用URI指明它們便可。固然，各類詞聚集的受歡迎程度可能不一樣，有的也許只是被定義它的人使用，有的卻因爲其定義的科學性爲許多人所接受，如以相似圖書館卡片目錄的方式來定義資源的詞聚集Dublin Core，定義教育內容IMS元數據，定義我的信息的V-Card元數據等。既然詞聚集是資源，固然能夠用RDF來描述它的屬性以及和其餘詞聚集間的關係，W3C爲此特意提出RDF Schema來定義怎樣用RDF來描述詞聚集，也就是說RDF Schema是定義RDF詞聚集的詞聚集，但這個RDF Schema可不是隨便什麼人均可以定義的，它只有一個，就是W3C定義的版本。例如：
http://mymetadata.vocab.org/Author
---rdfs: subPropertyOf --->
http://purlorg/dc/elements/1.0/Creator
即表示某人本身定義的元數據Author是Dublin Core的元數據Creator的特殊形式。RDF Schema正是經過這樣的方式來描述不一樣詞聚集的元數據之間的關係，從而爲元數據交換打下基礎。
3．3 實現機制
到這裏咱們就能夠發現RDF是怎麼來實現Web上的元數據描述和交換的了：它使用XML語法，首先指定詞聚集的URI，詞聚集能夠是多個，視須要而定，再使用指定的詞聚集來描述資源，不一樣的詞聚集間怎麼聯繫呢？用RDF Schema。
爲了更加清楚的理解這個機制，下面咱們來看一個用XML表達的RDF的例子：
<rdf :RDF
xmlns :rdf=" http://www.w3.org/1999/02/22-rdf-syntax-ns#
xmlns:dc=" http://www.purl.org/DC/" (詞聚集1的URI)
xmlns:nm=" http://www.metalab.unc.edu/xml/names/"> （詞聚集2的URI）

<rdf :Description about=" http://www.metalab.unc.edu/xml" > （被描述資源的URI）
<dc:CREATOR parsetype="Literal"> （用詞聚集1的元數據CREATOR描述做者屬性）
<nm:FirstName> Elliotte</nm:FirstName>（用詞聚集2的元數據描述做者的姓名屬性）
<nm:MiddleNmae> Rusty</nm:MiddleName>
<nm:LastName> Harold</nm:LastName>
</dc:CREATOR>
</rdf :Description>
</rdf :RDF>

四． RDF的特色
4． 1易控制
RDF使用簡單的資源—屬性—值三元組，因此很容易控制，即便是數量很大的時候。這個特色很重要，由於如今Web資源愈來愈多，若是用來描述資源的元數據格式太複雜，勢必會大大下降元數據的使用效率，其實從功能的角度來看，徹底能夠直接使用XML來描述資源，但XML結構比較複雜，容許複雜嵌套，不容易進行控制。採用RDF能夠提升資源檢索和管理的效率，從而真正發揮元數據的功用。
4． 2易擴展
在使用RDF描述資源的時候，詞聚集和資源描述是分開的，因此能夠很容易擴展。例如若是要增長描述資源的屬性，只須要在詞聚集中增長相應元數據便可，而若是使用的是關係數據庫，增長新字段可不是件容易的事情。
4．3包容性
RDF容許任何人定義本身的詞聚集，並能夠無縫的使用多種詞聚集來描述資源，以根據須要來使用，使各盡其能。好比，在上個例子裏描述網頁資源時用Dublin Core 描述其做者屬性，而在描述做者的姓名時又使用了另一個專門描述人的詞聚集來描述。
4． 4可交換性
RDF使用XML語法，能夠很容易的在網絡上實現數據交換；另外，RDF Schema定義了描述詞聚集的方法，能夠在不一樣詞聚集間經過指定元數據關係來實現含義理解層次上的數據交換。
4． 5易綜合
在RDF中資源的屬性是資源，屬性值能夠是資源，關於資源的陳述也能夠是資源，均可以用RDF來描述，這樣就能夠很容易的將多個描述綜合，以達到發現知識的目的。例如，在描述某書籍時指明其做者屬性值是另外一資源，咱們就能夠根據描述做者的URI來得到做者的信息，如畢業院校等，從而知道這本書是某一院校的畢業生寫的，因而在表面上看來沒任何關係的二者間創建的聯繫，而這種聯繫每每是知識發現的前奏。

五． RDF與若干Web新技術
5． 1 RDF與資源發現（Resource Discovery）技術
RDF採用簡單的資源—屬性—值三元組來描述資源，試想，若是Web上的資源都用RDF進行描述，因爲RDF採用XML語法，這樣就能夠很容易的實現資源的自動搜索，而不須要進行人工進行標引，而且能夠達到很高的查全率和查準率；另外，RDF描述能夠很容易進行綜合，產生表面不易觀察出來的信息。全部這些都將對資源發現技術產生革命性的影響。
5． 2 RDF與個性化服務
隨着Web技術的發展，個性化服務被提上日程。W3C提出的綜合能力/偏好界面（CC/PP，Composite Capability/Preference Profile）推薦標準是定義網絡上用戶以及其用來上網工具（包括硬件平臺、系統軟件和應用軟件）的性能和偏好的集合，它使用了RDF技術。咱們能夠簡單認爲用戶及工具的能力和偏好都是用戶的屬性，是用戶的元數據，因而能夠用RDF來描述，這樣就可以使用同一種方法來描述Web內容和用戶的能力與偏好，在用戶獲取信息的時候，能夠經過某一種規則進行折中，以使得獲取的信息符合用戶的能力和偏好，爲用戶提供個性化服務。例如：某Web內容是用多種語言實現的，但因爲翻譯的問題，各語種的可信度有高有低，而用戶對各類語言的掌握程度也不一樣，這樣就須要某一種規則進行折中，以讓用戶選擇一種他能夠理解的最忠實於原文檔的語種進行閱讀，使用RDF描述Web內容和用戶能力/偏好可大大簡化這種折中的過程。
5．3 RDF與Web信息過濾
RDF最初提出就是爲了配合W3C提出的PICS（Platform for Internet Content Selection，因特網內容選擇平臺）規範。PICS是由服務器向客戶機傳遞Web內容等級的一種機制，好比說某一網頁是否包含有×××、暴力的內容。不一樣的機構能夠按本身的價值標準將Web內容進行分級，這樣用戶就能夠很容易的經過設置瀏覽器將某些網頁過濾掉。RDF設計的一個要求就是能夠表達PICS1.1能表達的全部內容，以使得能夠自動的將PICS1.1標籤翻譯成RDF的標識，而不損失任何信息，這樣作的好處就是能夠用RDF來進行數據的交換。
5．4 RDF與可信任Web（Web of Trust）
如今網絡要解決的一個重要問題是創建信任機制，這個問題比較複雜，涉及到社會和技術上的許多問題。信任的一個方面是將某一陳述可靠的與作出此陳述的人或機構聯繫起來，數字簽名技術則是技術上實現可信任Web的關鍵技術。W3C提出的數字簽名初步（DSig，Digital Signature Initiative）提出了一種爲元數據簽名的機制，以確認是誰作了這種機器可讀的陳述，它規定了如何由RDF/PICS描述簽名陳述，使其成爲機器可識別的描述。具備數字簽名的RDF將成爲構建可信任Web以知足電子商務等應用須要的關鍵技術。
5．5 RDF與智能瀏覽（Smart Browsing）技術
Mozilla 瀏覽器的pre-Nglayout版本和Netscape瀏覽器的4.07或4.5+版本都大量採用RDF技術，實現了智能瀏覽。智能瀏覽即瀏覽器幫助瀏覽網頁的用戶提供其餘與其瀏覽內容有關的信息，例如，若是你在 www.whitehouse.gov上瀏覽白宮的網頁，就有可能須要國會、國防部或者總統我的主頁的URL，而這些瀏覽器自己就能夠提供給用戶。智能瀏覽技術是將來瀏覽器發展的一個方向。
5．6 RDF與語義Web（Semantic Web）
語義Web是最近才提出的一個概念，即Web的內容不只僅用來顯示，更重要的是具備真正的含義，使得能夠用軟件工具在Web中漫遊來處理用戶提出的複雜任務。而實現語義Web的一個關鍵技術就是RDF，由於RDF提供了資源的通用描述方式。語義Web的一個目標是突破虛擬世界的界限來控制現實世界，當咱們能夠用RDF來描述電視機、電話等設備來實現對它們的協調控制的時候，想想那是多麼美好的將來！

六．結語 RDF爲Web資源描述提供了一種通用框架，它以一種機器可理解的方式被表示出來，能夠很方便的進行數據交換，RDF提供了Web數據集成的元數據解決方案。經過RDF的幫助，Web能夠實現目前還很難實現的一系列應用，如能夠更有效的發現資源，提供個性化服務，分級與過濾Web的內容，創建信任機制，實現智能瀏覽和語義Web等。固然，如今的RDF還處於標準的制定和推廣階段，要在整個網絡上都實現用RDF來描述資源，還有很長的一段路要走，這須要各方面的共同努力。