開放存取知識庫及其數據採集規範的研究
數據庫
萬猛1, 張永鋒2, 李振華2, 霍東雲3, 趙弋洋4, 王蓮4編程
1 教育部科技發展中心,北京 100080安全
2 清華大學軟件學院,北京 100084網絡
3 北京賽時科技有限公司,北京 100084框架
4 北京西普陽光教育科技股份有限公司,北京 100191ide
摘要:在建設學術大數據、促進學術共享的時代背景下,調查了目前開放存取知識庫的發展示狀,在數據規模、地區分佈、系統軟件等方面闡述了國內外的研究狀況。以創建科研機構知識庫爲例,梳理了創建過程當中的數據採集需求,並從數據屬性、元數據標準、語義去重等方向分析了經常使用的數據採集規範。最後,綜合考慮國內外開放存取知識庫的發展示狀,並結合我國發展開放存取知識庫存在的問題和麪臨的挑戰,提出了4點發展建議。學習
關鍵詞: 開放存取 ; 知識庫 ; 數據 ; 規範大數據
論文引用格式:網站
萬猛, 張永鋒, 李振華, 霍東雲, 趙弋洋, 王蓮.開放存取知識庫及其數據採集規範的研究. 大數據[J], 2019, 5(5):48-57ui
WAN M, ZHANG Y F, LI Z H, HUO D Y, ZHAO Y Y, WANG L.Research on open-access repositories and data acquisition specifications.Big Data Research[J], 2019, 5(5):48-57
1 引言
隨着大數據時代的到來,科學研究也進入了數據密集型階段,科研數據的價值日益凸顯。學術大數據是獲取知識的捷徑、科學研究的嚮導和終身教育的基礎,更是國家大數據戰略和建設「數字中國」的重要內容,對促進科學創新和加快社會發展有重大意義。在學術大數據的不斷髮展以及學術共享理念逐漸成爲共識的背景下,開放存取(open-access,OA)這一全新的學術交流機制應運而生。
開放存取知識庫是開放存取的一個主要實現途徑。本文首先從國內外數據規模、地理分佈、系統平臺種類等方面概況和總結開放存取知識庫的研究現狀;接着,以面向通常科研數據的科研機構知識庫爲例,梳理數據採集的需求,總結數據採集過程當中的相應規範;最後,從國內的現狀出發,對我國開放存取知識庫的發展提出建議。
2 開放存取知識庫的研究現狀
開放存取根據獲取途徑的不一樣,能夠分爲金色OA(gold open-access)和綠色OA(green open-access)。金色OA採用開放存取期刊(open-access journal)的方式,由做者支付版權費用,以實現面向讀者的免費獲取。綠色OA則採用開放存取知識庫(open-access repositories)的形式,由做者將已出版或未出版的文獻存儲到知識庫中,以實現免費獲取。開放存取知識庫主要分爲機構知識庫(institutional repositories,IR)和學科知識庫(discipline repositories,DR)兩種。此外,近年來還出現了另外一種開放存取途徑,人們將出版的期刊文章經過盜版網站、學術社交網站等平臺進行傳播,這種經過非法途徑免費傳播的方式被稱爲黑色OA(black open-access),典型的黑色OA有Sci-hub、Research Gate等。
2.1 發展概況
開放存取知識庫名錄(the direct of open access repositories,OpenDOAR)是關於開放存取知識庫的權威目錄,其宗旨是經過對全球範圍內的開放存取知識庫資源進行系統的收集、描述、組織和傳遞,提升開放存取學術資源獲取和使用的效益,推進開放存取運動的發展。根據OpenDOAR統計,截至2015年9月, OpenDOAR收錄的開放存取知識庫已達到3 101個,到2017年3月增加到3 472個,到2019年5月則增加到了4 140個。在最新的4 140個開放存取知識庫中,機構知識庫有3 571個,佔比爲86.3%,學科知識庫數量爲338個,佔比僅爲8.2%。
由圖1的數據能夠看出,自2006年開放存取知識庫數量迎來較大漲幅以後,每一年的增長幅度爲200~300個,且一直保持平穩增加。可見人們對開放存取知識庫的重視程度在逐漸增強,而且愈來愈多的研究機構開始創建開放存取知識庫。
圖1 OpenDOAR開放存取知識庫數量增加狀況
2.2 分佈狀況
開放存取 知識庫的地區分佈不均,主要集中在歐洲(45.9%)、美洲(27.3%)和亞洲(19.4%)。大部分的開放存取知識庫集中在發達國家,見表1。其中,美國的開放存取知識庫數量爲575個,是第二名英國的2倍多。而我國目前的數量僅爲62個,距離美國、英國、德國、日本等國家還有必定差距。
一個國家開放存取知識庫的數量能夠在必定程度上反映國家對學術和科研的投入力度,也能夠看出國家對開放存取這一形式的支持程度。我國目前的經濟實力和科研實力都在逐步增強,增強開放存取知識庫的建設能夠更好地促進學術信息的交流和共享,提升國家的科技競爭力和影響力。
我國的開放存取知識庫並未所有列入OpenDOAR中。事實上,我國正在逐漸創立本身的開放存取知識庫羣,如中國科學院機構知識庫網格(Chinese Academy of Sciences Institutional Repositories Grid,CAS IR GRID)。CAS IR GRID以發展機構知識能力和知識管理能力爲目標,快速實現對知識資產的收集、長期保存、合理傳播利用,積極建設對知識內容進行捕獲、轉化、傳播、利用和審計的能力,逐步建設包括知識內容分析、關係分析和能力審計在內的知識服務能力,開展綜合知識管理。目前,CAS IR GRID共收錄機構知識庫114個,學者信息共計12 011位,學術成果共計985 767條,其中,包括期刊論文642 695條,會議論文112 257條,學位論文83 004條。
2.3 系統平臺種類
開放存取知識庫經常使用的系統平臺能夠分爲開源軟件和商業軟件兩類。比較著名的開源軟件有DSpace、EPrints、Fedora等。DSpace系統由美國麻省理工學院圖書館(MIT libraries)和美國惠普公司實驗室(Hewlett-packard labs)合做完成,通過兩年多的努力,於2002年10月開始投入使用。DSpace是基於伯克利軟件套件(Berkeley software distribution,BSD)開源協議的軟件平臺,免費提供給任意學術機構使用,目前也是世界上開放存取知識庫使用最普遍的系統平臺。目前DSpace在開放存取知識庫中的佔有率高達43%。
EPrints是由英國南安普頓大學於2000年研發的通用免費開源軟件。EPrints遵循通用公共許可(general public license,GPL)開源協議,在發行之初就獲得了普遍傳播,這也是第一個免費的開放存取機構庫的系統軟件。該軟件的出現促進了其餘相似軟件的發展。目前, EPrints以13%的佔有率成爲第二大受歡迎的知識庫系統軟件。
爲了進行更好的中文本地化適配,而且擴展示有的開源系統功能,中國科學院在2008年開發了新的系統軟件CSpace, CSpace是基於DSpace1.4.2版本擴展的,並於2012年10月正式開源。經過修改、添加新組件和模塊,進行連續定製和擴展,它提供了更實用、更適合中文語言的功能和服務,並根據科研人員的需求不斷改進。此外,面對研究環境中數字內容不斷變化的背景,CSpace容許以不可編程的方式建立或定製內容類型感知模板和相關規則,以使其適應不一樣的內容管理和不斷變化的需求。CSpace還提供了一系列其餘有用的自定義選項,以方便在本地環境下簡易部署。
與DSpace相比,CSpace最初是DSpace的漢化版本,通過一次次的版本迭代,目前CSpace平臺已經發布6.0版本,在中國科學院110多家研究所獲得部署應用,並在中國農業科學院、中國鐵道科學院、蘭州大學等國內數十家科研機構、高校和科技型企業應用。CSpace6.0版本的新增特性包括知識整合、學習討論廳、批量導入和批次管理等。以CSpace爲支撐平臺的CAS IR GRID現已累計採集和保存各種科研成果98萬餘份,含全文成果量80%以上,是國內較大規模的機構知識庫羣和較有影響力的機構知識管理平臺,也是國際三大科技機構知識庫之一。按照下載數排序,截至2019年5月31日,CAS IR GRID中前10名的機構庫見表2。
3 數據採集規範的研究現狀
開放存取知識庫的種類不少,不一樣的知識庫須要不一樣的數據採集規範。本節以通常科研數據的高校科研機構知識庫爲例,梳理和總結創建科研機構知識庫的過程當中採用的數據採集規範。從科研行爲採集需求的梳理入手,分別闡述數據庫採集字段的規範、元數據標準的確立以及語義去重的方法。
3.1 科研行爲採集需求
科研機構知識庫的數據來源主要有兩種,一種是國內外高校、研究院的官網,另外一種是國內外的其餘機構知識庫或科研數據庫。在整合不一樣數據源的學術數據時,爲了統一不一樣學術數據庫的數據採集規範,首先須要明確科研行爲採集規範的內容和分類。科研行爲須要採集的數據主要分爲5類,分別爲人員、科研機構、科研項目、學術活動、學術成果。這幾類數據之間並非孤立的關係,在整合到數據庫中時,會造成一個相互關聯的科研關係網絡。所以應該按照必定的採集順序進行採集,下面是採集順序和各個類別的採集說明。
(1)採集科研機構信息
科研機構的組成包括學校、科研院、研究院等。人員、項目等內容都是依託科研機構進行的,所以科研機構的採集應該放在最前面,在其餘類型數據採集後再創建邏輯關係。科研機構信息可經過科研機構的官網進行採集,也可經過開放式學術數據庫的接口進行集成導入。
(2)採集人員信息
人員的組成包括高校、研究院的在職教師、研究員以及有科研成果的本科生、研究生等。人員信息可經過科研機構的官網和開放式學術數據庫的接口進行簡要採集,也可經過我的主頁進行數據提取和整合。
(3)採集項目信息
項目信息包括國家各級別的資助項目,如重大項目、面上項目、青年基金支持項目等。國家項目能夠從國家天然科學基金委員會(NSFC)數據庫、海研網站、知網項目信息庫等處進行定向採集和導入。
(4)採集學術活動信息
會議和期刊是主要的學術活動形式,可經過會議或期刊的官網查看其基本信息,也可直接經過開放學術數據的集成接口進行查看。
(5)採集學術成果信息
論文是學術活動直接的科研成果,此外還有著做、獲獎、專利等。學術成果與人員、科研項目、科研機構和學術活動等都有直接的關係,能夠在會議和期刊的官網上採集,也可從科研項目數據庫中獲取。
3.2 數據屬性規範格式
肯定了須要採集的數據類別以後,還須要對應每一個類別,肯定屬性名稱字段和格式。不一樣的學術數據庫每每有不一樣的屬性字段,本節以學術成果中的論文爲例,制定數據字段,而且規範字段的格式。
經過調研Web of Science、NSFC、中國知網(CNKI)等學術數據庫對論文的字段描述,對3個數據庫的字段取並集,並根據實際需求對字段進行縮減後,總結出一套較廣泛的論文字段和屬性,見表3。
對於其餘類別,如人員、科研機構等,其屬性字段也按照一樣的思路進行調研。在肯定了全部字段後,須要選擇數據源。從數據量、開放存取、數據獲取難易度等幾個角度綜合考慮,儘量選取數據量大、能直接獲取原文、反爬蟲措施較弱、網站穩健性高的站點,NSFC、CAS IR GRID等開放存取學術數據庫是較好的數據源選擇。
3.3 元數據標準
元數據也被稱爲數據的數據(data about data),通常是提供關於信息資源或數據的一種結構化的數據,用於組織、描述、檢索、保存、管理信息和知識資源。元數據可使信息描述和分類實現格式化,從而爲機器處理創造了可能。在不一樣的應用場景下,元數據有不一樣的標準。在開放存取知識庫中,元數據主要分爲3種:描述型元數據、管理型元數據和結構元數據。
總之,科研機構知識庫的元數據標準類型是多種多樣的,其中常常採用的是都柏林核心(Dublin core,DC)元數據和數據引用元數據框架(datacite metadata schema)。DC元數據標準因爲其高度的普適性和擴展性,是描述科研數據最經常使用的元數據標準。目前流行的機構庫系統(如DSpace、EPrints、Fedora等)都對DC元數據提供支持。DC元數據的簡化形式(simple Dublin core)共包含15個元素,見表4。
制定了元數據標準以後,還要規範描述元數據的方法。資源描述框架(resource description framework,RDF)是由WWW提出的對萬維網(World Wide Web)上資源進行描述的一個框架,爲互聯網上的信息描述提供了一種規範。RDF由主語、謂詞、賓語的三元組形式組成,其中,主語通常由統一資源標識(uniform resource identifiers,URI)表示,謂詞描述實體具備的相關屬性,賓語爲屬性對應的屬性值。
RDF採用XML文件的形式。RDF的強大之處在於,在肯定了主語以後,謂詞和賓語能夠根據須要自由使用。而最多見的謂詞和賓語是DC元數據標準。DC元數據標準的簡單形式有15個屬性,對應着15個謂詞和賓語。採用DC元數據標準後,RDF基本能夠表示全部網絡資源。目前主流的機構庫系統軟件都支持基於DC元數據標準的RDF格式的XML文件,經過這一形式的規範設計,極大地方便了數據庫或機構庫之間的數據交流。
3.4 語義去重標準
因爲數據源的多樣性,在採集數據的過程當中會採集到來自不一樣數據源的重複數據,所以須要對重複數據進行去重。針對5種不一樣的數據類別,須要制定不一樣的去重標準。因爲數據的質量不統一,對統一類別也應採起多種去重方式並行的方法,防止某字段的缺失致使的去重失敗。
針對論文數據的去重,能夠有如下兩種方式。
● 區分標題和會議/期刊名稱。論文的標題相同的機率不高,即便相同也很難出如今同一個會議或期刊上,所以能夠從邏輯上進行區分。然而因爲論文標題較長,對比的效率和正確率會受必定的影響。
● 區分惟一標識碼和DOI。因爲論文的惟一標識碼不會重複,故可直接進行比較,可是因爲數據源的質量不一樣,有可能收集不到此條數據。
人員信息的去重是去重工做的核心。對於姓名相同、工做機構也相同的人員,能夠認爲是同一我的。因爲英文的特殊性,在斷定姓名相同時,需對姓、名、中間名進行切分,有如下狀況能夠討論:
● 姓、名、中間名所有相同,則認爲人名相同;
● 姓、名相同,中間名存在縮寫狀況,若縮寫與全稱第一字母對應,則認爲人名相同;
● 姓、名相同,但有一方中間名缺失,則認爲人名相同。
因爲數據量較大,所以很難總結出完美的去重標準。若出現極端特殊狀況,如同一機構內有相同姓名的兩人,應該人工處理解決。數據清洗的效果在必定程度上也會影響去重的效果,所以作好清洗工做,採用官方標準名稱和規範十分重要。
4 我國相關研究的啓示
近年來,隨着大數據研究的熱潮興起,學術大數據展示着愈來愈重要的做用。經過創建開放存取知識庫來提交、保存、管理和組織科學研究過程當中的原始數據,實現科研數據的共享,促進學術交流,增進學術繁榮發展,逐漸成爲科研工做者以及高校圖書管理人員的共識。經過對開放存取知識庫現狀的調研及與國外知識庫的儲量對比,能夠看出,我國相關領域的研究還處在探索與發展階段。近年來,中國機構知識庫推動工做組主辦了「中國機構知識庫學術研討會」,主要研討我國機構知識庫的建設問題。綜合目前國內研究存在的一些問題,對我國的研究啓示能夠分爲如下幾個方面。
4.1 加強高校對建設機構庫的重視
從OpenDOAR的總體數據來看,我國的機構庫數量處於較低水平。近年來,我國的科技實力和創新實力都明顯加強,應有更多的研究成果和機構庫出現。截至目前,有不少高校的機構知識庫還處在建設階段,也有不少高校的機構知識庫建成後因疏於維護,沒法訪問。我國能夠靈活出臺鼓勵政策,從根本上解決高校建設機構知識庫動力不足、重視程度不夠的問題。
4.2 創建多個機構知識庫羣
我國目前較爲成熟的機構知識庫羣只有CAS IR GRID,該網站僅收錄基於CSpace系統的機構庫,事實上還存在不少DSpace系統的機構庫。不少高校不重視創建機構知識庫,很大的緣由是建成以後的機構知識庫知名度較低,點擊率也較低,難以造成正向的反饋機制。創建機構知識庫羣時,「組團取暖」的形式能夠提升機構庫成員的點擊率和知名度,有效帶動新興機構知識庫的發展。
4.3 增長版權意識,防止黑色OA的負面影響
目前,比較流行的黑色OA途徑源於國外,國內的開放存取知識庫發展較慢,這也致使黑色OA尚未起到較大的影響。國外的黑色OA的流行度也給我國的OA發展敲響了警鐘,在創建科研機構知識庫的過程當中,用戶必須遵照國際版權法,明確數據集的全部權以及數據上傳、下載、傳播的許可權限。機構庫建設的從業人員也應及時參加相關版權培訓,以保障機構知識庫建設的安全和可持續發展。
4.4 增長軟件系統的種類和水平
我國目前除了CAS IR GRID使用本身擴展和研發的CSpace以外,其餘機構庫主要使用的是DSpace,並且基本採用默認設置。這使得我國的機構知識庫軟件平臺的功能十分單一,缺乏定製化和個性化的功能。建議在增長對系統平臺的多樣性嘗試以外,也可嘗試修改個性化的配置,以加強多樣性。
5 結束語
隨着大數據時代的到來,數據成爲重要的生產要素和戰略資源,數據的價值和複用率不斷提高,並逐步造成數據開放共享的社會氛圍。學術大數據的開放存取已經成爲一種全球的潮流,變成一種影響全球學術交流、信息共享的運動。近年來,我國在開放存取知識庫方面的研究正快速發展,可是與世界先進水平相比還有必定的差距。增強高校對機構知識庫的建設能夠有效提升我國的開放存取建設的效果,增長學術交流和促進學術共同繁榮。