科學知識圖譜繪製方法、步驟及工具

  • 1.知識圖譜的起源與發展
  • 2.知識圖譜的繪製方法
    • 2.1 文獻計量方法
    • 2.2 統計分析方法
  • 3.知識圖譜繪製的步驟
  • 4.知識圖譜繪製的工具

科學知識圖譜(簡稱知識圖譜)是現實科學知識發展進程與結構關係的一種圖形[1]。其做用是使研究者對學科結構、研究內容、學科關係和研究熱點有清晰的把握,並可預測學科發展前沿和趨勢。但在當前科研數據總量龐大、增加快速、信息含量低、數據種類多樣[2]的背景下,傳統的知識圖譜繪製方法、步驟和工具已經難以應對,急切須要針對大數據環境的科學知識圖譜的繪製的方法及其關鍵技術研究。算法

1. 知識圖譜的起源與發展

科學知識圖譜以科學知識爲計量研究對象,所以屬於科學計量學的範疇。科學知識圖譜的研究最先能夠追述到普賴斯開創科學計量學[3]之時。當時普賴斯在數據方程式來表達科學發展規律的基礎上,以曲線形式講科學發展規律繪製爲二維圖形是並造成了最初的科學知識圖譜[4]。數據庫

科學知識圖譜的另外一個演化前身是科學知識地圖。科學知識地圖是一個以二維或者三維空間表現出來的地形和人類活動以及相關特徵的地理學概念,而科學知識圖譜是對其的拓展和延伸。它是一個圖像以必定空間形式在必定時間範圍內展示與變化的系統概念,比知識地圖更能揭示知識間的關係和進化規律。小程序

現代科學知識圖譜概念正式提出是2003年在Arthur M. Sackler學術研討會上。而Shiffrin[5],Borner[6]和陳超美[7]等人的貢獻奠基了現代科學知識圖譜(Mapping Science)的研究基礎,以後對其相關研究就如雨後春筍般涌現。我國對於科學知識圖譜的研究是由劉則淵等人[8]於2004年率先引入。網絡

2. 知識圖譜的繪製方法

知識圖譜的繪製須要綜合運用文獻計量、統計分析、數據挖掘、信息可視化、社會網絡分析和信息分析等領域的研究方法,大體可分爲文獻計量方法、統計分析方法、數據挖掘方法三大類方法(如圖1所示)。但目前爲止還未有對這些方法實現並行化算法實現方面的研究。app

知識圖譜繪製方法

2.1 文獻計量方法

科學知識圖譜屬於科學計量學,所以必然文獻計量學的方法,主要包括:dom

  • 引文分析方法ide

    引文分析是利用各類數學、統計學方法和比較、概括、抽象、歸納等邏輯方法,對科學期刊、論文、著者等各類分析對象的引用與被引用現象進行分析,以便揭示其數量特徵和內在規律的一種文獻計量分析方法[9]。引文分析大體有三種類型[10]:模塊化

  1. 引文數量研究,主要用於對科學家、出版物和科學機構的定性和定量評估
  2. 引文結構(網狀或鏈狀關係)研究,主要用於揭示科學的發展與聯繫。
  3. 引文主題(相關性)研究,主要用於揭示科學的結構以及進行信息檢索。
  • 共引分析方法。工具

    共引分析是1973年斯莫爾等人就提出把文獻共引分析做爲計量文獻之間關係的一種方法。共引(co-citation)又稱被共引,即兩篇文獻同時被一篇或多篇文獻說引用,同時把共同引用這兩篇文獻的文獻數稱爲共引強度(或共引頻率),共引強度越大這兩篇文獻關係越密切。在共引圖譜中,點表示文獻,當相關文獻對的共被引強度等於或大於某個閾值時,兩點就被鏈接起來。共引分析多用於做者共引分析和期刊共引分析。佈局

  • 耦合分析方法

與共引分析相對應的是耦合分析。幾篇文獻具備相同的參考文獻就造成了文獻耦合關係。具備相同參考文獻的文獻數稱爲耦合強度。耦合分析包括文獻耦合分析、期刊耦合分析、做者耦合分析、學科耦合分析等,分別表示文獻、期刊、做者、學科之間具備主題和內容類似性,可作爲相關文獻分析、做者羣體分析和科學演化分析等的依據。

  • 詞頻分析方法

詞頻分析是是齊普夫定律爲理論基礎進行文獻內容分析方法。詞頻分析可分爲標題關鍵詞詞頻分析、摘要詞頻分析、內容詞頻分析、引文詞頻分析和混合詞頻分析等。詞頻分析大量應用於科學前沿主題領域和發展趨勢等研究。

  • 共詞分析

共詞分析屬於內容分析法的一種。它的原理主要是對一組詞兩兩統計它們在同一篇文獻中出現的次數, 以此爲基礎對這些詞進行聚類分析, 生成共詞文獻簇, 進而分析這些詞所表明的學科和主題的結構變化。利用共詞分析法及其相關的可視化方法能夠進行深刻的主題分析, 系統而直觀地瞭解學科結構和發展情況, 並進行學科發展預測。

  • 連接分析方法

連接分析,利用圖計算、拓撲學和文獻計量學等方法,對網絡鏈接文檔、自身屬性、鏈接對象、鏈接網絡等進行分析。連接分析涉及文檔包括:頁面、目錄、域名和站點。在理論上,鏈接分析與文獻計量學中的引文分析有高度的類似[11]。

連接分析運用拓撲學知識經過分析連接網絡來研究網絡結構,結合社會網絡分析能夠分析研究和繪製網絡信息知識圖譜,展現網絡信息、知識分佈結構和演化規律等。

2.2 統計分析方法

科學知識圖譜構建實用的統計分析方法主要是多元統計分析[12]。多元統計分析是經典統計學的分支,在多個對象或指標相互關聯的狀況下分析其統計規律。「維度下降技術」是多元統計分析的一個特徵,從幾何學看這個過程是講高維空間的目標投影到低維空間。主要的其中包括:

  • 因子分析(主成分分析)

    因子分析是用少數幾個因子來描述許多指標之間的關係,即將較密切的幾個變量歸爲同一類,每一類變量成爲一個因子,以較少的幾個因子來反應原資料的大部分信息。

  • 多維尺度分析(MDS)

    經過低維空間展現做者(文獻)之間聯繫,並利用平面距離來反映做者(文獻)之間的類似度。多維尺度分析的圖形顯示結果更加直觀和形象,因子分析則更容易肯定各個學術羣體的邊界和數目,所以須要同時藉助因子分析的結果, 進行知識圖譜的繪製。

  • 數據挖掘方法

    數據挖掘是指從大量的數據中經過算法提取、挖掘未知的、有價值的模式或規律等知識的複雜過程。科學知識圖譜的繪製使用了不少數據挖掘方法,經常使用的方法有聚類分析、數據可視化和社會網絡分析等。

(1) 聚類分析

聚類分析將物理或抽象的對象集合分紅類似的對象類的過程。簇是數據對象的集合,同一個簇中的對象彼此類似,而不一樣的簇彼此相異[13]。文獻聚類分析是聚類分析技術在引文分析中的具體應用。處理方法是將文獻經過分詞、去停詞等方法轉化爲詞向量,並將每一個詞條賦予不一樣的權重,這樣一篇文獻就能夠由詞條權重值組成的特徵向量來表示,全部文獻將組成了特徵向量空間模型,在該模型中使用聚類分析技術進行引文分析。

(2) 數據可視化

數據可視化,也成爲信息可視化是指將抽象數據用圖形圖像等可視化形式表示出來,以利於分析數據、發現規律和支持決策。經常使用的可視化算法有:

  • 自組織特徵映射網絡SOM(Self-organizaing Feature Map)是一種基於神經網絡的算法,它經過把高維數據映射到低維空間進行聚類,並保持必定的拓撲有序性。

  • 尋徑網絡圖譜PFNET(PathFinder Network)是對不一樣的概念或實體間聯繫的類似或差別程度進行評估,應用圖論中原理和方法生成的一類特殊的網狀模型。

(3) 社會網絡分析

社會網絡分析[14](Social Network Analysis)也稱爲結構分析,是將社會結構界定爲一個網格,這個網格由成員之間的聯繫進行鏈接。社會網絡分析聚焦於成員之間的聯繫而非個體特徵,並把共同體視爲「個體的共同體」,即視爲人們在平常生活中所創建、維護並應用的我的關係的網絡。社會網絡分析方法被證實能夠成功的研究科學合做網絡和互聯網絡所獲得的可視化網絡,並被用於展現科學計量學的合做網絡結構與發展。

3.知識圖譜繪製的步驟

科學知識圖譜繪製過程可分爲8個步驟即:

  1. 樣本數據檢索(對期刊數據WOS、Science Direct或網絡數據庫Google Scholar、CitSeer等)
  2. 數據預處理(分詞、去停用詞、去重、勘誤等)
  3. 選擇知識單元(做者、關鍵詞、機構、期刊和文獻)
  4. 構建單元關係(引文分析、共現分析、共引分析、耦合分析、詞頻分析等)
  5. 數據標準化(Cosine、Jaccard、Equivalence、Association Strength等)
  6. 數據分析(因子分析、多維尺度分析、自組織映射圖、尋徑網絡圖譜、聚類分析和潛在語義分析等)7知識可視化(幾何圖、主題河圖、星團圖、沖積圖、地形圖等);8圖譜解讀(歷時分析、突變分析、空間分析、網絡分析、地理分佈、瀏覽查詢、放大縮小、過濾關聯等)

知識圖譜繪製
傳統知識圖譜繪製過程

目前這8個步驟還都是針對中小型數據集,並且步驟之間多以手工過渡爲主,缺乏對海量文獻數據處理過程和全自動完成知識圖譜繪製方面的研究。

4. 知識圖譜繪製的工具

  • SPSS: 大型統計分析軟件,商用軟件。具備完整的數據輸入、編輯、統計分析、報表、圖形繪製等功能。經常使用於多元統計分析、數據挖掘和數據可視化。

  • Bibexcel: 瑞典科學計量學家Persoon開發的科學計量學軟件,用於科學研究免費軟件。具備文獻計量分析、引文分析、共引分析、耦合分析、聚類分析和數據可視化等功能。可用於分析ISI的SCI、SSCI和A&HCI文獻數據庫。

  • HistCite: Eugene Garfield等人於2001年開發的科學文獻引文連接分析和可視化系統,免費軟件。可對ISI的SCI、SSCI和SA&HCI等文獻數據庫的引文數據進行計量分析,生成文獻、做者和期刊的引文矩陣和實時動態引文編年圖。直觀的反映文獻之間的引用關係、主題的宗譜關係、做者歷史傳承關係、科學知識發展演進等。

  • CiteSpace: 陳超美博士開發的專門用於科學知識圖譜繪製的免費軟件。國內使用最多知識圖譜繪製軟件。可用於追蹤研究領域熱點和發展趨勢,瞭解研究領域的研究前沿及演進關鍵路徑,重要的文獻、做者及機構。可用於對ISI、CSSCI和CNKI等多種文獻數據庫進行分析。

  • TDA: Thomson Data Analyzer(TDA)是Thomson集團基於VantagePoint開發文獻分析工具。商用軟件。具備去重、分段等數據預處理功能;可造成共現矩陣、因子矩陣等多種分析矩陣;可以使用Pearson、Cosine等多種算法進行數據標準化;可進行知識圖譜可視化展現。

  • Sci2 Tools: 印第安納大學開發的用於研究科學結構的模塊化工具可從時間、空間、主題、網絡分析和可視化等多角度,分析個體、局部和總體水平的知識單元。

  • ColPalRed: Gradnada大學開發的共詞單元文獻分析軟件。商用軟件。結構分析,在主題網絡中展示知識(詞語及其關係);戰略分析,經過中心度和密度,在主題網絡中爲主題定位;動態分析,分析主題網絡演變,鑑定主題路徑和分支。

  • Leydesdorff: 系類軟件。阿姆斯特丹大學Leydesdorff開發的這對文獻計量的小程序集合。處理共詞分析、耦合分析、共引分析等知識單元體系。使用「層疊圖」實現可視化知識的靜態佈局和動態變化。

  • Word Smith: 詞頻分析軟件。可將文本中單詞出現頻率排序和找出單詞的搭配詞組。

  • NWB Tools: 印第安納大學開發的對大規模知識網絡進行建模、分析和可視化工具. 數據預處理;構建共引、共詞、耦合等多種網絡;可用多種方法進行網絡分析;可進行可視化展現.

  • Ucinet NetDraw: Ucinet是社會網絡分析工具。包括網絡可視化工具Net Draw。用於處理多種關係數據,可經過節點屬性對節點的顏色、形狀和大小等進行設置。用於社交網絡分析和網絡可視化。

  • Pajek: 來自斯洛文尼亞的分析大型網絡的社會網絡分析免費軟件。Pajek基於圖論、網絡分析和可視化技術,主要用於大型網絡分解,網絡關係展現,科研做者合做網絡圖譜的繪製。

  • VOSviewer: 荷蘭萊頓大學開發的文獻可視化分析工具。使用基於VOS聚類技術技術實現知識單元可視化工具。突出特色可視化能力強,適合於大規模樣本數據。四種視圖瀏覽:標籤視圖、密度視圖、聚類視圖和分散視圖。

[4]陳悅, 劉則淵, 陳勁等. 科學知識圖譜的發展歷程[J]. 科學學研究, 2008, (03): 449-460.

[5]Shiffrin, R.M., and Katy Börner. Mapping Knowledge Domains[C]. Proc. Proceedings of the National Academy of Sciences of the United States of America pp. 5183-5185.

[6]Börner, K., Chen, C.和Boyack, K.W. Visualizing knowledge domains[J]. Annual review of information science and technology, 2003, 37, (1): 179-255.

[7]CM, C. CiteSpace II: Detecting and visualizing emerging trends and transient patterns in scientific literature[J]. Journal of the American Society for Information Science and Technology, 2006, 57, (3): 359-377.

[8]陳悅和劉則淵. 悄然興起的科學知識圖譜[J]. 科學學研究, 2005, (02): 149-154.

[9]邱均平. 信息計量學[M]. (武漢大學出版社, 2007. 2007).

[10]沙勇忠和牛春華. 信息分析[M]. (科學出版社, 2009. 2009).

[11]塞沃爾, 建軍和煦. 連接分析: 信息科學的研究方法[M]. (東南大學出版社, 2009. 2009).

[12]Egghe, L.和Rousseau, R. Introduction to informetrics: Quantitative methods in library, documentation and information science[J]. 1990

[13]韓家煒, 坎伯, 裴健等. 數據挖掘: 概念與技術[M]. (機械工業出版社, 2007. 2007).

[14]Wasserman, S. Social network analysis: Methods and applications[M]. (Cambridge university press, 1994. 1994).

[15]Persson, O., R. Danell, J. Wiborg Schneider. How to use Bibexcel for various types of bibliometric analysis[C]. Proc. International Society for Scientometrics and Informetrics., Leuven, Belgium2009 pp. 9–24.

[16]Yang, Y., Akers, L., Klose, T.等. Text mining and visualization tools–impressions of emerging capabilities[J]. World Patent Information, 2008, 30, (4): 280-293.

[17]Börner, K., Huang, W., Linnemeier, M.等. Rete-netzwerk-red: analyzing and visualizing scholarly networks using the Network Workbench Tool[J]. Scientometrics, 2010, 83, (3): 863-876.

[18]廖勝姣. 科學知識圖譜繪製工具:SPSS和TDA的比較研究[J]. 圖書館學研究, 2011, (05): 46-49.

[19]Scott, M. WordSmith tools[M]. (Oxford: Oxford University Press, 1996. 1996).

[20]Batagelj, V.和Mrvar, A. Pajek - Program for Large Network Analysis[M]. (1998. 1998).

[21]Borgatti, S.P., Everett, M.G.和Freeman, L.C. Ucinet for Windows: Software for social network analysis[J]. 2002

[22]Van Eck, N.J.和Waltman, L. VOSviewer: A computer program for bibliometric mapping[J]. 2009

本文原創,轉載請注 獅子座流星

相關文章
相關標籤/搜索