arXiv 是當前最流行的預印本庫。自 1991 年創辦以來,arXiv 爲研究者提供了一個在正式同行評議以前分享預印本文章的平臺。新技術使文檔建立和分發更加便捷,文化實踐推進合做和數據共享,這使得 arXiv 快速發展,日漸流行。arXiv 在研究交流和 Web 歷史上佔據獨特的位置,可是它自建立以來幾乎不多改變。在此文章中,咱們看一下 arXiv 的優點和缺點,進而探討新技術能夠給 arXiv 帶來怎樣的改變。
日前,在最新的 Google Scholar h5-index 排名中,咱們能夠看到在計算機視覺領域下,arXiv 以 137 分位列第二,僅次於業內頂會 CVPR。除了計算機視覺領域,在「機器學習」下,arXiv Machine Learning 一樣位列第二,略低於 ICML。所以,能夠到論文預印網站 arXiv 在人工智能、機器學習領域的重要性。
雖然 arXiv 愈來愈受歡迎,但圍繞 arXiv 的爭議也愈來愈多:學術論文是否應該引用 arXiv 文章等等。在這篇文章中,做者對 arXiv 的優缺點作了總結,同時給出了將來變革的建議,好比引入評論與同行評議機制。
引言
arXiv 是當前最流行的預印本庫。該網站於 1991 年由物理學家 Paul Ginsparg 創立,爲研究者提供了一個在正式同行評議以前分享預印本文章的平臺。今天,arXiv 每月發佈文章超過 10000 篇,涉及高能物理學、計算機科學、定量生物學、統計學、計量金融等領域(見圖 1)。arXiv 早期的成功來自於新技術的發展和合做共享文化的完善。的確,在 arXiv 以前,物理學家經過信件的方式分享近期完成的文章手稿,後來是經過郵件傳遞……
圖 1. 1991 年到 2017 年發表在天然科學(arXiv)和 Life Sciences 上的預印本文章數量。這個時間段中,在 arXiv 和 Life sciences 上提交的預印本數量爲別爲 1,263,26五、32,284。小圖顯示近期提交到 Life sciences 上的預印本數量(包括提交到『arXiv q-bio』, 『Nature Preceedings』, 『F1000Research』, 『PeerJ Preprints』, 『bioRxiv』, 『The Winnower』, 『preprints.org』 和『Wellcome Open Research』上的預印本)快速增加。
arXiv 的優點
arXiv 自創立以來,就提供最便捷和最強大的方式,使研究者可以共享研究成果。做者能夠免費、快速、直接地與研究社區共享研究成果,同時也使公衆能夠免費地獲取研究成果。arXiv 是一些世界上最重要研究的「故鄉」,好比「龐加萊猜測的證實」(Perelman, 2002; Perelman, 2003; Perelman, 2003a)和「希格斯玻色子的發現」。1991 年以後的差很少 20 年內,大多數其餘領域並未得到一樣的信息自由交流待遇,直到近期大量 arXiv 的仿製品出如今新的領域(見圖 1)。易用和實用偏偏貼合了 arXiv 所服務的研究社區(技術先進且具有長期分享和合做傳統的研究者)的需求,還有網站的簡潔性。下面咱們列舉了幾項推進 arXiv 成功的關鍵技術和文化影響因素。下一章咱們將介紹阻止新型、更優質的實踐的侷限性因素。
arXiv 上大部分論文都使用 LaTeX 進行排版。LaTeX 容許研究者輕鬆排版和分享文檔。從一開始,這樣的解決方案就對全部研究者可用,可是隻有它服務的社區採用了該方案,即物理學家和數學家,他們的文檔中包含大量公式。LaTeX 對早期預印本和同行共享的成功很是關鍵。今天,它仍然被物理學家、數學家、計算機科學家等研究者使用,由於它提供了表達複雜的數學符號的最佳解決方案。
從一開始,一個既知道如何重新技術中獲益又願意從中獲益的社區(物理學)幫助 arXiv 迅速崛起。而化學、生物醫學等其餘領域具備更多的協做性質(Fanelli 2016),這些領域可能缺乏使用 LaTeX 寫做、建立和運行電子郵件和網絡服務器的知識和興趣,而這正是建立 arXiv 的兩個必要基礎。
arXiv 的劣勢
自創辦以來,arXiv 迅速且持續的成功源於它樂於利用新技術(LaTex、電子郵件、網頁服務器),且它本就是服務於協做、開放、共享的技術社區。然而,隨着時間變化,arXiv 並未改進、反思自我,未能追隨科學領域技術與社區實踐的變化。阻礙 arXiv 迅速創新的最主要因素是什麼?咱們認爲是 LaTex。LaTex 促使 arXiv 迅速發展,難以置信,它居然成爲 arXiv 最大的短板。事實上,arXiv 對 LaTex 的過度依賴致使了下列劣勢:
物理學領域以外的大部分研究人員(也所以不瞭解 arXiv),用 Microsoft Word 或其餘 WYSIWYG 編輯器寫草稿。使用 LaTex 滲透進了大部分研究領域(數學、統計學、物理學、天文、計算機科學),據統計,用 LaTex 編寫的學術文章比例大約爲 18%(2016,Pepe)。LaTex 不只學習曲線陡峭,它的界面、語言、使用方式對不會編程或者只用過 WYSIWYG 編輯器的人來講都是陌生的。
當你上傳一個 LaTex 文件時,arXiv 會壓縮它並建立一個 PDF 文檔。這是標準的程序。在學術界,數十年來都是用 PDF 或 Postscript 格式交換、閱讀文章的。PDF 是印刷手稿的一種有效、簡單的方式,但它並不適合在網頁上閱讀、討論和共享。PDF 文檔(大多數)是靜態、二維且不可編輯的,甚至能夠說 PDF 只是紙質論文的數字圖片。
arXiv 支持的研究成果均爲 PDF 格式。做者提交論文時提供的題目、摘要和做者名單是元數據,PDF 文檔中包含這些內容,同時 HTML 文件中也有這些內容,以提升文章的可發現性。搜索引擎在 PDF 文本挖掘中的效果愈來愈好,但如今或之後的搜索引擎從稠密的兩列論文中抽取和理解文本的可能性仍然很低。重點是,逆向工程對於 PDF 文檔是無效的。那麼咱們爲何要把內容鎖在機器不可讀的格式中呢?
數據共享已經成爲全部學科的基礎慣例了。簡單來講,若是公開的研究論文創建在數據之上,做者須要提供他們的研究所基於的資源(數據和代碼)最小集。但這在 arXiv 的「LaTex to PDF」機制下不可能實現。從 2010 年到 2013 年,arXiv 嘗試過在論文側邊處放置數據,但失敗了。雖然該項目遇到了政府支持中斷的狀況,但咱們認爲失敗的部分緣由在於論文和數據獨立存在。
如今人們如何共享數據呢?使用 kludgy 策略。例如天文和物理學領域的一種增加趨勢是在發表或預印論文中添加數據集連接。這種作法使得數據更可見、更可信,由於數據集是連接到論文的。但最近的調查顯示,加連接容易過時。
將來的 arXiv
若是可以重建 arXiv 以展望 arXiv 將來的樣子,那麼以上所列出來的與其說是挑戰,不如說是機會,爲了構建更好的 arXiv,咱們將給出幾個建議。
學術交流圈中愈來愈多的人一致認爲學術出版須要超越 PDF 格式的限制,並且咱們都相信將來的論文將是網頁原生性的(web-native)(Goodman 2016)。照此,將來的 arXiv 將不得不容許以 HTML 的格式接收做品和論文。將學術論文轉化爲 HTML 是爲將來的學術知識庫鋪平道路的第一步。你閱讀的論文,不管是 PDF 仍是 HTML 的格式,都將是網頁優先的(web-first)。將來的 arXiv 將以網頁原生性的原稿爲主。
ArXiv 過度依賴於 LaTeX。你正在看的這篇文章是由三個做者使用 LaTeX 和 Rich Text 的組合在 Authrea 上寫的。LaTeX 只不過是用來插入數學符號、公式、表格的一種格式,而不能用來排版和格式化整篇原稿。用 LaTeX 排版原稿是很費時的 (Brischoux 2009),最重要的是它將文件鎖定在一個格式上從而不能使用靈活的現代技術(好比,語義分析並嵌入知識網絡促進論文的可發現性,提高影響力)。將來的 arXiv 將是格式中性的,而且能夠按不一樣的內容使用不一樣的格式。
數字對象標識符(digital object identifier,DOI)是專用於學術出版的標識符,用以識別和追蹤其它的著做。不少雜誌都強制規定必須對引文使用 DOIs,以指定對應的數據集、預印本、研究文獻、網站以及其它的學術著做。因爲預印本的出版率上升很快(Berg 2016),而且基金機構也終於意識到了預印本的重要性 (https://grants.nih.gov/grants/guide/notice-files/NOT-OD-17-050.html%EF%BC%89),所以使用可靠的標準識別預印本是很關鍵的,即 DOI。你正在閱讀的這篇文章是在 Authorea 上寫的,而且使用 DOI 標註,作了預印本。將來的 arXiv 將是以 DOI 標識的預印本數據庫。
將來的 arXiv 不只是帶有文本和圖像的 PDF 文檔的集合,而是整合了數據、代碼和全部重現研究結果所需資源的論文數據庫。解決重現性危機的惟一方式就是使論文變成數據驅動性的。這篇文章有一幅圖,咱們已經設置,使全部讀者能夠獲取這幅圖背後的數據。若是你在線閱讀本文,你將可以點擊圖 1 中數據中的 Data 標記,查看、下載和研讀該圖表中的數據;點擊 Code 標記,查看咱們用來分析和可視化該圖表的代碼(Jupyter Notebook 格式)。將來的 arXiv 將在論文中同時容納數據和代碼。
arXiv 目前不支持讀者和做者評論。其理念在於 arXiv 不是同行評議性質的,同行評議發生在其餘地方,好比期刊級別。所以,評論和評議系統較難維護和運營,並且未必有用。而預印本提供了一個史無前例的機會來開放評論和評議系統,並藉此提升手稿接受的評議和評論數量。咱們不提倡替代傳統的同行評議,而是用預印本開放的評議對其進行補充。咱們認爲(1)更多的學者應該參與同行評議中,(2)同行評議應該開放進行,這樣評議才能成爲發表(預印)研究的關鍵組成部分。鑑於論文發表數量的不斷增長和每篇論文的平均做者人數,這看起來不只天然而然,並且必要。這也代表當前的同行評議制度不可持續。將來的 arXiv 將在傳統的同行評議以外支持開放的評論和評議。
學術界目前用來評估研究論文影響力的惟一權威指標是引用(或其餘基於引用的指標)。arXiv 不公開替代指標(替代引用)的信息,如論文的下載量、tweet 轉發量,或者博客轉發量。不公開替代指標的一個重要但可疑的緣由是這些指標易於操縱。若是這些指標成爲肯定研究者地位的權威系統,那麼咱們面臨的是一個易於操縱的系統。咱們認爲這些指標對評估研究的影響力有重要的價值,做爲傳統的指標的添加,而不是取代。重要的是,有研究顯示論文的下載量和轉推量與引用次數有很強的相關。將來的 arXiv 將變得透明,並公開可以反映研究論文真實影響力的替代指標。
用於一個基於 web 的知識庫而不是 PDF 文檔的最後一個重要優點是可發現性(discoverability)。論文的所有文本(不僅是標題和摘要)能夠經過搜索引擎和學術資料庫進行檢索,提高了內容的可見性。此外,基於 web 的文章具有更明確的語義結構,使之可以徹底被機器閱讀。將來的 arXiv 將從新思考,將論文做爲訪問語義結構化內容的 API。
結論
從 arXiv 的歷史來看,咱們發現了其成爲最流行的在線預印本知識庫的一系列決定性因素。咱們認爲 arXiv 興盛的緣由之一在於它迎合了技術從業人員長久以來共享與合做的傳統。該網站的簡單性與 LaTex 中心的提交流程,保證了它在社區內的快速增加,被用於徹底把控排字流程、編寫含有大量公式的文檔。
咱們認爲雖然 arXiv 很早就適應了科技行業,但從發佈以來變化極小。這種不情願或者沒能力發展新技術和實用方式的態度,對社區更好的交流實踐來講是種障礙。
咱們建議將來的 arXiv 應該是純網頁或者以網頁爲主的,多格式或者格式中性的,以便於適應整個研究社區。爲了發展其透明性與可重現性,它要創建在開放數據與開放研究之上,也要容許評論、開放同行審議。將來的 arXiv 將會成爲一個由數字對象標識符(DOI)工具標識的預印論文的數據庫,有極好的語義結構,便於機器讀取,易於發現。將來,arXiv 也會是透明的,會公佈關於某項研究的全部信息,包含決定該研究影響力的全部參數。
咱們認爲 arXiv 若是繼續保持不變,將會被其餘服務所取代,就像 arXiv 曾取代過其餘服務同樣。咱們鼓勵研究人員對該平臺有更多的需求,且相信在網頁時代,經過 PDF 共享研究的時代必將終結。將來,讓咱們創造更好的共享研究的新方式。
原文連接:https://www.authorea.com/users/3/articles/173764-the-arxiv-of-the-future-will-not-look-like-the-arxiv