從ACM會議分析我國計算機科學近十年發展狀況

從ACM會議分析我國計算機科學近十年發展狀況

來源:《中國計算機學會通信》2015年第10期《專欄》

做者:陳 鋼算法

2006年,承蒙李國傑院士推薦,《中國計算機學會通信》發表了個人一篇文章「從ACM會議論文數量看差距」。該文就中國大陸學者在ACM會議上論文發表狀況,將中國計算機科學同國際水平進行了比較和分析。得出的結論是,從論文發表角度看,當時中國的計算機科學同國外的差距很是大,尤爲是在頂級會議上,中國的論文百裏挑一,在很多重要會議上甚至是0。近十年來,中國計算機學術界發生了很大變化,在論文發表方面有了長足的進步。本文就近年來中國在ACM會議上發表論文的狀況同2006年前的作一比較,用客觀數據分析這方面的變化。此外,本文也對存在的問題發表一點我的見解及建議。數據庫

須要說明的是,目前這一研究工做所收集的數據是不夠完整的。主要緣由是ACM的數據格式不規範,一些會議記錄沒法提取數據,還有一些數據提取以後須要大量的後處理。目前總計收集了近26萬條數據,數據分析工做量很大,所以數據集合依然有至關程度的不精確性。好比,在抽取到的會議信息中,有325條年份信息爲空(這部分信息不包含在下文的統計分析中)。儘管如此,後續的分析工做也只能在這些數據上進行。不過,這些數據仍是可以讓咱們對中國在ACM會議上發表的論文狀況有一個大體的瞭解。編程

整體狀況分析安全

歷年累計狀況分析編程語言

本次收集的歷年會議論文記錄總數爲25.7813萬條,其中中國論文數有7048條,佔總數的2.73%。ACM會議累計總次數是5544次,中國大陸單位參加過的會議次數是1471,佔總數的26%。在上述計算中,同一種類型的會議,開一次算一次。ACM共有1392種不一樣的會議,中國參加過的會議種類有539個,佔38.4%。所以還有超過60%的會議,中國從未參加過。不過這些會議中包括許多僅開過一兩次的會議。分佈式

ACM會議中,論文數量累計達到100篇以上的共348個。這組會議屬於ACM會議中影響力比較大的會議。咱們將它們命名爲ACM100。歷年來,這組會議總計召開了3615次,其中中國參加過1132次,佔31%。在ACM100中,中國單位參加過的會議種類有264個,佔這組會議類別數的75.6%。ACM100的會議中發表過的論文總計23.2354萬篇,其中中國發表的論文數6314篇,佔總數的2.71%。見表1。ide

 

其中值得注意的是,中國曆年參加過的會議僅佔ACM會議總數1/4多,還有近3/4的會議,中國沒有參加。僅在2014年,這樣的會議就有157個,總計2510篇論文,佔當年ACM會議論文總數(15302篇)的16%。這也說明中國在計算機科學的多樣化上還作得不夠。函數

以2006年爲標誌點分段比較工具

2006年,咱們統計到ACM有173個不一樣類型的會議,8萬多篇論文。因爲此後ACM對數據進行了增補,咱們也改進了數據採集程序。因此本次統計到那一時期的ACM會議數達到420個,論文總數超過10萬篇。本節採用此次統計的數據來對2006年以前和以後的ACM論文發表狀況進行對比。性能

 

從表2中可見,2006~2014年這9年期間中國在ACM會議上發表的論文總數(6117篇)是1951年(ACM最先記錄)到2005年這54年中(1471篇)的4倍;中國論文數佔ACM論文總數的比例,2006年以後是以前的2.85倍。2006年以前,中國僅參加了16%的ACM會議;2006年以後,中國參加了33%的ACM會議,參加會議的種類比例則從29%上升到41%。

我國每一年在ACM會議上發表的論文數

 

圖1顯示,中國在ACM會議上發表論文的狀況可分紅三個階段。第一階段(棕線)是在2000年以前,中國每一年發表的論文數在15篇如下。第二階段(紅線)從2000~2008年,發表的論文數快速上升,從2000年的29篇上升到2008年的733篇,增加了25倍。第三階段(黃線)是2008年之後,年論文發表數基本上在600~800篇之間徘徊。在2009年,論文發表數達到高峯,總計925篇,主要緣由是2009年有一個GEC會議,該會議來自中國的論文數達到140篇。該會在歷史上僅此一次。若是去掉這個會議,那麼2009年中國的論文數爲785篇。

這一變化趨勢,同ACM會議論文總數增加有必定的關係。剛好ACM會議論文總數也是在2000年到2008年之間有一個比較大的跳躍,2008年之後論文總數基本保持平穩。見圖2。

所以,要考察中國在ACM的論文發表狀況,最好的方式是看中國論文數佔論文總數之比(下面稱爲「佔比數」)。

在圖3中,三階段結構依然比較清楚。在2000~2008年期間,論文數出現了4~5倍的上升,2008年以後論文佔比數保持平穩。

中國的「長處」與「短板」

數據顯示,在有些ACM會議中,中國的論文數很是多。而在另外一批會議中,中國的論文數又很是少。

 

雖然中國在ACM的會議上發表的論文數大幅度增加,可是出現了一批基本上由中國人主辦的ACM會議,發表的論文大都來自中國,也有個別會議基本上是由國內某個學校舉辦,並且只開一次。這些會議能夠當作是發表英文論文的國內會議,或者是地區性會議,其中有些會議可能表明了國內的高水平的研究工做,好比Internetware(網構軟件會議)。它們之後可能會發展成爲有國際影響力的會議,可是目前還很難表明一個領域內的全球水平。據統計,中國論文數佔到30%以上的ACM會議共有33種,其中中國論文數總計964篇。若是排除這一組論文,剩餘的ACM中國論文數爲:7048–964 = 6084篇。

另外一方面,還有一批中國不多參加的ACM會議。在這些會議中,有一部分是地區性會議,好比印度的軟件會議。可是,還有至關一批是在某些領域有重要影響力的國際會議。在這些領域中缺乏來自中國的論文,反映了中國計算機科學的一些薄弱環節。在2010~2014年中,中國有三次以上沒有參加的會議共有207種,包括一批一流國際會議。一般,核心領域的會議開會次數較多。所以,咱們找出歷史達15年以上的會議共有67個。在這批會議中,中國在2000~2014年的15年中有10次以上沒有參加過的會議總計23個,見表3。

表3反映了中國在計算機科學核心領域中比較薄弱的環節。這些會議基本上都是各領域中有重大影響的會議。

中國在計算機核心領域中的進步

在2005年對ACM會議進行分析時,咱們只找到了173個會議,而此次分析收集到的會議數量達到1392個,增長了8倍。這是由於ACM補充了數據,也有些是近年來新開的會議。在會議數量大幅增長的同時,也出現了一批並不能表明國際水平的會議。所以,有必要研究中國在高水平會議中論文發表狀況究竟如何。咱們經過兩種方式來選擇「高水平」會議:一種是選取會議次數多的會議,另外一種是根據影響因子。

上節指出,召開15次以上會議的共有67個,大部分是在計算機核心領域中有影響力的國際會議。

 

由圖4可見,從2000年開始,中國在計算機核心領域發表的論文數出現了一次飛躍,每一年論文發表數大致保持了線性增加。論文總數從2000年的18篇發展到2014年的353篇,至關於2000年的近20倍。從2005年的106篇到2014年也有3.4倍的增加。這一數據應該能夠表明中國計算機科學的實質性發展。

這一輪的發展很是引人注目,1982~2000年的18年間,在這批ACM核心會議上,我國每一年的論文數大部分年份是在10篇如下徘徊,1994年和1995年,每一年僅有1篇ACM論文。自2000以後的15年中,論文數量日新月異,年平均增加率爲22%。

 

不過,也應該注意到,在論文發表方面,各個領域存在嚴重的不平衡性。中國在這67個會議中總計發表了2439篇論文,其中有1317篇論文是在其中的6個會議中發表的,超過總數的一半。見表4。

下面再根據計算機會議的影響因子選取ACM會議。根據網上流傳的據稱來自CiteSeer的計算機科學會議影響因子表(近500個會議和雜誌),從中選出了ACM會議。經過考察這批會議中中國每一年發表的論文狀況,得出圖5。

在圖5中,論文數量的變化可分紅三個階段。第一階段(1982~2000年),每一年論文數在6篇如下,其中有3年是0篇。第二階段(2001~2006年),2001年論文數出現了一次跳躍性發展,達到20篇,是2000年的4倍。第三階段(2007~2014年),在2006~2008年間又發生一次跳躍,論文數從2006年的78篇增加到2008年的233篇,今後論文數上了一個新臺階;2013年達到最高點的321篇,2014年回落到279篇。

 

從中國的論文數與ACM論文總數的比例來看,也具備三級跳模式。第一階段,在2000年以前,中國論文所佔比例在0.5%如下,1980年代平均值是0.38%,1990年代平均值比1980年代降低一半,僅爲0.13%。第二階段,2001~2006年,從0.77%上升到1.4%;在2008年以後,每一年中國論文佔論文總數的比例平均值接近5%。見圖6。

 

我國論文分行業發展狀況

在文獻中,咱們把ACM會議分紅集成電路設計、體系結構、軟件工程(包括數據庫和人機界面)、圖形學與多媒體、程序語言、新興領域和其餘骨幹學科(包括操做系統,計算理論等)幾大類。雖然這不是一個很合理的分類,但爲了對照方便,本節依舊延續使用這一分類。

集成電路

 

表5第一列是會議簡稱,第二列是中國在2005年以前(含2005)在ACM會議上發表的論文累計數,第三列是2006~2014年之間中國在ACM會議上發表的論文累計數,第四列是2006年以後各個會議的論文總數,第五列是2006年以後每個會議的中國論文總數與ACM論文總數之比。

表5顯示,中國在2006年集成電路行業的ACM會議上發表的論文總數是2005年以前發表的論文總數的746%。2006年以後,集成電路行業的每一個會議上中國論文數佔ACM論文數的平均值爲3.81%。狀況最好的是FPGA會議,佔了8.24%,說明中國在FPGA方面發展較好。最差的是SBCCI會議,僅爲0.29%,不過這是巴西的一個會議,影響不大。在國際上有重大影響力的會議中,中國最弱的是CODES會議,論文數僅佔總數的1.55%,可是2005年前,這個會議沒有一篇中國的論文,如今累計有6篇,已是不小的進步。CODES會議已經同ISSS會議合併,內容主要是軟硬件協同設計和系統級綜合。DAC, ICCAD和DATE是集成電路行業的旗艦會議,一應俱全,涵蓋了行業內許多子領域,同時也是頂級論文的發表場所。中國在這幾個會議中的論文數分別有7~20倍的增加,發展勢頭良好。發展相對比較平穩的是物理設計ISPD會議,只有1.5倍的增加,可是接近3%的論文佔比數並不明顯落後於其餘會議。

體系結構

 

表6顯示,在體系結構方面,2006年以後同2005年以前相比,增加率剛好是6倍。在這8個會議中,2005年以前有5個是空白,如今全部會議上都有了中國的論文。因爲體系結構方面的工做難度很大,所以這是一個很大的進步。值得注意的是,MICRO會議2005年前的文章其實都是在1993年以前發表的,所以,若是把2005年後10年和前10年相比,那麼論文數增加率高達15倍。

平均而言,中國在體系結構方面的論文數僅佔論文總數的2.55%,這個比率依然較低。但體系結構方面的頂級會議ISCA不但有了零的突破,並且佔比達到2.29%,相對而言這是一個不錯的成績。

軟件工程、數據庫和人機界面

 

如表7所示,軟件工程大類的發展速度是全部大類中比較快的,達到814%,超過8倍。在這個領域,中國論文佔總論文數的比重超過7%,是全部領域中最高的。表7中ICIS的佔比特別突出,達到22%以上,可是採集到的數據中2006年之後的會議僅包含2009年一次會議,而此次會議中大部分文章來自東亞國家。SIGSOFT會議在2010年以後更名爲FSE(Foundations of Software Engineering),所以FSE的會議記錄也加在SIGSOFT的會議記錄中。

這個領域的發展至關不平衡,有3個會議佔比在8%~22%之間,分別是計算機與信息科學會議(ICIS)、信息檢索會議(SIGIR)、知識發現與信息挖掘會議(KDD);有6個會議的佔比數(表7最後一列)不到1.6%,其中包括兩個歷來沒有中國論文的會議AOSD和DIS;歷史悠久的數據庫原理會議(PODS),中國論文佔比剛超過1%。另外有4個會議的佔比數超過5%,其中包括另外一個歷史很長的會議——超大規模數據庫會議(VLDB)。

方差分析顯示,這個領域會議的方差值爲0.07,而體系結構、程序語言和VLSI(Very Large Scale Integration,超大規模集成電路)佔比數的方差僅爲0.017~0.02,二者之間有5倍左右的差別。這也說明該領域發展的不平衡。

圖形學和多媒體

 

在2006年發表的文章中統計了這個領域中的7個會議(PVG, SCCG, SI3D, SCG, SIGGRAPH, VRST, MM)的狀況。其中MM後來更名爲MULTIMEDIA(多媒體會議),SCG會議在10年後更名爲SOCG。

多媒體會議是中國在ACM會議中幾個少見的強項之一,2005年前就有100多篇論文,近10年增加了3.65倍,佔比超過21%。但這個領域的發展也極不平衡,5個會議中有兩個會議的佔比低於0.5%。圖形學會議(SIGGRAPH)的中國論文數有8倍的增加,但佔比僅爲1.67%。整體而言,這個領域的發展速度是384%,平均佔比5.97%。

程序語言

 

如表9所示,在2005年前,程序語言是全部領域中最薄弱的一個領域,9個會議中累計有7篇論文(體系結構是第二個薄弱領域,8個會議中有14篇論文)。不過,程序語言發展比較快,增加率達到900%,發展速度超過軟件工程領域,居於第二名。可是其論文數佔ACM總數之比依然是全部領域中最差的一個,僅爲2%。

在各個會議中,發展速度最快的是面向對象程序設計會議(OOPSLA)、並行編程原理和實踐會議(PPOPP)、以及代碼生成與優化會議(CGO),分別有10~13倍的增加。POPL、PPDP和PERM有了零的突破,但3個會議論文總數僅爲6篇,論文佔比基本上在1%如下。函數式程序會議(ICFP)近10年沒有論文。行業內兩個頂級會議PLDI和POPL,偏應用的PLDI發展速度增加了三倍,佔比達到1.67%;偏理論的POPL稍差一點,佔比爲0.67%。

新興研究方向

 

2006年被列爲新興研究方向的會議,如今已經不算新了。但爲了進行比較,下面的分析中還繼續沿用了原來的分類名稱。在這批會議中,DL會議在2000年以後沒有記錄。AGENTS會議2002年以後變成了AAMAS42。C&C會議數據收集不齊。所以,這裏僅分析餘下的幾個會議。

互聯網會議(WWW)的發展狀況很好,佔比達到11%以上,這同中國互聯網的蓬勃發展有關。可是其餘6個會議的佔比均在1.5%如下,顯示出發展不平衡的狀況。這個領域平均發展速度是全部領域中最快的,達到1116%,可是這一發展速度主要來自互聯網會議。若是去掉這一會議,則發展速度僅爲393%,不到4倍,在全部領域中又是最慢的。

其餘骨幹會議

 

在其餘骨幹會議的分類中,包含了著名的操做系統會議(SOSP)、離散算法會議(SODA)、側重於算法和計算複雜性等方面內容的計算機理論會議(STOC)和分佈式計算會議(PODC)等。整體而言,論文增加幅度是509%,超過5倍。目前論文數佔ACM論文總數的3%。

除了SAC和ISSAC兩個會議以外,其餘9個會議在2005年前的狀況都不好,這9個會議歷年來累計只有3篇文章,中國有6個會議的論文數是0;2006年之後,中國只有2個會議論文數是0。這9個會議中,中國論文累計數達到92篇,有30倍的增加。進步幅度最大的是計算機與通信安全會議(CCS),有50倍的增加;其次是離散算法會議,增加了18倍。分佈式計算會議和計算機理論會議也有比較好的增加幅度,可是佔比均不到1%,依然是中國的弱項。

計算機各領域發展狀況比較

將2006年之後的論文累計數同2005年之前的論文累計數進行比較,各領域的增加狀況以下(見圖7)。

 

每一個領域的發展速度是指用這個領域2006年之後論文累計數除以2005年以前的論文累計數以後獲得的百分比。其中,新興領域發展速度最快,超過了11倍。這當中貢獻最大的是互聯網會議,發展速度爲13倍。若是去掉互聯網會議,這一領域其餘會議的發展速度只有4倍。

除去新興領域,發展速度最快的是程序語言,其次是軟件工程。可是我國在這兩個領域的研究實力倒是相反的。程序語言的整體實力最弱,而軟件工程實力最強。不過軟件工程內部的各個會議狀況並不均衡,論文大量集中在ICIS, SIGSOFT, SIGIR和KDD四個會議上。

整體而言,體系結構、程序語言、集成電路和其餘骨幹領域中各個會議的中國論文增加速度相對而言比較均勻。而軟件工程、新興領域、圖形圖像這幾個領域中會議之間的增加速度差別很大,發展不均衡。

咱們把2006年之後的論文總數同2005年之前的論文總數進行比較,各領域中的中國論文佔ACM論文總數的比例狀況如圖8所示。

 

圖8從一個側面反映出計算機各個領域中,中國的研究水平在國際上的高低以及各個領域之間發展水平的相對強弱。從圖8可見,在軟件工程方面,中國發展最好,其次是新興領域和圖形圖像。然而,這三個領域又剛好是發展最不平衡的領域。在全部領域中,最弱的是程序語言和體系結構,這兩個領域的研究工做,不到軟件工程的1/3。操做系統方面的會議被歸在其餘骨幹領域的範圍內,若是單獨抽出來,那麼操做系統方面會議的論文佔比數不到1%。

因而可知,中國在應用領域中的研究工做較強,而在基礎領域(體系結構、程序語言、操做系統和計算理論等方面)的研究工做較弱。與此同時,基礎領域的發展速度比較快,好比程序語言的發展速度超過9倍。

分析和討論

根據此次獲得的數據以及統計分析結果,能夠初步得出下面幾個結論。

近十年來中國計算機科學發展日新月異

2000年是論文數量變化的第一個轉折點,當年中國在ACM會議上發表的論文總數僅18篇,2014年達到353篇,至關於2000年的近20倍。在CiteSeer影響因子前500名的會議中,2000年前中國每一年論文數在6篇如下,其中有3年是0篇。而2014年達到了279篇,增加46倍。2005~2006年是第二個轉折點,此前,在影響因子前500名的會議中,中國每一年的ACM論文數在100篇如下,此後迅速上升到250~300篇之間,增加2.5~3倍,而且連續5年在這個範圍內波動。從中國論文數佔論文總數的比例來看,也具備三級跳模式。2000年以前,中國論文所佔比例在0.5%如下,2006年上升到1.4%,以後很快上升到一個新的臺階。在2008年以後,每一年中國論文佔論文總數的比例在5%左右波動,同2000年相比,增加了10倍。

與2006年寫文章時的情形進行比較,幾個主要的研究領域(體系結構、軟件工程、程序語言、圖形圖像、新興領域以及其餘骨幹領域)平均發展速度在4~11倍之間。

在這些領域中,2006年以後,中國論文累計數佔ACM論文累計數之比已經達到2%~7%。這個數字看上去不大,可是同2006年統計的狀況相比,發展是驚人的。2005年以前,只有圖形圖像和新興領域的佔比數分別達到2.29%和1.22%,其餘幾個領域的佔比數都不到0.5%。尤爲是程序語言領域,7篇論文僅佔論文總數的0.19%,並且這7篇論文基本上都是國外單位、外國人或合做撰寫的。從佔比數看,軟件工程增加最快,達到15倍的增加;其次是體系結構和程序語言,分別有10倍的增加。

中國計算機學會制定了《CCF推薦國際學術會議和期刊目錄》(下面簡稱《目錄》),各機構對論文數和質量也給予了充分重視,這些措施對中國論文的激增起到了重要的推進做用。

論文數量同國際水平之間依然有較大的差距

若是按2006年以來的累計數計算,中國ACM論文數僅佔全球論文總數的4%。雖然整體而言中國論文數呈上升趨勢,但近5年每一年佔比數大致上在5%左右徘徊。2015年,中國人口占世界人口的比例超過18%,所以,每一年ACM論文數量應該達到如今的4倍以上,才能達到國際平均水平。若是同發達國家的人均論文數相比,差距更大。

此外在ACM的1392種會議中,中國僅參加了其中的539種,佔38%。在歷年舉行的ACM會議中,有近3/4的會議中國沒有參加。在2010~2014年這5年當中,中國有3次以上沒有參加的會議總計207個,其中包括一批在計算機核心領域的一流國際會議。在67個有15年以上歷史的會議中,2000~2014年,中國有10次以上沒有參加過的會議總計有23個,超過1/3。

各學科發展不平衡

筆者認爲,計算機的各個領域能夠粗略地劃分紅基礎領域和應用領域。體系結構、操做系統、數據庫基礎、理論計算機科學、程序語言以及集成電路電子設計自動化(Electronic Design Automation, EDA)工具均屬於基礎領域。軟件工程、知識工程、大數據、互聯網、圖形學、集成電路設計和管理系統大致上屬於應用領域。應用領域主要是指可以爲最終用戶直接提供服務的領域,基礎領域主要是爲應用領域提供服務的領域。

就中國在ACM會議上發表論文的狀況來看,有兩個特色值得注意。一個是基礎領域的論文發表弱於應用領域,在體系結構、程序語言以及其餘骨幹(包括了操做系統和計算理論等基礎性學科)會議中,中國論文佔比平均在2%~3%。而軟件工程、圖像處理、新興領域(包括互聯網等方面的會議)這三個領域中,中國論文佔比是6%~7%。集成電路行業介於二者之間,佔比接近4%。集成電路行業包含了基礎性的EDA行業以及開發最終產品的設計和驗證行業。這也能夠解釋爲何這方面的論文發表狀況處於一箇中間狀態。見圖9。

 

第二個特色是,在軟件工程、圖形圖像和新興領域這幾個應用領域中,中國的論文分佈很是不平衡。好比在軟件工程領域,有一個會議佔比數高達21%,可是15個會議中有6個會議,佔比數在1.1%如下。在新興領域中,如前面所述,不平衡狀況更爲突出。根據上述分析,咱們對相關問題進行以下討論。

論文發表中的矛盾數據顯示學科發展不平衡

文獻根據國際論文數據庫的資料獲得的數據顯示,中國計算機科學每一年發表的論文數自2008年後就一直超越美國,位居世界第一。2014年中國計算機論文數佔全球論文數的20%。在CCF A類期刊(《目錄》中的頂級期刊)上,中國近年發表的論文數佔總數的26%。從這兩個數字上看,中國不管是在論文的總量上,仍是在優秀論文的數量上都取得了很好的成績。然而,本文的統計顯示,2006年之後中國論文數僅佔ACM會議論文總數的4%,主要會議上的佔比是2%~7%。爲何兩種統計結果會有那麼大的差別?

一個緣由多是咱們在作數據抽取時要從論文單位來斷定是不是中國論文,因爲信息不全,會少算一部分,但這之中的偏差不會嚴重影響到佔比數的計算。另外一個可能的緣由是國內學者更傾向於在雜誌上發表論文,這樣作能夠減小論文發表費用,有較多的反饋修改時間,同時避免了英語表達方面的不足。

筆者認爲數據上的矛盾現象主要反映了發展的不平衡。一方面,大量論文集中在低端會議和雜誌中,因此論文總量很大;而優秀論文又過分集中在一部分雜誌和會議當中,不少一樣重要的會議和雜誌缺乏中國論文。所以,雖然CCF A類期刊上的中國論文所佔比重很高,但ACM會議的中國論文所佔比重卻很低。

筆者認爲,我國依然須要提升在國際會議和雜誌上的論文發表量,可是重點要放在過去相對忽視的方向上面。

關於CCF《目錄》以及論文導向的科研

最近《中國計算機學會通信》連續兩期(2015年第七、8期)討論了關於《目錄》的問題。幾位學者從各個角度作了有深度的分析[3~6],在確定了《目錄》積極做用的同時,指出了《目錄》的一些負面影響。對論文數量的過分重視,引發了學術界普遍的擔心。中國科學院院士梅宏教授的文章從六個不一樣角度分析了《目錄》所帶來的問題。當我在寫這篇文章的時候,也強烈感到論文驅動的科研模式恐怕已經走過頭了。

大量事實顯示,科研成績並不必定從論文數量上表現出來。好比,韓京洋等人的論文指出,圖靈獎得到者中有三位從未發表過CCF A類論文。中國工程院院士李國傑教授引用了一個案例,英國帝國理工大學破格提拔郭毅教授時,他還沒有在一流雜誌上發表過文章。這說明,一流學者不能僅僅依靠量化考覈。據我所知,法國有些著名學者在得到博士學位時也沒有在一流會議、雜誌上發表過文章,可是他們的博士學位論文被普遍引用。

毫無疑問,應該鼓勵科研人員作有價值的研究工做,無論這些工做是否可以在短時間內發表到一流雜誌或一流會議上。可是,要想破除論文導向體制的弊端,就須要用更好的機制來取代它。若是找不到更好的機制,咱們就很難避免論文導向的管理方法。這就同高考同樣,咱們明知它有弊端,可是不得不繼續使用。在計算機領域中,論文是評估工做成績的一個重要方式,難點在於如何尋找建設性的方案去補充這一方式的不足。

值得注意的是,在同一個領域中,《目錄》能夠對科研評價起到很好的指導做用。可是,若是在不一樣領域之間比較,它的參考價值就會下降。

把填補國內薄弱環節做爲科研評估的一個重要因素

除了基於論文的科研評價模式以外,還有多種其餘方式能夠進行科研評估。好比,依靠權威人士評估、項目鑑定會、國家須要和市場效果的檢驗等等。本文的分析結果主要有兩方面,一方面是論文數量大幅增加,另外一方面是各學科發展不平衡。這兩個結果大致上都是在《目錄》的推進下產生的。

在進行了論文分類以後,國內大量科研力量涌入了CCF A類期刊和會議中,以及國內基礎較好或者論文發表相對容易的期刊和會議上。論文的成功發表又反過來使相關領域的學者獲得更多的經費,從而可以發表更多的論文。由此形成部分領域的期刊和會議裏中國論文激增,而大部分其餘領域的中國論文依然稀少的狀況。

 

由此形成的結果是學科發展嚴重不平衡。在本次統計中,有1/10左右的ACM會議,中國論文佔比超過10%;而接近1/3的會議中,中國論文佔比在1%如下;接近一半的會議,中國論文的佔比在1%~5%之間。見圖10。

學科發展不平衡是目前我國計算機科學麪臨的一個嚴重問題。

在集成電路的設計中,電路的速度取決於時間最長的那條路徑,其餘路徑不管怎樣優化都不能提升電路的總體速度。一樣,從計算機科學發展的全局來看,須要各個學科均衡發展,不然,某些薄弱學科就可能影響總體效果的發揮。

要彌補這一缺陷,並不須要放棄《目錄》。《目錄》自己至關於咱們對計算機科學全局情況的一種認知,咱們應該完善和補充這種認知,而不是拋棄這種認知。

建議把彌補國內薄弱環節做爲科研考覈的一項重要因素,鼓勵科研人員將論文投到國內論文發表較少的會議和雜誌上。在科研評估時,把論文發表量同彌補國內薄弱環節兩個因素結合考慮。

此外,基礎性學科的研究難度較高,研發週期較長,影響長遠,建議採用特殊的鼓勵措施。不一樣的學科能夠採用不一樣的論文發表量做爲評估標準。

重視有影響的基礎性研究項目

許多學者都明確指出,論文不是科研的最終目的。科研人員和科研管理機構都應該重視有長遠影響的科研課題和科研產品,論文只是研發工做的副產品。重要的科研成果能夠經過論文表現出來,也能夠不經過論文表現出來,好比發明一個鼠標。

在基礎性研究中,筆者認爲對軟件工具的開發須要給予特別的重視。

整個工業能夠劃分紅重工業和輕工業。重工業是機器製造業,是支持輕工業發展的基礎性工業。建國之後的幾十年,中國重點發展重工業,雖然那時人民的生活水平比較低,可是爲近幾十年的經濟起飛奠基了基礎。

軟件工具是用於軟件開發和硬件設計的軟件,至關於計算機行業的「重工業」。長期以來,我國發展比較快的是應用性軟件、嵌入式系統和集成電路芯片。這些領域至關於計算機行業的「輕工業」。可以擔當起計算機「重工業」的還有CPU、操做系統、編譯器和理論計算機科學等領域,這些領域相對而言獲得了必定的重視。可是在軟件工具方面,除了管理系統軟件的開發工具以外,其餘方面的受重視程度還至關不夠。

最難開發的軟件工具能夠分紅兩大類,一類是須要雄厚理論基礎的軟件工具,另外一類是跨領域的軟件工具。前一類的例子有各類自動的和半自動的定理證實工具以及領域專用語言等等。後一類的例子有用於集成電路設計的幾十種EDA工具,用於機械設計、發動機設計、新醫藥研製的各類軟件工具等等。這些工具的開發者既要具有高水平的軟件開發能力,同時又必須成爲相關行業的專家。爲此,須要十幾年甚至幾十年的積累。這些工具也凝聚了各個專業領域的核心技術。

例如,Isabelle定理證實器在1989年以前就開始研發,至今已超過25年。2009年,澳大利亞ICTRC用這個定理證實器證實了一個嵌入式操做系統核心seL4的正確性,而且挖掘出C代碼中150個錯誤。同步語言Esterel自1983年開始研發,至今32年,目前該語言發展成爲一個商業化的嵌入式系統建模工具Scade,全套軟件售價百萬美圓以上。

在軟件工具以及其餘一些基礎性研發工做方面,雖然中國已經有了一些具備影響力的開發工做,但同國外還存在巨大差距。這種差距很難使用相似論文數量這種簡單方式進行衡量,也難以使用相似《目錄》的方式去激勵。

計算機發展的機遇

一般認爲,1946年完成的ENIAC是第一臺計算機,可是第一臺可以用存儲器保存並運行程序的計算機是1950年完成的UNIVAC 1101或
ERA 1101[10]。1952年,華羅庚呼籲國內開展計算機研究;1960年,夏培肅先生帶領的團隊研製出中國第一臺通用計算機。從當時的狀況看,中國計算機同國外的差距彷佛只有10年左右。自那時以來,中國一直在努力縮短同國外的差距。半個世紀過去了,中國計算機的整體水平同國外的差距至少還有10年以上。

爲何這個差距始終沒法縮短呢?一個緣由是,計算機的發展不是單一學科的問題,它同一個國家的科研和工業的總體水平密切相關。從理論基礎、軟硬件技術、計算機應用,一直到材料科學和機械工業,方方面面都影響着計算機的發展。中國計算機事業還有不少薄弱環節:絕大部分有影響力的計算機理論模型(除了區段演算等少數研究之外)都不是國內提出的,有影響力的程序語言和定理證實工具也不是國內發明的,大部分體系結構創新並不是來自中國,價值較高的系統軟件和工具軟件基本上都是國外開發的,中國還遠未掌握芯片的製造技術等。要解決這些問題,既須要讓計算機的各個分支都可以全面發展起來,也要讓計算機專業同其餘學科有更緊密的交叉互動。

另外一方面,咱們還須要反思一下「追趕」導向的科研模式。「追趕」一詞同模仿緊密相關。在不少行業中(也包括計算機自身的一些領域),人們能夠作到先模仿後超越,可是對於計算機核心技術,這一策略經常是失敗的。計算機的發展歷史代表,成功的策略每每是先創新後超越。微軟並無模仿IBM操做系統,英特爾也沒有模仿IBM計算機,可是前者都超越了後者。在計算機領域中,關鍵是要讓有重大前景的小技術得到發展機會。這種機會可能像早期英特爾、微軟那樣,找到一個可以讓他們發展壯大的市場;也可能像谷歌、也可能像阿里巴巴,找到一個有眼光的投資人。

「追趕」是一種向後看的思惟模式,它所看到的是過去的成功;「創新」是一種向前看的思惟模式,它看到的是將來有前景的技術。過去是很清晰的,將來是不清晰的。在計算機歷史上不斷地出現各類機遇,大部分人都沒法抓住這些機遇,由於看不清將來。IBM若是能看清我的計算機的將來,毫不會把機會留給英特爾和微軟。

英特爾和微軟的時代已通過去,可是計算機的發展歷程中還會不斷地涌現新的機遇。怎樣識別和抓住機遇,是咱們須要認真對待的問題。■

 

致謝:

感謝《中國計算機學會通信》專欄編委包雲崗的熱情邀請和鼓勵,本文最終寫成。感謝呂延田先生爲本文的數據採集提供了重要的幫助。感謝北京京航計算通信研究所領導和同事對我工做的支持。感謝人社部組織的海南專家行活動,經過這些專家,瞭解到各行業對工具性軟件的迫切需求。尤爲感謝同屈凌波教授和李雪琳老師的有益討論。感謝李國傑院士對我研究工做的重視。

腳註:

1 International Conference on Functional Programming, 函數編程會議。

2 New Security Paradigms Workshop。

3 International Conference on Pattern Recognition。

4 Principles of Programming Languages,程序語言理論會議。

5 International Conference on Architectural Support for Programming Languages and Operating Systems,對編程語言和操做系統得體系結構支持國際會議。

6 Conference on Principles of DB Systems,數據庫系統理論會議。

7 ACM SIGPLAN Symposium on Partial Evaluation and Semantics Based Programming Manipulation。

8 ACM SIGACCESS Conference on Computers and Accessibility。

9 Microarchitecture。

10 ACM Symposium on Parallelism in Algorithms and Architectures。

11 ACM Symposium on Principles of Distributed Computing。

12 ACM Symposium on Theory of Computing。

13 the International Conference on Hardware-Software Co-design and System Synthesis,國際軟硬件協同設計綜合會議

14 International Conference on Compilers, Architectures, and Synthesis for Embedded Systems。

15 Super Computing,高性能計算年會。

16 ACM International Conference on Information and Knowledge Management。

17 International Conference on Research on Development in Information Retrieval。

18 Knowledge Discovery and Data Mining。

19 Selected Areas in Cryptography。

20 Design, Automation & Test in Europe Conference。

21 Design Automation Conference。

22 International Conference on Computer-Aided Design。

23 International Symposium on Low Power Electronics and Design。

24 ACM/SIGDA International Symposium on Field-Programmable Gate Arrays。

25 International Symposium on Physical Design。

26 Great Lakes Symposium on VLSI Systems。

27 International Symposium on Computer Architecture。

28 Parallel Architectures and Compilation Techniques。

29 International Conference on Supercomputing。

30 Aspect Oriented Software Development。

31 Designing Interactive Systems。

32 International Symposium on Software Testing and Analysis。

33 International Conference on Very Large Data Bases。

34 ACM Conference on Human Factors in Computing Systems。

35 ACM SIGMOD Conference on Management of Data,數據管理國際會議。

36 ACM SIGGRAPH Annual Conference。

37 Virtual Reality Software & Technology,虛擬現實軟件與技術年會。

38 International Conference on Languages, Compilers, Tools and Theory for Embedded Systems, 嵌入式系統語言和編譯。

39 Conference on Object-Oriented Programming Systems, Languages, and Applications。

40 Conference on Programming Language Design and Implementation,程序語言設計與實現會議。

41 Code Generation and Optimization。

42 Autonomous Agents and Multi-Agent Systems。

43 ACM Symposium on Access Control Models and Technologies。

44  International World Wide Web Conferences。

45ACM Symposium on Access Control Models and Technologies。

46ACM Symposium on Operating Systems Principles。

47ACM-SIAM Symposium on Discrete Algorithms。

48ACM Conference on Computer and Communications Security。

 

 

做者:

陳 鋼

CCF會員。北京京航計算通信研究所國家千人計劃專家。主要研究方向爲高階定理證實器、程序語言、類型理論、靜態分析、硬件形式化驗證、PLC程序測試以及函數式硬件語言等。

 

參考文獻:

陳鋼. 從ACM會議論文數量看差距.中國計算機學會通信, 2006,2(5).

黃鐵軍.我國計算機學科國際期刊論文情況. 中國計算機學會通信, 2015, 11(8).

梅宏.中國計算機學會發布《國際學術會議和期刊目錄》得失談. 中國計算機學會通信, 2015,11(5).

張曉東.發表論文只是研究的一種形式而不是目的. 中國計算機學會通信, 2015,11(7).

包雲崗. CCF《國際學術會議和期刊目錄》得大於失.中國計算機學會通信, 2015, 11(8).

陳盈. 爲CCF《國際學術會議和期刊目錄》點贊, 中國計算機學會通信, 2015, 11(8).

李國傑. 科技評價漫談, 中國計算機學會通信. 2014, 10(11).

韓京洋, 陸嘉恆, 杜小勇. 圖靈獎得主CCF論文發表狀況分析.中國計算機學會通信, 2015,11(4): 48~52.

Klein, Gerwin et al. seL4: Formal verification of an OS kernel, 22nd ACM Symposium on Operating System Principles, Big Sky, Montana, US.

[10] http://www.computerhope.com/issues/ch000984.htm.

相關文章
相關標籤/搜索