现在的位置: 首页 > 综合 > 正文

从ACM会议看中国大陆计算机科学与国外的差距zz

2018年05月13日 ⁄ 综合 ⁄ 共 19366字 ⁄ 字号 评论关闭

这几天在水木CSArch版
,lingcore(灵芯)总结并发表了从ACM会议看中国大陆计算机科学与国外的差距
一文,引起了版面的热烈讨论。我觉得他独立完成的这个工作,是值得引起学界和决策界的广泛注意的。闲话少说,特将此文转载。

关于转载的几点说明:
1. 作者(lingcore)同意该文被自由转载
2. 作者将该文按照GFDL发布,所以所有转载,修改都应该继续按照GFDL发布。如果你从我这里转走此文,也希望保留原文的作者和GFDL信息。
3. 该文首发在水木社区
CSArch
版。
4. 文中难免有错误和疏漏,单是考虑到作者一人完成这样的工作量,并且按照GFDL自由发布,请尊重作者的工作和劳动。
5. 我这里仅仅是个转载,原文网址: http://www.newsmth.net/bbscon.php?bid=272&id=19899




从ACM会议看中国大陆计算机科学与国外的差距






作者:灵芯

2006年4月24日

摘要

美国计算机协会ACM组织了一百多个计算机方面的专业会议,其中包括计算机科学的多个骨干领域中的顶级会议。本文按第一作者为标准统计中国大陆学者
在历年ACM
会议中的发表情况,着重比较了集成电路,体系结构,软件工程,程序语言等核心领域内中国同国外的差距。统计结果显示,中国ACM论文数仅占ACM论文总数
的0.83%,半数以上ACM会议中没有中国论文,在一批核心会议中,中国论文数等于零或接近于零。在集成电路设计会议DAC上,中国大陆论文数仅为台湾
省论文数的1/6;在反映计算机设计水平的两大体系结构会议ISCA和MICRO里,中国在十年前尚有若干篇论文,最近十年论文数反而为零;在九个程序语
言的会议中,完全由中国独立完成的论文只有一篇。另一方面,统计显示,在多媒体会议MM上面,中国论文数远远超过日法意德等国。 

正文

本文分析中国大陆学者在ACM各个会议中论文发表情况。希望以此了解中国在计算机学科的各个分支中所处的地位。找出那些分支是中国的强项,那些分支是中国的弱项,那些分支中国还处在空白状态。为计算机科学发展决策提供参考。

国际计算机科学界普遍认为会议比杂志更重要[8,12],一些招聘和提职的指南上特别强调不可重杂志轻会议[13]。在高水平会议上发表论文的难度
很大,据介绍,中科院同INTEL合作的一篇2004年的PLDI会议论文花费了15人两年的工作量,这也是中国单位第一次参加PLDI会议的论文(不是
第一作者)。正因为这些会议对论文的严格要求,所以被会议录取的论文能够代表专业里的先进水平。

ACM名下的计算机专业会议涵盖了计算机科学的几个主要分支最高水平的会议。其中包括集成电路设计方面的DAC,ISSS,ICCAD会议,体系结
构方面的ISCA和MICRO会议,超级计算方面的SC和ISC会议,程序语言方面的POPL,PPDP会议,操作系统方面的SOSC会议,数据库方面的
SIGMOD和PODS等等。尽管还有许多重要的会议不在ACM会议集之中,但是对ACM会议论文发表情况依然可以成为衡量一个国家计算机科学研究水平的
重要依据。

这项研究工作是业余进行的,所以没有使用那些需要付费的论文数据库系统。研究方法是使用PERL程序直接从ACM网站[4]上抽取出所有的会议论文
网页,再从这些网页中抽取出每篇论文第一作者所在单位和国别,然后用一个AWK程序计算每一种会议中各个国家的论文数,最后把各个会议中中国的论文数同其
他国家的论文数进行比较。这个统计方法没有计入中国作者不是第一作者的论文,其中也包括上面提到的PLDI论文,该文第一作者(执笔人)是INTEL的学
者。

由于一些文章的作者单位栏中没有包含国别,所以这项统计只是一个近似的结果。中国大陆的文章通常写明China,所以遗漏中国论文的情况很罕见。此
外,我们把单位名中包含Beijing,Pekin,Shanghai等关键字的记录都统计在中国论文内。中国台湾省和香港特区作者的单位名中有时也包含
China,统计程序把这些记录都排除。本文中除特别说明之外,“中国论文”专指只中国大陆学者的论文。统计中,遗漏其他国家论文的情况相对多一些,比如
加拿大多伦多大学有时不标明加拿大,因此,对其他国家论文数的统计可能偏少,但不会差的很远。美国的单位一般不含国名,因此目前程序还没有统计美国的论文
总数。作为一个替代,程序统计了美国加州的论文数。程序运行结果表明,美国加州的论文数通常高于其他发达国家平均数的数倍。下面会看到,中国同美国加州的
差距已经很大。

 统计的不精确性的另一个原因ACM网站数据缺漏。个别ACM会议中没有列出作者单位,比如ISCA92,ISCA93;还有一些会议集缺少最近几
年的会议,比如SIGGRAPH在03年之后的会议还没有进入ACM网上数据库。因此有关这些会议的数据不全。尽管有少量的数据缺失,但并不仿碍这次统计
所反映的总体情况。

网络上抽取论文信息的程序日夜运行整整一个星期,共收集了ACM173个会议总共八万多篇论文。这个收集工作包含了大部分ACM会议,个别只有一两年会议历史,尚无历史文档的会议没有统计在内。附录中列出在每个会议中中国的论文数,占总数百分比以及同国外的比较。

统计结果显示,在这173个会议中,中国论文超过100篇的会议有三个,它们是:

会议代号 中国论文数 占总数百分比 美国加州 六个发达国家平均数
AICPS 167 3.85% 136 174
ASPDAC 102 7.23% 161 47
MM 102 5.91% 174 58

—–

上表中的中国论文数指中国大陆学者在该会议中历年发表的论文总和。为了比较,我们同时列出中国论文数占会议论文总数的百分比,美国加州在该会议中的
论文总数,六个发达国家(德,法,意,加拿大,澳大利亚和日本论文总数的平均值。该表显示中国在这三个会议中的情况比较好,论文数超过或接近几个发达国家
的平均水平。但是在ASPDAC和MM会议中只有美国加州论文数的2/3。
        
在上述三个会议中,AICPS是一大批会议的总和,其中有些是地区性会议,有些是近年的专业会议;ASPDAC是亚太地区的集成电路设计会议。虽然地区性
会议不一定代表专业领域的最高水平,但是上述数据也表明中国在集成电路研究方面的活跃。在该会中,清华大学表现最为出色,论文数为56篇,占了中国论文数
的一半以上。MM是国际多媒体会议,在这个会议上中国论文数超过六个发达国家平均数几乎一倍,说明中国已在这一领域进入国际先进行列。在MM中国论文中,
微软中国研究所36篇,清华27篇,其次是中国科大和浙大。

中国论文数在10篇到99篇之间的会议有8个,它们是:

会议代号 中国
论文数
论文总数 中国论文占
总数百分比
美国加州 六个发达
国家平均数
SIGGRAPH 10 2165 0.46% 190 44
CSC 11 1150 0.96% 37 11
VRST 12 281 4.27% 13 10
CIKM 16 1014 1.58% 68 30
ISSAC 17 714 2.38% 23 45
SAC 23 2117 1.09% 84 76
SIGIR 28 1352 2.07% 50 36
WWW 36 731 4.92% 97 25

—–

其中互联网会议WWW和虚实体软件会议VRST的论文数超过论文总数的4%,也超过了六个发达国家的平均数。VRST中表现突出的是浙江大学,占了
12篇论文中的7篇。其次是符号代数计算会议ISSAC,信息检索会议SIGIR以及信息和知识管理会议CIKM,中国论文数占总数的1.58%到
2.38%之间。图像学和交互式系统会议SIGGRAPH虽然有10篇论文,但只占会议论文总数的0.46%,是发达国家平均数的1/4,是美国加州论文
数的1/19。在这个领域中国同国际水准差距很大。CSC(计算机科学)和SAC(应用计算)两个会议从名字上看难以归入专业会议,其水平需要内行专家来
评价。

在上述“中国论文”中,有很大一批是微软中国研究院的论文,还有一些是中国研究单位同国外合作的成果。比如SIGGRAPH
的10篇论文中有9篇来自微软,另一篇文章是复旦大学同美国加州DAVIS
大学合作成果。微软中国的论文在WWW中占了9篇,在SIGIR中占了12篇。

如果按论文占会议总数的百分比排列,那么中国论文占论文总数2%以上的会议一共有13个:

会议代号 中国
论文数
论文总数 中国论文
占总数百分比
美国加州 六个发达
国家平均数
DOLAP 2 100 2.00% 0 4
SIGIR 28 1352 2.07% 50 36
Middleware 1 47 2.13% 4 1
ISSAC 17 714 2.38% 23 45
ASE 4 162 2.47% 6 6
CF 3 108 2.78% 7 4
WIDM 3 101 2.97% 4 3
GRAPHITE 5 159 3.14% 0 5
AICPS 167 4333 3.85% 136 174
VRST 12 281 4.27% 13 10
WWW 36 731 4.92% 97 25
MM 102 1727 5.91% 174 58
ASPDAC 102 1410 7.23% 161 47

—–

除上面分析过的几个会议之外,其他几个会议规模比较小,其中每个会议中中国论文总数不到5篇。

这次分析的ACM会议总共有173个,上面13个会议不到会议总数的8%。下面是按照中国论文占会议总数的百分比列出中国论文在ACM会议中的分布情况:

       中国论文占会议                      会议数        
       论文总数百分比
      
       > 2%                                         13
       >1%                                          30
       > 0%                                         76
       = 0                                            97

上表显示,在97个ACM会议中,中国没有一篇论文,这些会议占了本次统计的ACM会议总数的56%。

下面对ACM会议的几个大方向做进一步的分析。


核心领域论文发表情况

一。集成电路设计。

设计自动化会议(Design Automation
Conference(DAC))是ACM在集成电路领域历史最悠久的会议。自1964年以来的42年中,该会议上共发表过的3281篇论文,其中中国的
论文只有9篇,仅占论文总数的0.27%。相比之下,法意德在该会议中的论文数分别为:43,36,99,高出中国4倍到10倍;南朝鲜和台湾的论文数
为:36和56,高出中国大陆4倍到6倍;美国仅加州一地在该会议上的论文数就达673篇,高出中国七十几倍,中美间的差距之大几乎无法衡量。

值得指出的是,清华大学的论文占了9篇中国论文中的6篇。

下面是集成电路设计相关的几个主要会议上中国论文发表情况(亚太地区会议ASPDAC没包括在内):

会议代号 中国
论文数
论文总数 中国论文
占总数百分比
美国加州 六个发达
国家平均数
CODES 0 398 0.00% 51 14
ISSS 0 322 0.00% 53 14
SBCCI 0 111 0.00% 6 5
DATE 3 1414 0.21% 120 51
DAC 9 3281 0.27% 673 59
ICCAD 5 1483 0.34% 342 25
EuroDAC 2 487 0.41% 48 26
ISLPED 4 746 0.54% 116 17
FPGA 5 459 1.09% 100 15
ISPD 6 338 1.78% 88 5
GLVLSI 7 368 1.90% 34 9
总计 41 9296 0.44% 1625 235

—–

在这些会议中,清华大学的论文数为21篇,占中国论文数一半以上。显示出清华大学在集成电路研究方面的国内领先地位。尤其是在物理设计领域,清华占了6篇论文中的5篇。另外,复旦大学在FPGA领域比较突出,占了5篇论文中的3篇。

整体而言,中国在上述集成电路会议中的论文数不到六个发达国家平均数的1/5,相当于美国加州论文数的1/40。相比之下,中国在物理设计
(ISPD)和可编程逻辑(FPGA)方面情况稍好,在系统设计(CODES,ISSS,SBCCI)方面的研究最差。其次是设计测试(DATE)和设计
自动化(DAC,ICCAD,EuroDAC)。

加上ASPDAC会议,中国论文占论文总数的1.32% 。

下面是这几个会议的中文简称,开始年份和论文录取率情况。

代号 中文简称 起始年 录取率
ASPDAC 亚太地区设计自动化 95     无
CODES 软硬件协同设计 94 30%
ISSS 系统综合 94 35%
SBCCI 集成电路与系统设计 97 34%
DATE 设计与测试 98 21%
DAC 设计自动化 64 30%
ICCAD 辅助设计 92 26%
EuroDAC 欧洲设计自动化 90      无
ISLPED 低功耗设计 95 32%
FPGA 可编程逻辑 95 50%
ISPD 物理设计 97      无
GLVLSI 大湖区集成电路 0      无

—–


二。体系结构



在体系结构方面,中国的论文发表情况比集成电路更差。在有33年历史的计算机体系结构权威会议ISCA中,中国的论文数是只有一篇,发表在1993年,作
者是Q. S. Gao。
在微体系结构会议MICRO上,中国有9篇论文,占论文总数的1.48%,这些论文都是在1994年之前的,大部分是在85年到88年之间所做,95年之
后一篇论文也没有。仅从论文数量看,最近十年中国在体系结构方面的学术研究不但没有前进,反而出现倒退。这种情况可能同中国当前的“芯片热”有关,许多研
究人员转向了芯片的产品开发,离开了体系结构的学术研究。另一个原因是有能力在这些重要会议上发表论文的学者转到了国外,比如在MICRO上发表了4篇论
文的清华学者Bogong Su先生,现在在美国William Paterson 大学工作,总共发表了34篇论文。

下面是ACM会议中几个主要的体系结构有关的会议中,中国论文的发表情况:

会议代号 中国
论文数
论文总数 中国论文
占总数百分比
美国加州 六个发达
国家平均数
ASPLOS 0 264 0.00% 41 2
CASES 0 196 0.00% 28 4
ISCA 0 992 0.00% 116 11
PACT 0 67 0.00% 3 0
SPAA 0 559 0.00% 56 18
SC 1 1229 0.08% 143 16
ICS 1 729 0.14% 46 20
MICRO 9 608 1.48% 68 6
Total 11 4644 0.24% 501 77

—–

由于在ACM网站上没有ISCA02,ISCA03两个会议的作者单位,所以这两个会议的论文数和国家分布情况没有出现在上表。ISCA03中恰好有一个中国作者,所以,ISCA中国论文数应为1。

在这七个会议中,中国在四个会议中的论文数是空白。超级计算会议SC中唯一的一篇论文是北京基因组研究所的计算机应用论文,不能算作体系结构方面的
论文;另一个超级计算会议ICS的论文是计算所编译组同INTEL和DELWARE大学合作的论文;MICRO方面的9篇论文是10年前的论文,ISCA
唯一的论文在13年以前。换句话说,中国在最近十年内,在ACM体系结构方面的论文是空白。

当然,这并不等于说中国在体系结构学术研究方面是空白。在ACM之外,还有相当一批重要的体系结构会议,比如
ISCIS,HPCA,ICCD,ASAP等等。但是中国在ACM会议中的情况,毕竟反映出中国在体系结构方面研究力量的薄弱。另外,下表显示,ACM这
几个会议都是论文竞争相当激烈的会议,尤其ASPLOS,ISCA和MICRO这几个历史长久的会议,录取率仅在20%,五篇论文中只录取一篇。中国在这
些会议中没有论文,至少说明中国缺乏高水平的研究工作。

下面是上述ACM体系结构会议的中文简称以及论文录取率等信息:

代号 中文简称 起始年 录取率
ASPLOS 对语言和操作系统的体系结构支持 73 20%
CASES 嵌入式系统编译,体系结构和综合 0 25%
ISCA 体系结构 73 20%
PACT 并行体系结构及编译技术 93
SPAA 并行算法和体系结构 89 37%
SC 超级计算 88 24%
ICS 超级计算 89 30%
MICRO 微体系结构 73 20%

—–

三。软件工程,数据库和人机界面。

在这个栏目下面,我们把软件工程,数据库,交互式系统,文档,超文本的会议都放在一起。这种分类可能会有争议。但是从我们提供的数据中不难分析出各专门领域的情况。下面是归在此类的所有会议:

代号 中文简称 起始年 录取率
ISSTA 软件测试与分析 73 20%
SIGSOFT 软件工程基础 82 25%
ICSE 软件工程 76 17%
PODS 数据库系统原理 82 22%
SIGMOD 数据管理 74 17%
VLDB 超大规模数据库 82
KDD 数据中知识挖掘 99 14%
SIGIR 信息检索 71 20%
SIGDOC 计算机文档 82 50%
UIST 用户界面软件与技术 88 21%
ICIS 信息系统 89
IUI 智能用户界面 89 30%
CHI 计算机系统中人的因素 77 20%
DIS 交互式系统设计 95
HT 超文本 87 40%
SV 软件可视性 73 20%
SSR 软件可重用性 95 43%
SCM 软件配置管理(workshop) 89
WOSP 软件与性能(workshop) 98 55%

—–

在这些会议中ISSTA,SIGSOFT,ICSE是软件工程方面的主干会议,论文录取率在20%左右。在这三个会议中,中国的论文总数是6篇,占全部论文数的0.21%。其中SIGSOFT的三篇文章全部是北大的。ICSE中也有一篇北大文章。

SIGMOD和PODS是数据库方面的主要会议。前者录取率为35%,其中有9篇中国论文;后者录取率只有18%,该会议上唯一的一篇中国论文是重
庆大学Ke Wang所写的论文,但时间是17年前。知识挖掘会议的录取率只有14%,但上面有9篇中国论文,数量同发达国家平均数接近。

SIGIR信息检索会议是这批会议中中国论文最多的一个会议,中国共有28篇论文,占总数2%多。在这批论文中,微软占了12篇,其次是清华大学5篇,其中有2篇是同微软合作成果。

在用户界面会议方面,中国在IUI会上的论文占论文总数0.84%,这个比例在各个会议中占第二名。IUI的5篇中国论文中有3篇出自北京中科院。

会议代号 中国
论文数
论文总数 中国论文
占总数百分比
美国加州 六个发达
国家平均数
DIS 0 237 0.00% 20 3
ISSTA 0 205 0.00% 18 3
SCM 0 55 0.00% 4 1
SIGDOC 0 607 0.00% 35 13
SSR 0 105 0.00% 8 3
VLDB 0 146 0.00% 15 3
CHI 6 4471 0.13% 595 97
PODS 1 671 0.15% 75 18
ICSE 3 1918 0.16% 129 70
UIST 1 472 0.21% 80 15
ICIS 1 432 0.23% 0 5
HT 2 621 0.32% 57 17
SIGSOFT 3 675 0.44% 50 21
SIGMOD 8 1790 0.45% 223 35
WOSP 1 164 0.61% 10 8
IUI 5 595 0.84% 60 21
KDD 9 650 1.38% 66 12
SIGIR 28 1352 2.07% 50 36
Total 68 15166 0.45% 1495 381

—–

在这18个会议中,中国在6个会议中尚处空白状态。另外,CHI的6篇文章有5篇是微软的,另外1篇来自IBM中国研究所。PODS上的文章是17
年前的。所以,在最近17年中,中国实际上在8个软件会议中是空白。其他几个会议,除SIGIR
以外,论文数量占会议论文总数的百分之一以下。在软件工程这个领域中,中国论文数是六个发达国家平均数的1/6,是美国加州的1/23。

四。操作系统,网络通讯和分布式计算。

在这个栏目下面我们很勉强地把操作系统会议SOSP,通讯会议COMM和分布是计算会议PODC放在一起。这几个领域不象其他行业那样有一大批相关
的ACM会议。然而这几个会议历史都很长,率取率也比较低。SOSP会议是一个有将近40年的操作系统会议,在此会议上中国论文一篇也没有。分布式计算会
议PODC上也没有中国的论文。COMM上有两篇中国论文,一篇来自国防科大,另一篇来自南京通讯工程学院。国防科大的文章发表在2003年,当年的录取
率仅为11%,几乎是10文章中挑选1篇;南京通讯工程学院Guo Chuanxiong的文章发表在2001年,当时的录取率为9%。

代号 中文简称 起始年 录取率
SOSP 操作系统原理 67 18%
COMM 计算机通讯的应用技术和体系结构 69 11%
PODC 分布式计算原理 82 30%

—–

会议代号 中国
论文数
论文总数 中国论文
占总数百分比
美国加州 六个发达
国家平均数
PODC 0 849 0.00% 75 13
SOSP 0 331 0.00% 54 1
COMM 2 817 0.24% 94 14
Total 2 1997 0.10% 223 28

—–

SOSP上不但没有大陆的论文,也没有台湾和香港的论文。PODC上有两篇台湾论文,一篇香港论文。

 五。图形学与多媒体

在虚拟实体会议VRST和多媒体会议MM上,中国的情况比较好,非常罕见的能够占到论文总数的4%–6%之间。VRST上的论文都是中国自己独立完
成的,MM上虽然有32篇微软的论文,但中国自己的论文还是占了大多数。图形学本身的论文情况接近空白。SCG上唯一的一篇论文是明尼苏达大学同北京中科
院合写的文章,SIGGRAPH
上有8篇文章出自微软,1篇出自IBM,另一篇是复旦与美国DAVIS大学合作。SIGGRAPH论文收集到02年以前,之后的会议还没有进入ACM网
站。     

会议代号 中国
论文数
论文总数 中国论文
占总数百分比
美国加州 六个发达
国家平均数
PVG 0 45 0.00% 5 1
SCCG 0 114 0.00% 1 2
SI3D 0 220 0.00% 13 1
SCG 1 907 0.11% 72 28
SIGGRAPH 10 2165 0.46% 190 44
VRST 12 281 4.27% 13 10
MM 102 1727 5.91% 174 58
Total 125 5459 2.29% 468 144

—–

代号 中文简称 起始年 录取率
PVG 并行和大规模数据可视性 99
SCCG 图形学 73
SI3D 交互式3D图像 87 27%
SCG 计算几何 85 35%
SIGGRAPH 图像与交互式技术 74
MM 多媒体 93 48%
VRST 虚实体软件与技术 97 36%

—–

六。程序语言。

ACM集中了程序设计语言的许多重要会议,在这些会议的有关信息及中国论文发表情况见下面的两个表。

代号 中文简称 起始年 录取率
POPL 程序语言原理 73 20%
OOPSLA 面向对象程序语言 86 19%
PLDI 程序语言设计与实现 87 22%
PPoPP 并行程序设计原理 90 30%
PPDP 说明式语言与实现 0 46%
ICFP 函数式语言 96 30%
CGO 代码生成与优化 3 32%
PEPM 部分求值和基于语义的程序变换 91 50%
LCTES 嵌入式系统的语言,编译和工具 95 26%

—–

会议代号 中国
论文数
论文总数 中国论文
占总数百分比
美国加州 六个发达
国家平均数
LCTES 0 168 0.00% 13 3
POPL 0 860 0.00% 58 16
PPDP 0 142 0.00% 3 8
OOPSLA 1 1205 0.08% 88 24
ICFP 1 310 0.32% 5 9
PLDI 2 495 0.40% 65 6
PEPM 1 166 0.60% 2 6
PPoPP 2 188 1.06% 24 2
CGO 1 89 1.12% 4 0
Total 8 3623 0.22% 262 74

—–

POPL是程序语言理论方面最高水平的会议,在该会33年历史上,全中国没有一篇论文(包括中国大陆,香港和台湾)。PLDI是语言实现方面最有名
望的会议,PLDI上仅有的两篇论文来自INTEL中国软件中心,作者是普林斯顿大学博士毕业。前面提到,中国在该会上另有一篇非第一作者的论文。面向对
象语言OOPSLA,函数语言ICFP,语言设计以及嵌入式系统语言和编译LCTES均属于语言方面有相当规模的高水平会议。ICFP和OOPSLA两个
会议上各有一篇中国大陆论文, ICFP上的论文作者是软件所Chen Haiming。OOPSLA上唯一的中国论文作者是Yingliang
Zhao,他署名的单位是西安交大和加拿大Regina大学。LCTES则没有中国大陆的论文。PPDP是一个比较新的语言会议,没有中国论文。并行程序
设计PPoPP是一个跨领域的会议,其中的一部分内容是并行语言。该会上有两篇中国论文,一篇来自INTEL上海软件中心,另一篇是中国科技大学与
INTEL编译组合写。PEPM和CGO是语言领域内比较专门的两个方向,这两个会各有一篇中国论文。PEPM上的论文是一个在武汉大学(学习/工作?)
的俄罗斯人的论文,CGO上的论文来自INTEL软件中心。

总体而言,在8篇论文中,INTEL占了5篇(包括与科大合作的一篇),外国人一篇,在中加两个单位同时工作的学者一篇。能够完全算做中国独立完成的论文只有软件所Chen Haiming在ICFP上的论文。

即使按8篇论文计算,中国在语言方面的论文也只有6个发达国家平均值的1/9,美国加州论文数的1/32。如果按1篇论文计算,中国同发达国家平均值的差距是1:72,同美国加州的差距是1:262。    

总体分析

以上是ACM会议里几个比较大的研究领域中中国论文的分布情况。其他研究领域不再一一分析。附录中列出了每个会议的情况。

在本次统计的173个ACM会议(包括会议集)中,中国大陆第一作者的论文总共有713篇,占论文总数83227的0.83%。相比之下,六个发达
国家的平均数为1926篇,美国加州的论文数为7481篇。在713篇中国论文中,大约有90篇是外国研究单位的论文,其中微软73篇,INTEL有9
篇,IBM有6篇,此外还有一部分是中外合作论文,完全由中国独立完成的论文估计在600篇左右。这个统计过程可能有一些误差,但是基本上能够反映中国在
ACM上论文发表情况。

今年,中国已经超过英国、法国成为世界第四大经济体。本文中特别把中国的论文发表情况同除美国之外的六个发达国家进行比较。统计显示,中国独立发表的论文数不到这些发达国家平均水平的1/3,中国的ACM论文发表情况同中国的经济地位不相称。

中国大陆在论文总数上高于亚洲四小龙平均水平,但是在不少重要领域里严重落后于四小龙。前面提到DAC会议论文仅为台湾的1/6;此外在一个与机器
人有关的AGENTS会议上,中国大陆的论文只有5篇,而香港的论文有16篇;CIKM会上中国发表论文16篇,新加坡发表41篇。

根据2005年成都文献情报中心郑颖[3]等人的研究,2003年中国被SCI收录的论文数已达到世界SCI论文总数的4.48%。但是在ACM会
议中,中国论文(包括在中国的外国公司)仅占0.83%,远远落后于中国的SCI论文平均发表水平。在中国论文中,有371篇集中在
AICPS,ASPDAC和MM三个会议中,剩下的论文只有342篇。这些论文占剩余的170个会议的75757篇论文中的0.45%,仅为SCI中国论
文收录率的十分之一。这种情况表明,虽然中国的论文总数相当可观,但是较高水平的计算机科学研究工作依然稀少。

中国科学院自然科学史研究所张利华[2]和成都文献情报中心郑颖[3]等人的研究显示,自90年以来中国的SCI论文发表量以每年两位数的百分比增
长,近年的增长速度达到每年20%。但是在ACM的核心专业会议中却很难看到这种增长,一些专业甚至出现倒退的迹象。比如微体系结构的MICRO会议,在
10多年前尚有9篇论文,而近10年内一篇也没有。

最近十年里,一批核心领域的主干会议上没有一篇完全由中国独立完成的论文。这些会议是:

  • 体系结构方面的ISCA和MICRO会议
  • 程序语言方面的POPL会议
  • 操作系统方面的SOSP会议
  • 数据库方面的PODS会议

MICRO会议和PODS在十年前有中国论文。ISCA在13年前有一篇。POPL,SOSP从来没有中国论文。集成电路方面的DAC会议有9篇论文。软件工程的两个重要会议SIGSOFT,ISCE上共有6篇中国独立论文。

并非所有重要会议都在ACM之中,但ACM在集成电路,体系结构,软件工程已及程序语言方面集中的高水平会议比较多。在这几个大的方向上,中国论文发表的总体情况如下:

会议类别 会议数量 中国
论文数
论文总数 中国论文
占总数百分比
美国加州 六个发达
国家平均数
集成电路 12 143 10817 1.32% 1792 287
软件工程 18 68 15166 0.45% 1495 381
体系结构 8 12 4644 0.24% 501 77
程序语言 9 8 3623 0.22% 262 74

—–

集成电路方面有100多篇论文在亚太地区的ASPDAC会议上。体系结构的8个会议中,中国共11篇文章;在近十年中,在体系结构方面文章数实际上
是零。在程序语言方向的9个会议中,中国共8篇文章,完全由中国独立完成的文章仅一篇。总体而言,中国在集成电路和软件工程两大方向上情况好,体系结构和
程序语言方向相当弱。

ACM在其他几个领域中也有一批相当重要的会议,但是并没有象上述几个大方向那样构成会议群。

这项研究工作只是一个初步的分析,其中对大方向的划分,会议重要性评价等等难免有误。更准确的分析需要专家评定各领域中会议的重要性程度,并且全面
考察包括ACM在内的各个计算机会议中论文发表情况。在此分析的重点是计算机核心领域的会议,计算机应用领域众多,对应用领域的分析不是本次统计工作的重
点。

ACM之外还有许多计算机科学高水平会议,比如体系结构方面的HPCA,HCS;集成电路方面的ISSCC,VLSI;正确性验证方面的
CHARME,CAV;理论方面的LICS,TYPES;数据库方面的ICDT;语言方面的ECOOP;人工智能方面的IJCAI,AAAI;自动推理方
面的CADE等等,参加[8,9,10]。[10]中共列出一千多个大大小小的计算机会议。全面统计计算机高水平会议的工作是很重要的,但是对计算机会议
水平高低的评价尚无一个统一的标准,[8,9,10]中提供了参考的评分,但从专家角度看依然问题很多。本文专注于ACM会议,这样多少能够对中外计算机
科学差距提供一个参考,同时使会议的数量限制在一个容易分析的范围内,此外ACM会议的录取率也为会议评价提供一个较为客观的数据。计算机科学顶级会议的
全面分析是未来需要进行的一项工作。

几点初步意见




一。科研考核需要参考论文录取率。近年来使用SCI论文数的考核方式明显提高了中国的论文数量。但是不同会议的录取率情况相差很大。即使在ACM会议之
间,录取率也很不相同,MM会议2篇投稿取1篇,ISCA会议5篇投稿取1篇,把这些不同录取率的会议论文平等看待显然不公平。如果只考核论文数量,会使
科研人员弃难求易,专注于容易发表论文的领域,从而使许多难以发表论文的重要研究方向成为空白。科研政策应该对录取率低的会议论文,以及填补国家空白的会
议论文给予更多的鼓励。

二。学术研究需要全面发展。中国是发展中国家,经费有限。发展战略上一直有集中发展还是全面发展之争。两弹一星是集中资源发展的成功范例,大跃进则
是过分集中力量于钢铁粮食而导致经济全面倒退的例子。这次统计中发现,多达一半以上的中国论文集中在三个会议中,其余的一半分布在另外170个会议里,发
展情况极不平衡。此外,在超过一半以上的ACM会议中,中国的论文是零。以往的科研政策把研究经费大量集中于少数几个重点单位,但是计算机的分支多如牛
毛,几个单位的力量不可能覆盖所有研究分支。国家对龙芯等重点项目的支持肯定是正确的,但是与此同时也要兼顾其他大学和研究单位的发展。全面发展的一个重
要理由是为了商业化。一个单项成果无论怎样优秀,很难独立成为商品。单项科研成果通常被技术全面的大公司所吸收,然后转化成生产力。在目前情况下,很多研
究工作对中国没有用处,因为没有配套的技术使之转换成商品。所以从商业化角度看,科研的全面发展是必须的。

三。提高学术研究人员的待遇。本次研究显示,中国在计算机科学的基础研究如体系结构和程序语言方面特别薄弱,有些地方甚至出现倒退。比如中国在10
年前有MICRO会议论文,现在反而没有。其中一个重要原因是难以留住研究人才。比如在MICRO上发表了四篇论文的清华大学Bogong
Su先生去了美国。虽然中国近几年中有大批海龟回流,但是他们的绝大部分去了公司或在大学研究所里从事盈利性项目。继续做纯学术研究的海龟虽然有,但数量
相当少。由此造成计算机行业学术研究人才入不敷出。这种现象的一个重要原因是以工资收入为主的人群在最近几年的生活相对贫困化,工资的增长赶不上生活必须
开销的增长。仅以住房为例,上海北京等大城市几年内房价上升二倍到三倍。市区及周边地区房价相当于美国中等城市的房价。这种情况使科研人员难以安心学术研
究,尤其是对青年学者和海龟更是如此。如果待遇问题得不到妥善解决,中国科研人员即使做出成绩,也会很快跳槽
到国外。

四。增加计算机科学研究的投入。本次统计结果显示,中国在集成电路,软件工程,体系结构和程序语言几个大领域中,论文数仅为六个发达国家平均水平的
1/6到1/8。同美国相比差得更远,仅为美国加州的1/30到1/50。如果扣除10年前发表的论文,扣除外国研究单位的论文,这个差距还要大得多。这
种状况同中国现有的经济实力是不相称的,中国至少应该努力使各个会议的论文数达到除美国以外发达国家的平均水平。集成电路设计和软件设计行业是对环境没有
污染,基本不消耗自然资源的行业,这个行业特别适合象中国这样人均资源稀缺的国家,应该得到国家的优先支持。在上世纪初,美国重应用轻基础,但是在60年
代,由于苏联的挑战,促使美国对科研政策做了重大改革,成立了NSF,NASA等机构支持基础科学研究,使得美国的科技发展和经济实力全面领先世界。这一
历史经验应该对中国有所启发。

五。国家提供专款保证所有单位参加一流会议的费用。参加欧美举办的会议费用大约在2500美元左右,一些非重点单位可能难以保证开会的费用,科研人
员也可能顾及到开会的代价而不去投稿。为了鼓励所有科研人员提高研究水平,期望国家对高水平会议的开会费用提供保证。此外,科研必须接触最新资料,应该使
所有学校不论大小都能够不受限制地使用IEEE和ACM的论文数据库。        

结语

李开复先生在致李岚清副总理的信[1]中指出,中国的“研究水平远远落后于国外”,“绝大多数的中国的计算机研究项目在美国都无法拿到经费”。张利
华[2],郑颖[3]等人对中国SCI论文的分析显示,中国高质量的论文较少。虽然中国论文数量在世界排名第8位,然而,平均每篇论文引用率排124位。
本文通过对ACM会议的论文统计,更为具体地分析了中国在一批计算机核心领域同国外的差距。

虽然统计数据显示中国在计算机科学方面非常落后,但同时也显示中国人有能力迅速提高部分领域的科研水平,比如多媒体领域论文数已超过德意法等国。作
者以为,计算机许多专业领域研究水平能否提高取决于这些领域受到重视的程度。目前,填补大量的空白领域是中国计算机科学的当务之急。

从个人素质看,中国人完全有能力做出高水平的研究。比如2000年获得博士学位的海外学者Chen Ding,在PLDI上发表3篇论文,此外还在POPL,ASPLOS,PACT,SC等优秀会议上发表十几篇论文[11]。因此,研究和生活环境对科研成就非常重要。

孙子兵法曰:“知彼知己,百战不殆”。中国要提高计算机科学的水平,了解中国同世界水平的差距是第一步。ACM
专业会议的论文数就好比澳运体育项目的奖牌数。在1984
年的奥运会会上,中国金牌总数5块,排名第11位。当时,中国在许多奥运项目中都是空白。由于举国上下对这些空白点的重视,中国的奥运奖牌数终于在
2004年上升到32块,排名世界第二。期望政府能够象重视奥运那样重视计算机科学的发展,改变计算机科学研究的落后局面。

致谢与补充

本文初稿写出后发布在清华水木论坛体系结构版,多位网友对从专业角度提出许多宝贵意见,并提供了不少有价值的信息。网友zeal和Nittaku介
绍了中国第一篇参加PLDI的文章,并帮助更正了PLDI作者名单位的一个差错;Nittaku还介绍了国内一篇PLDI的工作量是5人3年,另一篇是
15人2年;参考zeal的意见,修改稿突出了PLDI的地位;VegetableGG指出SIGMOD,经核实SIGMOD中只有一篇是中国独立完成的
论文(Qiming Chen 在1986年的论文);网友foxkiki介绍他们单位一个作者参加了一篇PLDI
06论文;wmjbobic介绍SIGMOD06有一篇中国论文;网友ItLeftLittle介SIGGRAPH05年有9篇中国论文,06年有7
篇,hrothgar介绍北大方正技术研究院的zhou
bingfeng在02-03年有一篇siggraph文章,是大陆在该会上的第一篇。由于这些会议资料尚未进入ACM数据库,所以没有正式收进本次统
计。按ItLeftLittle的建议,我们把数据挖掘领域的重要会议KDD加入到软件工程和数据库大类,该会上中国学者表现出色;网友hrothgar
提供一个重要信息,ISCA在90-93年之间有一篇中国论文,经查证ISCA93确有一篇中国论文“The Chinese remainder
theorem and the prime memory system”,作者是Q. S. Gao,由于ACM
网那一年的会议录恰好没有列出作者单位,因此造成统计数据缺漏。Partita介绍了两个国际计算机会议评级网站[8,9],zeal介绍了另一个评级网
站[10]。以上这些信息是对本次统计的重要补充。有几位网友还推荐了ACM之外的几个重要会议, avmilan推荐了安全方面的会议IEEE
&SP
,CCS,ItLeftLittle推荐了人工智能方面的AAAI,IJCAI会议,以及机器学习方面的ICML,NIPS,COLT会议,chip推荐
了电路方面的ISSCC,RFIC
,Symposium,CICC,ISCAS,ASSCC,ESSCIRC。这些提议为以后收集更多会议提供了帮助。此外zeal介绍了Chen
Ding的成就,NavyAnt和zeal提供了GFDL版权方面的建议和有关信息。zeal推荐了解释会议论文比杂志论文更重要的网址。

最后对以上各位以及对本文热情鼓励的网友表示衷心的感谢。文中的错误由作者负责。

参考文献

[1]  李开复致李岚清副总理谈教育
http://www.sx228.com/news0001/200511/20051128_23712.htm

[2]  张利华 藉由SCI的中国学术研究能量之国际比较,中国科学院自然科学史研究

http://www.ihns.ac.cn/zhanlue/wencong/zhanglihua0401.htm

[3] 郑颖 我国科技论文数量和影响力不成比例,成都文献情报中心
http://www.cas.cn/html/Dir/2005/11/23/13/50/99.htm

[4] ACM Proceedings
http://portal.acm.org/browse_dl.cfm?linked=1&part=series&coll=ACM&dl=ACM&CFID=69474979&

CFTOKEN=24508287

[5] 集成电路方面会议列表
http://www.eecs.umich.edu/~brown/conference_list.html

[6] 体系结构方面会议列表
http://www.cs.wisc.edu/arch/www/conferences.html

[7]VLSI Conferences
http://www.eecs.umich.edu/~brown/conference_list.html

[8] Computer Science Conference Rankings
http://www-static.cc.gatech.edu/~guofei/CS_ConfRank.htm

[9] Estimated impact of publication venues in Computer Science (higher is
better) - May 2003 (CiteSeer)
http://citeseer.ist.psu.edu/impact.html

[10] Computer Science Conference Ranking Website
http://www.cs-conference-ranking.org/pages/1/index.htm

[11] Chen Ding Home Page
http://www.cs.rochester.edu/~cding/

[12] http://www.ece.purdue.edu/~vijay/pub.html

[13] Evaluating Computer Scientists and Engineers For Promotion and Tenure
http://www.cra.org/reports/tenure_review.html

附录 中国ACM会议论文分布情况

会议代号 中国论文数 论文总数 中国论文占总数百分比 美国加州 六个发达国家平均数
AFRIGRAPH 0 89 0.00% 1 2
ANSS 0 229 0.00% 8 2
AOSD 0 94 0.00% 1 4
APL 0 828 0.00% 34 22
ASPLOS 0 264 0.00% 41 2
ASSETS 0 198 0.00% 14 5
AVI 0 235 0.00% 13 13
C&C 0 125 0.00% 3 6
CASES 0 196 0.00% 28 4
CCSC 0 453 0.00% 2 0
CFP 0 77 0.00% 8 1
CITC 0 189 0.00% 3 0
CODES 0 398 0.00% 51 14
COLT 0 273 0.00% 18 8
CPR 0 631 0.00% 31 5
CQL 0 55 0.00% 5 0
CUU 0 57 0.00% 3 1
CVE 0 59 0.00% 4 1
DIS 0 237 0.00% 20 3
DPDS 0 40 0.00% 2 1
ECLIPSE 0 67 0.00% 5 2
EMSOFT 0 89 0.00% 14 4
ETRA 0 114 0.00% 5 2
EW 0 359 0.00% 19 9
FMSE 0 26 0.00% 2 0
FMSP 0 24 0.00% 5 0
FPCA 0 88 0.00% 6 1
HOPL 0 38 0.00% 2 0
HWWS 0 122 0.00% 11 3
ICAIL 0 283 0.00% 4 8
IOPADS 0 30 0.00% 1 0
IQIS 0 21 0.00% 2 1
IRTAW 0 130 0.00% 3 2
ISCA 0 992 0.00% 116 11
ISMM 0 71 0.00% 4 1
ISPW 0 74 0.00% 7 1
ISSS 0 322 0.00% 53 14
ISSTA 0 205 0.00% 18 3
ITiCSE 0 991 0.00% 15 19
IVME 0 17 0.00% 4 0
IWSSD 0 173 0.00% 8 4
InfoSecCD 0 58 0.00% 3 0
LCTES 0 168 0.00% 13 3
LFP 0 144 0.00% 6 2
MobiCom 0 376 0.00% 53 6
MobiDE 0 54 0.00% 6 0
MobiSYS 0 71 0.00% 8 0
NOSSDAV 0 114 0.00% 15 1
NPAR 0 53 0.00% 2 0
NPIVM 0 45 0.00% 4 2
NSPW 0 169 0.00% 15 3
PACT 0 67 0.00% 3 0
PADS 0 290 0.00% 25 7
PASTE 0 83 0.00% 3 1
PLI 0 38 0.00% 1 0
PODC 0 849 0.00% 75 13
POMC 0 24 0.00% 0 0
POPL 0 860 0.00% 58 16
PPDP 0 142 0.00% 3 8
PRS 0 24 0.00% 3 0
PVG 0 45 0.00% 5 1
RBAC 0 102 0.00% 1 3
SACMAT 0 183 0.00% 4 6
SASN 0 43 0.00% 5 1
SBCCI 0 111 0.00% 6 5
SCC 0 120 0.00% 9 1
SCCG 0 114 0.00% 1 2
SCM 0 55 0.00% 4 1
SESPSDE 0 91 0.00% 9 2
SETA 0 25 0.00% 1 0
SI3D 0 220 0.00% 13 1
SIGCSE 0 2451 0.00% 103 17
SIGDOC 0 607 0.00% 35 13
SIGFORTH 0 22 0.00% 3 0
SIGSMALL_PC0 162 0.00% 4 5
SIGUCCS 0 1507 0.00% 83 5
SLIP 0 110 0.00% 30 1
SOSP 0 331 0.00% 54 1
SPAA 0 559 0.00% 56 18
SPDT 0 41 0.00% 5 0
SRV 0 3 0.00% 0 0
SSR 0 105 0.00% 8 3
TLDI 0 21 0.00% 2 0
VIS 0 1090 0.00% 96 18
VLDB 0 146 0.00% 15 3
VRML 0 127 0.00% 15 6
WADAS 0 210 0.00% 11 1
WMC 0 25 0.00% 0 0
WORM 0 31 0.00% 5 0
WOSS 0 44 0.00% 6 0
WPDD 0 59 0.00% 4 0
WPES 0 62 0.00% 5 1
WS 0 21 0.00% 3 0
WSNA 0 33 0.00% 9 0
Web3D 0 205 0.00% 16 9
WoWMoM 0 64 0.00% 3 2
XMLSEC 0 24 0.00% 3 1
SODA 1 1580 0.06% 168 43
OOPSLA 1 1205 0.08% 88 24
SC 1 1229 0.08% 143 16
SCG 1 907 0.11% 72 28
CHI 6 4471 0.13% 595 97
ICS 1 729 0.14% 46 20
STOC 2 1465 0.14% 170 20
PODS 1 671 0.15% 75 18
ACM-SE 1 624 0.16% 2 1
ICSE 3 1918 0.16% 129 70
WSC 6 3656 0.16% 245 33
DATE 3 1414 0.21% 120 51
UIST 1 472 0.21% 80 15
ICIS 1 432 0.23% 0 5
COMM 2 817 0.24% 94 14
CSCW 1 407 0.25% 66 10
SIGMETRICS 2 798 0.25% 75 12
CCS 1 371 0.27% 37 11
DAC 9 3281 0.27% 673 59
RECOMB 1 355 0.28% 71 8
EDTC 1 342 0.29% 31 14
AGENTS 5 1619 0.31% 113 48
HT 2 621 0.32% 57 17
ICFP 1 310 0.32% 5 9
ICCAD 5 1483 0.34% 342 25
DL 3 774 0.39% 92 7
PLDI 2 495 0.40% 65 6
EuroDAC 2 487 0.41% 48 26
SIGSOFT 3 675 0.44% 50 21
SIGMOD 8 1790 0.45% 223 35
SIGGRAPH 10 2165 0.46% 190 44
SIGPLAN 1 201 0.50% 13 6
GROUP 2 375 0.53% 31 15
ISLPED 4 746 0.54% 116 17
Hypercube 1 178 0.56% 63 0
MobiHoc 1 179 0.56% 22 2
PEPM 1 166 0.60% 2 6
WOSP 1 164 0.61% 10 8
DocEng 1 159 0.63% 7 9
IMW 1 136 0.74% 21 1
IUI 5 595 0.84% 60 21
EC 2 231 0.87% 41 2
SIGAda 6 655 0.92% 48 9
CSC 11 1150 0.96% 37 11
JAVA 1 101 0.99% 11 2
KCAP 1 101 0.99% 12 4
PPoPP 2 188 1.06% 24 2
FPGA 5 459 1.09% 100 15
SAC 23 2117 1.09% 84 76
MSWiM 3 272 1.10% 15 15
CGO 1 89 1.12% 4 0
VolVis 1 84 1.19% 7 1
DIAL_M 1 82 1.22% 3 2
IEA_AEI 7 536 1.31% 26 18
KDD 9 650 1.38% 66 12
NetGames 1 72 1.39% 1 4
MICRO 9 608 1.48% 68 6
CIKM 16 1014 1.58% 68 30
ISPD 6 338 1.78% 88 5
SM 6 336 1.79% 15 10
GIS 5 277 1.81% 21 13
GLVLSI 7 368 1.90% 34 9
SYMSAC 1 51 1.96% 1 2
DOLAP 2 100 2.00% 0 4
SIGIR 28 1352 2.07% 50 36
Middleware 1 47 2.13% 4 1
ISSAC 17 714 2.38% 23 45
ASE 4 162 2.47% 6 6
CF 3 108 2.78% 7 4
WIDM 3 101 2.97% 4 3
GRAPHITE 5 159 3.14% 0 5
AICPS 167 4333 3.85% 136 174
VRST 12 281 4.27% 13 10
WWW 36 731 4.92% 97 25
MM 102 1727 5.91% 174 58
ASPDAC 102 1410 7.23% 161 47

—–

本文转载和使用需遵循GNU自由文档许可证(GFDL)。

GFDL中文翻译:http://www.linuxfocus.org/Chinese/team/fdl.html

GFDL英文原文:http://www.gnu.org/copyleft/fdl.html

抱歉!评论已关闭.