现在的位置: 首页 > 综合 > 正文

从ACM会议看中国大陆计算机科学与国外的差距– 灵芯

2013年10月09日 ⁄ 综合 ⁄ 共 14069字 ⁄ 字号 评论关闭
2006年4月24
  =================================================================    
  
摘要   美国计算机协会ACM组织了一百多个计算机方面的专业会议,其中包括
计算机科学的多个骨干领域中的顶级会议。本文按第一作者为标准统计中国大陆学
者在历年ACM 会议中的发表情况,着重比较了集成电路,体系结构,软件工程,程
序语言等核心领域内中国同国外的差距。统计结果显示,中国ACM论文数仅占ACM
文总数的0.83%,半数以上ACM会议中没有中国论文,在一批核心会议中,中国论文
数等于零或接近于零。在集成电路设计会议DAC上,中国大陆论文数仅为台湾省论文
数的1/6;在反映计算机设计水平的两大体系结构会议ISCAMICRO里,中国在十年
前尚有若干篇论文,最近十年论文数反而为零;在九个程序语言的会议中,完全由
中国独立完成的论文只有一篇。另一方面,统计显示,在多媒体会议MM上面,中国
论文数远远超过日法意德等国。  

   =================================================================    
                              

        本文分析中国大陆学者在ACM各个会议中论文发表情况。希望以此了解中国
在计算机学科的各个分支中所处的地位。找出那些分支是中国的强项,那些分支是
中国的弱项,那些分支中国还处在空白状态。为计算机科学发展决策提供参考。

         国际计算机科学界普遍认为会议比杂志更重要[812],一些招聘和提职
的指南上特别强调不可重杂志轻会议[13]。在高水平会议上发表论文的难度很大,
据介绍,中科院同INTEL合作的一篇2004年的PLDI会议论文花费了15人两年的工作量,
这也是中国单位第一次参加PLDI会议的论文(不是第一作者)。正因为这些会议对论
文的严格要求,所以被会议录取的论文能够代表专业里的先进水平。

          ACM名下的计算机专业会议涵盖了计算机科学的几个主要分支最高水平的
会议。其中包括集成电路设计方面的DACISSSICCAD会议,体系结构方面的ISCA
MICRO
会议,超级计算方面的SCISC会议,程序语言方面的POPLPPDP会议,操作
系统方面的SOSC会议,数据库方面的SIGMODPODS等等。尽管还有许多重要的会议
不在ACM会议集之中,但是对ACM会议论文发表情况依然可以成为衡量一个国家计算
机科学研究水平的重要依据。

        这项研究工作是业余进行的,所以没有使用那些需要付费的论文数据库系
统。研究方法是使用PERL程序直接从ACM网站[4]上抽取出所有的会议论文网页,再
从这些网页中抽取出每篇论文第一作者所在单位和国别,然后用一个AWK程序计算每
一种会议中各个国家的论文数,最后把各个会议中中国的论文数同其他国家的论文
数进行比较。这个统计方法没有计入中国作者不是第一作者的论文,其中也包括上
面提到的PLDI论文,该文第一作者(执笔人)INTEL的学者。

        由于一些文章的作者单位栏中没有包含国别,所以这项统计只是一个近似
的结果。中国大陆的文章通常写明China,所以遗漏中国论文的情况很罕见。此外,
我们把单位名中包含BeijingPekinShanghai等关键字的记录都统计在中国论文
内。中国台湾省和香港特区作者的单位名中有时也包含China,统计程序把这些记录
都排除。本文中除特别说明之外,中国论文专指只中国大陆学者的论文。统计
中,遗漏其他国家论文的情况相对多一些,比如加拿大多伦多大学有时不标明加拿
大,因此,对其他国家论文数的统计可能偏少,但不会差的很远。美国的单位一般
不含国名,因此目前程序还没有统计美国的论文总数。作为一个替代,程序统计了
美国加州的论文数。程序运行结果表明,美国加州的论文数通常高于其他发达国家
平均数的数倍。下面会看到,中国同美国加州的差距已经很大。

          统计的不精确性的另一个原因ACM网站数据缺漏。个别ACM会议中没有列
出作者单位,比如ISCA92ISCA93;还有一些会议集缺少最近几年的会议,比如SIGGRAPH
03
年之后的会议还没有进入ACM网上数据库。因此有关这些会议的数据不全。尽管有
少量的数据缺失,但并不仿碍这次统计所反映的总体情况。

           网络上抽取论文信息的程序日夜运行整整一个星期,共收集了ACM173
会议总共八万多篇论文。这个收集工作包含了大部分ACM会议,个别只有一两年会议
历史,尚无历史文档的会议没有统计在内。附录中列出在每个会议中中国的论文数,
占总数百分比以及同国外的比较。

          统计结果显示,在这173个会议中,中国论文超过100篇的会议有三个,
它们是:

会议              中国            占总数    美国       六个发达国家
代号              论文数          百分比    加州              平均数

AICPS             167             3.85%        136             174
ASPDAC            102             7.23%        161            
47
MM                102             5.91%        174             58
          
          
上表中的中国论文数指中国大陆学者在该会议中历年发表的论文总和。
为了比较,我们同时列出中国论文数占会议论文总数的百分比,美国加州在该会议
中的论文总数,六个发达国家(德,法,意,加拿大,澳大利亚和日本)论文总数的
平均值。该表显示中国在这三个会议中的情况比较好,论文数超过或接近几个发达
国家的平均水平。但是在ASPDACMM会议中只有美国加州论文数的2/3
        
          
在上述三个会议中,AICPS是一大批会议的总和,其中有些是地区性会议,
有些是近年的专业会议;ASPDAC是亚太地区的集成电路设计会议。虽然地区性会议
不一定代表专业领域的最高水平,但是上述数据也表明中国在集成电路研究方面的
活跃。在该会中,清华大学表现最为出色,论文数为56篇,占了中国论文数的一半
以上。MM是国际多媒体会议,在这个会议上中国论文数超过六个发达国家平均数几
乎一倍,说明中国已在这一领域进入国际先进行列。在MM中国论文中,微软中国研
究所36篇,清华27篇,其次是中国科大和浙大。

          中国论文数在10篇到99篇之间的会议有8个,它们是:

会议             中国      论文         中国论文   美国          六个
代号             论文数   总数      占总数百分比   加州       发达国家
                                                            均数
SIGGRAPH         10     2165         0.46%      190            44
CSC              11     1150         0.96%       37            11
VRST             12      281         4.27%       13            10
CIKM             16     1014         1.58%       68            30
ISSAC            17      714         2.38%       23            45
SAC              23     2117         1.09%       84            76
SIGIR            28     1352         2.07%       50            36
WWW              36      731         4.92%       97            25

        其中互联网会议WWW和虚实体软件会议VRST的论文数超过论文总数的4%,也
超过了六个发达国家的平均数。VRST中表现突出的是浙江大学,占了12篇论文中的
7
篇。其次是符号代数计算会议ISSAC,信息检索会议SIGIR以及信息和知识管理会议
CIKM
,中国论文数占总数的1.58%2.38%之间。图像学和交互式系统会议SIGGRAPH
然有10篇论文,但只占会议论文总数的0.46%,是发达国家平均数的1/4,是美国加
州论文数的1/19。在这个领域中国同国际水准差距很大。CSC(计算机科学)SAC(
用计算)两个会议从名字上看难以归入专业会议,其水平需要内行专家来评价。

        在上述中国论文中,有很大一批是微软中国研究院的论文,还有一些
是中国研究单位同国外合作的成果。比如SIGGRAPH 10篇论文中有9篇来自微软,
另一篇文章是复旦大学同美国加州DAVIS 大学合作成果。微软中国的论文在WWW中占
9篇,在SIGIR中占了12篇。

       如果按论文占会议总数的百分比排列,那么中国论文占论文总数2%以上的会
议一共有13个:


会议             中国      论文         中国论文   美国          六个
代号             论文数   总数      占总数百分比   加州       发达国家
                                                            均数

DOLAP             2      100         2.00%        0             4
SIGIR            28     1352         2.07%       50            36
Middleware        1       47         2.13%        4             1
ISSAC            17      714         2.38%       23            45
ASE               4      162         2.47%        6             6
CF                3      108         2.78%        7             4
WIDM              3      101         2.97%        4             3
GRAPHITE          5      159         3.14%        0             5
AICPS           167     4333         3.85%      136           174
VRST             12      281         4.27%       13            10
WWW              36      731         4.92%       97            
25
M
M              102     1727         5.91%      174            58
ASPDAC          102     1410         7.23%      161            47

        

会议             中国      论文         中国论文   美国          六个
代号             论文数   总数      占总数百分比   加州       发达国家
                                                            均数

CODES             0      398         0.00%       51            14
ISSS              0      322         0.00%       53            14
SBCCI             0      111         0.00%        6             5
DATE              3     1414         0.21%      120            51
DAC               9     3281         0.27%      673            59
ICCAD             5     1483         0.34%      342            25
EuroDAC           2      487         0.41%       48            26
ISLPED            4      746         0.54%      116            17
FPGA              5      459         1.09%      100            15
ISPD              6      338         1.78%       88             5
GLVLSI            7      368         1.90%       34             9

总计            41     9296         0.44%     1625          235
      
      
在这些会议中,清华大学的论文数为21篇,占中国论文数一半以上。显示出

清华大学在集成电路研究方面的国内领先地位。尤其是在物理设计领域,清华占了
6
篇论文中的5篇。另外,复旦大学在FPGA领域比较突出,占了5篇论文中的3篇。

       整体而言,中国在上述集成电路会议中的论文数不到六个发达国家平均数的
1/5
,相当于美国加州论文数的1/40。相比之下,中国在物理设计(ISPD)和可编程逻
(FPGA)方面情况稍好,在系统设计(CODESISSSSBCCI)方面的研究最差。其次
是设计测试(DATE)和设计自动化(DACICCADEuroDAC)

       加上ASPDAC会议,中国论文占论文总数的1.32%

       下面是这几个会议的中文简称,开始年份和论文录取率情况。

代号              中文简称                      起始年    录取率

ASPDAC          亚太地区设计自动化               95            
CODES            
软硬件协同设计
                94         30%    
ISSS              
系统综合
                      94         35%
SBCCI              
集成电路与系统设计
           97         34%
DATE              
设计与测试
                    98         21%    
DAC              
设计自动化
                    64         30%      
ICCAD            
辅助设计
                      92         26%      
EuroDAC          
欧洲设计自动化                 90        

ISLPED            
低功耗设计                     95         32%        
FPGA              
可编程逻辑
                    95         50%        
ISPD              
物理设计                       97        

GLVLSI            
大湖区集成电路                 00        
      
        
二。体系结构

       在体系结构方面,中国的论文发表情况比集成电路更差。在有33年历史的计
算机体系结构权威会议ISCA中,中国的论文数是只有一篇,发表在1993年,作者是
Q. S. Gao
。 在微体系结构会议MICRO上,中国有9篇论文,占论文总数的1.48%,这
些论文都是在1994年之前的,大部分是在85年到88年之间所做,95年之后一篇论文
也没有。仅从论文数量看,最近十年中国在体系结构方面的学术研究不但没有前进,
反而出现倒退。这种情况可能同中国当前的芯片热有关,许多研究人员转向了
芯片的产品开发,离开了体系结构的学术研究。另一个原因是有能力在这些重要会
议上发表论文的学者转到了国外,比如在MICRO上发表了4篇论文的清华学者Bogong
Su
先生,现在在美国William Paterson 大学工作,总共发表了34篇论文。

        下面是ACM会议中几个主要的体系结构有关的会议中,中国论文的发表情况:

会议             中国      论文          中国论文          美国        六个发达国家
代号             论文数    总数      占总数百分比          加州              平均数

ASPLOS            0        264         0.00%                 41             2
CASES             0        196         0.00%                 28             4
ISCA              0        992         0.00%                116            11
PACT              0         67         0.00%                  3             0
SPAA              0        559         0.00%                 56            18
SC                1       1229         0.08%                143            16
ICS               1        729         0.14%                 46            20
MICRO             9        608         1.48%                 68             6

Total            11       4644         0.24%                501            77

         由于在ACM网站上没有ISCA02ISCA03两个会议的作者单位,所以这两个
会议的论文数和国家分布情况没有出现在上表。ISCA03中恰好有一个中国作者,所
以,ISCA中国论文数应为1

         在这七个会议中,中国在四个会议中的论文数是空白。超级计算会议SC
唯一的一篇论文是北京基因组研究所的计算机应用论文,不能算作体系结构方面的
论文;另一个超级计算会议ICS的论文是计算所编译组同INTELDELWARE大学合作的
论文;MICRO方面的9篇论文是10年前的论文,ISCA唯一的论文在13年以前。换句话
说,中国在最近十年内,在ACM体系结构方面的论文是空白。

       当然,这并不等于说中国在体系结构学术研究方面是空白。在ACM之外,还
有相当一批重要的体系结构会议,比如ISCISHPCAICCDASAP等等。但是中国在
ACM
会议中的情况,毕竟反映出中国在体系结构方面研究力量的薄弱。
另外,下表显示,ACM这几个会议都是论文竞争相当激烈的会议,尤其ASPLOSISCA
MICRO
这几个历史长久的会议,录取率仅在20%,五篇论文中只录取一篇。中国在这
些会议中没有论文,至少说明中国缺乏高水平的研究工作。

       下面是上述ACM体系结构会议的中文简称以及论文录取率等信息:

代号             中文简称                          起始年    录取率                  
ASPLOS            
对语言和操作系统的体系结构支持
     73         20%
CASES            
嵌入式系统编译,体系结构和综合
     00         25%
ISCA              
体系结构
                           73         20%
PACT              
并行体系结构及编译技术              93        

SPAA              
并行算法和体系结构                  89         37%
SC                
超级计算
                           88         24%
ICS              
超级计算
                           89         30%
MICRO            
微体系结构
                         73         20%

     三。软件工程,数据库和人机界面。

     在这个栏目下面,我们把软件工程,数据库,交互式系统,文档,超文本的会
议都放在一起。这种分类可能会有争议。但是从我们提供的数据中不难分析出各专
门领域的情况。下面是归在此类的所有会议:

代号             中文简称                           起始年    录取率                  
ISSTA            
软件测试与分析
                     73         20%
SIGSOFT         
软件工程基础
                        82         25%
ICSE            
软件工程
                            76         17%
PODS             
数据库系统原理
                      82         22%
SIGMOD           
数据管理
                            74         17%
VLDB             
超大规模数据库                       82        

KDD              
数据中知识挖掘                       99        14%
SIGIR            
信息检索
                            71         20%
SIGDOC           
计算机文档
                         82         50%
UIST             
用户界面软件与技术
                   88         21%
ICIS            
信息系统                            89        

IUI             
智能用户界面                        89         30%
CHI             
计算机系统中人的因素
                77         20%
DIS             
交互式系统设计                      95        

HT              
超文本                             87         40%
SV               
软件可视性
                        73         20%
SSR              
软件可重用性
                       95         43%
SCM             
软件配置管理(workshop)              89        

WOSP            
软件与性能(workshop)                98         55%

          在这些会议中ISSTASIGSOFTICSE是软件工程方面的主干会议,论文
录取率在20%左右。在这三个会议中,中国的论文总数是6篇,占全部论文数的0.21%
其中SIGSOFT的三篇文章全部是北大的。ICSE中也有一篇北大文章。

       SIGMODPODS是数据库方面的主要会议。前者录取率为35%,其中有9篇中国
论文;后者录取率只有18%,该会议上唯一的一篇中国论文是重庆大学Ke Wang所写
的论文,但时间是17年前。知识挖掘会议的录取率只有14%,但上面有9篇中国论文,
数量同发达国家平均数接近。

       SIGIR信息检索会议是这批会议中中国论文最多的一个会议,中国共有28
论文,占总数2%多。在这批论文中,微软占了12篇,其次是清华大学5篇,其中有2
是同微软合作成果。

       在用户界面会议方面,中国在IUI会上的论文占论文总数0.84%,这个比例在
各个会议中占第二名。IUI5篇中国论文中有3篇出自北京中科院。

会议             中国      论文         中国论文   美国          六个
代号             论文数   总数      占总数百分比   加州       发达国家
                                                            均数

DIS               0      237         0.00%       20             3
ISSTA             0      205         0.00%       18             3
SCM               0       55         0.00%        4             1
SIGDOC            0      607         0.00%       35            13
SSR               0      105         0.00%        8             3
VLDB              0      146         0.00%       15             3
CHI               6     4471         0.13%      595            97
PODS              1      671         0.15%       75            18
ICSE              3     1918         0.16%      129            70
UIST              1      472         0.21%       80            15
ICIS              1      432         0.23%        0             5
HT                2      621         0.32%       57            17
SIGSOFT           3      675         0.44%       50            21
SIGMOD            8     1790         0.45%      223            35
WOSP              1      164         0.61%       10             8
IUI               5      595         0.84%       60            21
KDD               9      650         1.38%       66            12
SIGIR            28     1352         2.07%       50            36

Total            68     15166     0.45%     1495          381

         在这18个会议中,中国在6个会议中尚处空白状态。另外,CHI6篇文章
5篇是微软的,另外1篇来自IBM中国研究所。PODS上的文章是17年前的。所以,在
最近17年中,中国实际上在8个软件会议中是空白。其他几个会议,除SIGIR 以外,
论文数量占会议论文总数的百分之一以下。在软件工程这个领域中,中国论文数是
六个发达国家平均数的1/6,是美国加州的1/23

     四。操作系统,网络通讯和分布式计算。

      在这个栏目下面我们很勉强地把操作系统会议SOSP,通讯会议COMM和分布是
计算会议PODC放在一起。这几个领域不象其他行业那样有一大批相关的ACM会议。然
而这几个会议历史都很长,率取率也比较低。SOSP会议是一个有将近40年的操作系
统会议,在此会议上中国论文一篇也没有。分布式计算会议PODC上也没有中国的论
文。COMM上有两篇中国论文,一篇来自国防科大,另一篇来自南京通讯工程学院。
国防科大的文章发表在2003年,当年的录取率仅为11%,几乎是10文章中挑选1篇;
南京通讯工程学院Guo Chuanxiong的文章发表在2001年,当时的录取率为9%

代号             中文简称                           起始年    录取率

SOSP            操作系统原理                            67         18%
COMM          
计算机通讯的应用技术和体系结构
           69         11%
PODC          
分布式计算原理
                           82         30%

会议             中国      论文         中国论文   美国          六个
代号             论文数   总数      占总数百分比   加州       发达国家
                                                            均数

PODC              0      849         0.00%       75            13
SOSP              0      331         0.00%       54             1
COMM              2      817         0.24%       94            14

Total             2     1997         0.10%      223           28

     SOSP上不但没有大陆的论文,也没有台湾和香港的论文。PODC上有两篇台湾论
文,一篇香港论文。

  五。图形学与多媒体

      在虚拟实体会议VRST和多媒体会议MM上,中国的情况比较好,非常罕见的能
够占到论文总数的4%--6%之间。VRST上的论文都是中国自己独立完成的,MM上虽然
32篇微软的论文,但中国自己的论文还是占了大多数。图形学本身的论文情况接
近空白。SCG上唯一的一篇论文是明尼苏达大学同北京中科院合写的文章,SIGGRAPH
上有8篇文章出自微软,1篇出自IBM,另一篇是复旦与美国DAVIS大学合作。SIGGRAPH

文收集到02年以前,之后的会议还没有进入ACM网站。      

会议             中国      论文         中国论文   美国          六个
代号             论文数   总数      占总数百分比   加州       发达国家
                                                            均数

PVG               0       45         0.00%        5             1
SCCG              0      114         0.00%        1             2
SI3D              0      220         0.00%       13             1
SCG               1      907         0.11%       72            28
SIGGRAPH         10     2165         0.46%      190            44
VRST             12      281         4.27%       13            
10
M
M              102     1727         5.91%      174            58

Total           125     5459         2.29%      468          144

代号             中文简称                           起始年    录取率

PVG           并行和大规模数据可视性                 99        
SCCG         
图形学                                73        
SI3D         
交互式3D图像                          87         27%
SCG          
计算几何
                              85         35%
SIGGRAPH      
图像与交互式技术                       74        

MM            
多媒体                                93         48%
VRST          
虚实体软件与技术
                      97         36%

    六。程序语言。

         ACM集中了程序设计语言的许多重要会议,在这些会议的有关信息及中国
论文发表情况见下面的两个表。

代号             中文简称                       起始年    录取率

POPL            程序语言原理                      73         20%
OOPSLA          
面向对象程序语言
                 86         19%
PLDI            
程序语言设计与实现
               87         22%
PPoPP           
并行程序设计原理
                 90         30%
PPDP            
说明式语言与实现
                 00         46%
ICFP            
函数式语言
                      96         30%
CGO             
代码生成与优化
                   03         32%
PEPM            
部分求值和基于语义的程序变换
     91         50%
LCTES           
嵌入式系统的语言,编译和工具
     95         26%

会议             中国      论文         中国论文   美国          六个
代号             论文数   总数      占总数百分比   加州       发达国家
                                                            均数

LCTES             0      168         0.00%       13             3
POPL              0      860         0.00%       58            16
PPDP              0      142         0.00%        3             8
OOPSLA            1     1205         0.08%       88            24
ICFP              1      310         0.32%        5             9
PLDI              2      495         0.40%       65             6
PEPM              1      166         0.60%        2             6
PPoPP             2      188         1.06%       24             2
CGO               1       89         1.12%        4             0

Total             8     3623         0.22%      262           74

         POPL是程序语言理论方面最高水平的会议,在该会33年历史上,全中国没
有一篇论文(包括中国大陆,香港和台湾)PLDI是语言实现方面最有名望的会议,
PLDI
上仅有的两篇论文来自INTEL中国软件中心,作者是普林斯顿大学博士毕业。前
面提到,中国在该会上另有一篇非第一作者的论文。面向对象语言OOPSLA,函数语
ICFP,语言设计以及嵌入式系统语言和编译LCTES均属于语言方面有相当规模的高
水平会议。ICFPOOPSLA两个会议上各有一篇中国大陆论文, ICFP上的论文作者是
软件所Chen HaimingOOPSLA上唯一的中国论文作者是Yingliang Zhao,他署名的
单位是西安交大和加拿大Regina大学。LCTES则没有中国大陆的论文。PPDP是一个比
较新的语言会议,没有中国论文。并行程序设计PPoPP是一个跨领域的会议,其中的
一部分内容是并行语言。该会上有两篇中国论文,一篇来自INTEL上海软件中心,另
一篇是中国科技大学与INTEL编译组合写。PEPMCGO是语言领域内比较专门的两个
方向,这两个会各有一篇中国论文。PEPM上的论文是一个在武汉大学(学习/工作?
)
的俄罗斯人的论文,CGO上的论文来自INTEL软件中心。

         总体而言,在8篇论文中,INTEL占了5(包括与科大合作的一篇),外国
人一篇,在中加两个单位同时工作的学者一篇。能够完全算做中国独立完成的论文
只有软件所Chen HaimingICFP上的论文。

       即使按8篇论文计算,中国在语言方面的论文也只有6个发达国家平均值的1/9
美国加州论文数的1/32。如果按1篇论文计算,中国同发达国家平均值的差距是1
72
,同美国加州的差距是1262    

                                                             总体分析

          以上是ACM会议里几个比较大的研究领域中中国论文的分布情况。其他研
究领域不再一一分析。附录中列出了每个会议的情况。

          在本次统计的173ACM会议(包括会议集)中,中国大陆第一作者的论文总
共有713篇,占论文总数832270.83%。相比之下,六个发达国家的平均数为1926篇,
美国加州的论文数为7481篇。在713篇中国论文中,大约有90篇是外国研究单位的论
文,其中微软73篇,INTEL9篇,IBM6篇,此外还有一部分是中外合作论文,完
全由中国独立完成的论文估计在600篇左右。这个统计过程可能有一些误差,但是基
本上能够反映中国在ACM上论文发表情况。

         今年,中国已经超过英国、法国成为世界第四大经济体。本文中特别把中
国的论文发

抱歉!评论已关闭.