如果不用定量指标,那么就只能回到完全主观的字面评价上,这将为人为操控提供更大的空间。要防范量化指标带来的学术腐败,就要把人为操控放到舆论监督之下。
撰文 | 顾凡及(复旦大学生命科学学院退休教授)
今年5月22日,《返朴》转载了一篇题为《h-index遭其发明者猛烈批评:扼杀学术创新,带来严重负面影响》的文章,联系到2月26日《返朴》发表的《两部发文,破除得了SCI崇拜吗?》一文,两者都提到了学术评价指标的负面影响问题。最近,笔者正好刚翻译了老友彼得·埃迪(Peter Erdi)教授的新著《排名》[1],书中有部分内容把这一问题放到当今社会上无所不在的排名框架里,讨论其中的得失,很受启发。所以也想趁机对这个问题发表一点看法,就正于读者和一切对这一问题感兴趣的人。
老鼠效应和眼镜蛇效应笔者以为,过度否定这些指标或过度依赖这些指标都是错误的。错是错在“唯”和“至上”上,而不在指标本身,虽然任何指标都不会完美无缺。不管你喜欢与否,出于对资源合理分配的需要,无论是基金资助、奖励、职称评定、晋升、录取等等,社会或机构都必须对学术成果进行评价,不是制定出某些定量指标作为评价的度量,就是用语言做主观的描述。人们之所以偏爱定量指标就是因为相信其有客观性,以为它能给出客观、公正的评价;而人们之所以抨击这些定量指标,也是因为这些貌似客观的指标中其实都或多或少隐藏有主观的成分,或至少只是从一个片面来进行评价,这就给人以利用和操控的机会,从而隐藏着学术腐败,助长片面追求某个指标而扼杀创新的风险。
其实不仅是定量指标而已,任何评价体系如果不加小心,都会产生这样的风险。历史上的老鼠效应(rat effect)就是这样的例子。在法国统治越南期间,河内城里到处都是老鼠。为了减少老鼠的数量,殖民当局实施了一项政策,按该项政策只要杀死老鼠就可以得到报酬。人们只需把老鼠尾巴交给当局就可以拿钱,于是人们不杀老鼠,只是把老鼠的尾巴割掉,然后放回下水道,让老鼠继续繁殖,以确保杀鼠者获得更多的利润。这样老鼠不仅没有减少反而增多了。眼镜蛇效应(cobra effect)则是另一个例子。在英国殖民当局统治印度期间,为了消灭大量的毒蛇,英国政府规定每杀死一条蛇,都会给予报酬。这一政策最初效果不错,但当地人开始饲养蛇,以确保他们能继续领钱。英国当局不得不停止这一计划,人们就把蛇放掉,这样该地区的眼镜蛇比以前更多了。[2]定量指标如果使用不当则可能火上浇油,加剧这种风险。
美国社会学家和心理学家唐纳德·坎贝尔(Donald Campbell)总结了这些现象,他声称:"任何量化的社会指标越多被用于社会决策,就越容易受到腐败压力的影响,就越容易扭曲和腐蚀它所要监测的社会进程。"这被称为坎贝尔定律。[3]他以考试成绩为例做了进一步的说明:"在以通识为目标的正常教学条件下,考试成绩可以当做衡量学校总体成就的有用指标。但是,当考试分数成了教学过程的目标时,它们既失去了作为教育状况指标的价值,又以我们所不希望的方式扭曲了教育过程。"[3]这就是我们经常所说的“应试教育”的弊病。
来源:《科研圈》
考试分数是评估教学或学生质量的定量指标,而发表在SCI期刊上的论文篇数、文章的引用率、h-指数则是对学术水平或研究人员的定量评估。我们并不因为应试教育的弊病就废除高考,同样理由也不能因为后者所可能带来的学术腐败就一概否定这些指标。大家都知道,我们曾经废除过高考,而实行由单位报送进大学,在后一种方式下自然不再有定量评估指标了,但是结果大家是都知道的,腐败程度更为严重,这才不得不重新恢复高考。而且大家都承认,虽然高考也确实带来了盛行应试教育的风险,但是却是所有方法中相对说来最公平的方法。因此从评估来说,其实没有万全而完美无缺的方法,只能寻求相对公正而客观的方法。西谚所说:“The best is the enemy of good”或可译为“过于追求完美反而得不到好结果”,我想是有一定道理的。所以,各种指标虽然都只是从一个侧面进行评估,而且其中也都包含了主观的因素,但是从某种意义上说来,它们至少比纯粹的主观评价要好。当然我们也必须清醒地认识到,所有指标都只反映了一个侧面,并且不可避免地有主观因素,至少为什么仅仅选取这一侧面,而不选取其他侧面就是主观的。因此在应用时必须谨慎,最好要考虑多个指标,并和其他手段结合起来应用。尽管如此,主观性依然不能完全避免,比如当考虑多个指标时,根据各个指标的重要性而赋予不同的权重就包含主观性。
认清指标局限但不能一抛了之现在就来看看在SCI期刊上发表的论文篇数、影响因子和h-指数这些指标各反映了什么侧面及其局限性。
在SCI期刊上发表的论文篇数是最粗糙,但是也经常被用到的一个评估指标。这个指标主要反映了作者科研活动量的方面,因此也是局限性比较严重的一个指标,这就是为什么号称“SCI之父”的加菲尔德(Eugene Garfield)博士自己也认为,以SCI论文数量评价科学水平是不合适的。评估人、包括评估一个机构或期刊,需要用多个科学评估标准而不是一个评估标准来评估。人们必须摒弃急功近利的思想,必须重视论文的质量而不是数量,要重视论文被引用的情況。[4]当然也不能说发表在SCI期刊上的论文篇数一点也不反映质量,这是因为期刊要被SCI收录需要经过对该期刊最近3年所发表的文章的引用情况的审查,质量很差的期刊是通不过这一审查的。SCI期刊的问题是缺乏退出机制,某个期刊一旦进入SCI检索之后,除非出现持续的严重丑闻,否则不会被剥夺SCI检索资格。因此一份杂志在申请SCI检索期间可能非常谨慎,编辑部会非常注意发表文章的质量,但是一旦进入SCI检索之后,主编就可能对其“哥儿们”网开一面,特别是在评审制度中唯SCI篇数的情况下,给无法通过正常途径在SCI期刊上发表文章的作者在本期刊上取得有SCI论文的光鲜是很大的人情,这可能为主编建立自己的关系网,谋取国内地位有很大的好处。有些主编甚至在本人主编的SCI期刊上大量发表自己和自己团队的论文,以谋取私利。这正是坎贝尔定律所担忧的情况。
影响因子被认为是衡量学术期刊影响力的一个重要指标。其定义是某期刊前两年发表的论文在统计当年(U)的被引用总次数X(前两年总被引次数)除以该期刊在前两年内发表的论文总数Y(前两年总发文量)。[5]一般认为影响因子是衡量期刊学术影响力大小的指标。当然严格地讲,影响因子只是期刊上所发表的文章受到引用的情况,这种情况如果不受操纵,那么确实和该期刊上所发表的文章受到读者的关注度有关,因此,在一定程度上也是对其质量的某种度量。但影响因子的重要性只是间接体现的,实际上一份杂志的影响因子和其所在领域有很大的关系,例如一般说来,数学杂志受到社会关注的程度要远小于医学杂志受关注的程度。而受关注程度也是间接体现的,这就给人为操纵以可乘之机。例如有的主编在给作者发修改通知函时会要求作者增加引用本刊上发表过的文章。虽然后来人们采取排除自引率这样弄虚作假的因素,但有的主编依然可能在给其编委发信时要求这些编委在他们自己的杂志中多引用本刊发表的文章,当然作为利益交换他们也会多引用这些编委主编的杂志的文章。
h-指数中的h则是兼顾发表文章的数量和引用情况的一个指标,如果一个作者发表了H篇被引用了H次或以上的文章,那么最高的那个H值就是这位作者的h-指数。[6]比起发表SCI论文的篇数和引用情况的单个指标来说,h-指数兼顾了这两个方面,但是其定义显然有很大的人为性,实际上也是在综合前两个指标中加了权,而加权就带来主观因素。
应该注意的是,以上指标都是对论文的评估,如果科学技术的成果主要不是论文,那么要求用这样的指标来评估这些成果就完全是不合适的。例如保密的高精尖技术根本就不发表,因此也就根本谈不上SCI论文篇数、引用率或h-指数,但是有谁能否认这些技术的重要性呢?还有某些给社会带来巨大产能的技术也有类似的情况。要想用上述定量指标来评价这些成果显然是牛头不对马嘴。不过这些并不是这些指标本身的问题,而是使用的人用错了地方。
本文开头提到的赫希对自己所提出的h-指数的抨击中,他认为自己亲手创造的这个指标已经对自己的职业生涯和学术界的创新造成了损害,“它也会大错特错,产生意料之外的严重负面影响。”例如h-index 会树立某种权威,足以让一个学科止步不前。又如在他自己发表的论文中,被引数和研究的重要性完全不对等。
乔治·赫希|图片来源:Nature Index
赫希的这种反思精神固然可敬,不过h-指数并没有带来比引用率更多的问题,甚至可以说他所抨击的现象只要采取定量指标就都会或多或少地存在。那么,是否因为像坎贝尔定律所指出的定量指标带来的潜在风险就根本废弃这些指标呢?笔者以为这正如倒掉洗澡水而把婴儿也一起倒掉一样不妥。如果不用定量指标,那么就只能回到完全主观的字面评价上,这将为人为操控提供更大的空间。世界上没有十全十美的评估方法,正如社会上流传的话:“上有政策,下有对策。”要想制定出一种下面找不到任何“对策”的政策几乎是不可能的,但是人们不会因此说不要再制定政策了。
总而言之,我们依然应该使用定量指标,但是在使用时要谨慎,应该明白所用指标的真正含义,以及可能受人操控的危险。对付这种风险只能把操控放到舆论的监督之下。要想制订出一种能十全十美的完全客观的评估指标,这只是一种幻想。千万不能唯指标或指标至上,但也不能不用指标。
参考文献
[1] Erdi P (2019) Ranking: The Unwritten rules of the Social Game We All Play. Oxford University Press. 笔者已译出中文,将由上海教育出版社出版,书名还未最后定下来,但是少不了关键词“排名”。
[2] https://en.wikipedia.org/wiki/Cobra_effect
[3] Campbell, DT.(1979) Assessing the impact of planned social change. Evaluation and Program
Planning. 2 (1): 67–90.
[4] SCI之父:不能以SCI论文数量评价科学水平。人民網-《人民日報》2009年09月15日07:59 http://scitech.people.com.cn/BIG5/10052660.html
[5] Impact factor (https://en.wikipedia.org/wiki/Impact_factor )
[6] h-index (https://en.wikipedia.org/wiki/H-index)