购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第二章
绩效考核的科学性问题

从20世纪20年代至80年代,在工业试验环境中测量工作绩效,一直是心理学家关注的焦点。绩效描述和预测在所有人力决策中起着以下重要作用:(1)判断管理是否有效;(2)判断培训员工是否有效;(3)判断员工的相对价值排序是否有效;(4)判断用于绩效反馈的信息是否有效;(5)判断惩戒员工是否有效;(6)判断员工绩效考核过程是否用于薪酬管理;(7)判断员工是否满意 。而做出这些判断的前提是,绩效考核具有一定的准确性,可以真实地反映出员工的绩效水平。20世纪,美国组织评价员工的主要方法是评级。在许多标准下,对绩效的判断、测量都被广泛使用 。因此,判断(Judgement)是考核主要的评价方式,如何做出客观的判断就是关键问题。

认识到绩效测量的重要性和实际准确地测量绩效是两件不同的事情。在日常管理中,比较强调考核的程序和动作是否发生,但是并没有特别在意考核中的行动是否真的导致考核的准确性——是否有考核这个动作和考核是否会达到效果,不是一回事情。在某种理想的意义上,完整的绩效测量包括目标与人员考核指标的组合。不幸的是,很难获得许多职位的客观绩效指标。此外,人力资源信息只适用于组织中的一小部分员工(例如,5%的员工可能发生100%的事故,不到8%的员工可能每年有一次以上的无故缺勤,迟到记录没有被很好地保存等)。完整的绩效考核需要具备每一个岗位的客观评价标准。

学者们进行了大量的研究,试图提高绩效考核指标的有效性。这些研究涵盖了各种各样的问题,如评估者和被评估者的个体差异、量表格式及类型、判断过程的条件等。本章将主要从绩效考核方法的科学性问题、评级的不完整性问题、角色问题和量表问题等方面展开,探讨绩效考核的科学性问题。

第一节 绩效考核方法的科学性问题

Thorndike于1915年对两个工业公司员工的一项研究表明,同一个人的智力、勤奋、技能、可靠性等不同特点是高度相关的。评估者在对其进行评级时,往往不能将这些不同的特点拆分开进行独立分析和评价,此时的整体评级显然会受到某一种明显特点的倾向的影响,认为这个人总体上相当好或相当差 。例如,在由Walter.Dill.Scott设计的评级要求中,需要对137名飞行学员的身体素质、智力、领导力和个人素质(包括性格)分别进行独立评定。但在最终分析飞行指挥员的评定结果时发现,智力等级与剩下三个类别的相关性均高于实际情况。Thorndike于1920年在人类历史上提出了心理评级中的常见偏差问题——晕轮效应。如何才能使绩效考核评级更具有科学性呢?Rugg于1921年提出,开发并使用评级量表改进评级技术,可以使“实验性”评级更加有效 。因此,评级的有效性与评级量表的质量、评级的方法密切相关。为了确保绩效考核的有效性,使评级结果更加科学,需要关注评级量表的有效性和评级方法的契合性。

针对评级量表的设计和评级方法的科学性问题,Rugg提出了点数等级排名法。即在进行评级排序时,可以将评级量表中需要评价的问题细化为多个维度,再将每个维度细化为多个指标,采用7点计量法的方式对每个指标进行打分,最后加总得出最终得分,使评级过程更加客观化,并可以体现出每个维度的得分结果。绩效考核的目的是给被评估者的改进提供客观诊断依据,而采用上述方式进行排序,可以客观体现出每位被评估者在各个维度上的优势和不足,从而使排序结果更具有效性,并为被评估者的改进提出更细化的指导性建议。但是,并不是所有需要评级的情况都需要进行加权计算。针对不需要按照等级进行排序的情况,可以不采用点数等级排名法,直接对需要判断的内容进行提问(例如,请老师评价某位学生是否诚实);针对需要简单区分级别的情况,可以按照高、中、低三个等级进行评价(例如,按照优、良、差三个等级对学生的各项表现进行评价)。

此外,评估者对评级结果的有效性至关重要。找到判断准确的评估者可以有效提高评级的有效性。在绩效考核评估时,应仔细甄选评估者,只聘请完全胜任的人进行评估;在进行评估时,需要确保评估者对评估内容和被评估者的充分了解。

Rugg基于对性格测量和评级的研究,指出由于性格是复杂的特质,需要用点数等级排名法进行科学分析、客观评价,而非主观地直接判断或评级。同样,与性格类似,绩效考核往往由多个维度组成,每个维度中又涉及多个考核指标,属于复杂的评级类型。因此,对于绩效考核而言,需要从直接判断走向科学评价,即需要将考核内容细化为可测量的指标进行客观、科学的分析评价,以确保评级的准确性。

一、评估的统计分析方法

Cronbach指出,一个人如何判断另一个人在心理学上是一个重要的理论问题,在群体心理学、评估、教学等方面有着重要的实践意义 。20世纪50年代,对于社会认知,研究者主要关注认知者的认知准确性、与他人认知相似倾向等方面的差异。

这些研究通常是建立在一个特定操作中的。在这个操作中,评估者(J)“预测”被评估者(O)的表现,并要求两个人对同一份量表打分,即被评估者(O)进行自评的同时,要求评估者(J)也在同样的量表上给被评估者(O)打分,以此来判断评估者(J)的评分结果与被评估者(O)的自测分数的吻合程度。这种吻合程度也被视作为评估者(J)的社会认知(或“共情”“社会敏感性”“诊断能力”等)准确性的衡量标准。也就是说,评估者(J)和被评估者(O)的评分差值越接近零,则说明判断的准确性越高。但事实很难解释,一些研究也表现出两者的低一致性,当然,这与个人的洞察力有关,实际也是认知差异的问题。

为了解决这个问题,研究者尝试用数学理论来解释心理认知问题。Cronbach将注意力转移到通常方法未触及的社会认知层面,用测量的方法对社会认知的影响因素进行分析。当然,用数学问题解释心理学问题有可能冒着风险。

二、准确性分数的组成

在一个典型的实验中,研究者先让被评估者(O)在一组量表中对自己进行评分,计为 x o i i 是指 O 1 O 2…… O K 中的1、2…… K 等项数);让评估者(J)也在同一组量表中对被评估者(O)进行评分,计为 y o i j ;如表2-1所示。

表2-1 实验评分量表示例

每一位被评估者(O)都会在这个量表中给自己评分,形成一份KN矩阵表,即有 N 个量表条目下的 K 个自评分数,那么 -得出被评估者(O)得分的个人中心趋势。

同时,评估者(J)也是在这个相同量表中对被评估者(O)进行打分,同样形成一份KN矩阵表,即在 N 个量表条目下由评估者(J)打出的 K 个人的分数,那么 就得出评估者(J)打分的个人中心趋势。

用评估者(J)的中心趋势 减去被评估者(O)的个人中心趋势 ,两者差的平方为 E (Elevation),公式如下:

E 也就是两个评分的个人中心趋势比较。该公式计算出评估者(J)感知他人的能力,即评价能力,也就是评估者(J)与被评估者(O)的匹配程度是多少。两个个人中心趋势的差值越小,则说明准确性越高。

Cronbach认为,任何来自不同项目结果的指数都存在严重的解释困难 。如此看来衡量项的准确性评分只是一个探索性过程。在可能的情况下,评估者(J)对于预测不同水平的被评估者(O)的能力难以解释,需要靠整体衡量标准明确权重,形成最终的结果。

Cronbach's准确度测量是指简单差异分数的总和,它通过按维度划分的矩阵的行、列或单元格内的中心趋势计算得出。准确性评分由标高(Elevation,E)、差异高度(Differential Elevation,DE)、定型准确性(Stereotype Accuracy,SA)和差异准确性(Differential Accuracy,DA)四个部分组成。

标高( E ),是指由评估者(J)的评分中心趋势和被评估者(O)的自我描述中心趋势之间的差值的平方,被定义为评估者对被评估者的“平均评分”,它反映了评估者如何解释评分标准。

差异高度(DE),它反映了在所有项目集中在一起,评估者(J)的反应中心倾向保持不变的情况下,评估者(J)对被评估者(O)的平均评分与被评估者(O)的评分中心趋势的对应程度。也就是在评分中,评估者(J)判断个人中心趋势值标准时偏离平均水平的差异。

刻板印象准确性(SA),即评估者(J)对被评估者(O)的评估准确性能力,这个分数往往取决于评估者(J)对被评估者(O)的了解程度。

差异准确性(DA)反映了评估者(J)在任何条目上预测 O K 之间差异的能力。这个部分是整个矩阵条目的平均数。DA表明评估者在不同维度和不同评估者之间的区别程度,也就是矩阵中的总体准确度;它是指总体平均判断与总体平均标准的比较。

这四个组成部分反映了认知准确性的不同方面,而每个部分的准确性在绩效评估中的相对重要性,取决于如何运用这些判断 。在评估者做判断时可根据实际情况,对四个部分的不同重要程度来划分权重,校正得分的分配比例。

三、评估者认知能力差异对评估结果的影响

评估者评分准确性的四个部分已经被分离出来:这四个部分是相关的,任何成分的变化都会改变评分准确性。影响评估者判断的这几个方面最终的相加总分即是评估的最终得分。当然,社会认知的这些方面并不都是反映同一个特质。两个评分相同的评估者,其认知水平不一定相同。判断哪个项目的平均值最高,似乎需要评估者熟知群体的特征;但一个人可能拥有对群体预估的能力,却无法准确区分个体差异。研究发现,只需告诉他们几个样本项目的复杂程度,就极大地帮助了认知较差的评估者。显然,差的、一般的和好的评估者之间的区别在于,好的评估者能够通过对人群的某项测试给出的相关分数得到经验参考;而给差的和一般的评估者提供这种参照,则会导致这种判断的大幅调整或重新定位。由于评估者本身的能力不同,评估能力强的评估者只需观察样本人群,就已经可以了解很多内容,掌握很多关键信息;而如果让评估能力差的评估者去观察样本人群,则有可能会打乱他们本身的评估定位。如果评估者本身具备的人格理论和背景知识不允许进行值得信赖的推断,在不确定或者说不了解被评估者真实背景的情况下,如果评估者无法对被评估者做出相对准确的判断,那么最明智的做法是:不要把分数拉开差距。因为试图通过不充分的信息或数据来对个体评分的话,即使推论的有效性大于偶然性,也会把评分结果引入偏差的方向。

如何区分评估者的评分差别呢?例如,老师在评估班级学生的智商时,其评分可能分布在90分到110分之间,也可能分布在70分到130分。我们希望老师在判断出学生的不同智商差异时,可以采用更加鲜明的教学方法因材施教,以达到更好的教学效果,或者说更好地使学生学有所得。当老师知道智商的预期值是一个固定的数字时,他可能会“试图使预测出的分数结果尽量达到这个数字”。但这仅仅是一个完美的期望,毕竟出现这种情况的概率是非常小的。如果老师的预测结果小于预期值数,那么他的偏差就会小一些,而小多少则取决于他预测的关联准确性。所以在评估者做出判断时很可能出现系统性偏差,如过度乐观或过度分化,当然这些判断偏差是容易被纠正的。对于研究者来说,重要的是,将这些系统性偏差作为独立的组成部分来衡量,并通过对评估者的训练来尽量避免这些偏差产生。

当教师认识到差异化程度对教学的影响时,就有必要重新审视教学计划。教师在接受培训时常听的一句话是:每个学生都有自己的成才模式,教师必须根据这个模式来采取相应的方法,而不是按照平均水平来对待学生。当教师能够准确判断出学生的学习成绩差异时,他们可以对教育方式进行一些适当修改。但目前看来,对学生的独特成才模式了解甚少的教师,用的是一种“标准的”教学模式来对待学生。这种方式适合那些普通类型的学生,在评估信息有限的情况下,大幅度地修改教学计划很可能会对普通学生造成伤害。如果差异化教育的程度超过了社会的普遍认可程度,那么会导致学生被区别对待,进而使得学生产生心理落差,这样看来差异化教育对多数学生来说是不利的。最佳的差异化实际是应该具有普适性的。

这便是早期对绩效评估的研究,是基于评估准确性程度,通过数学的方式解释评估差异化中找到的影响因素,并说明评估的准确性在社会认知层面的个体差异。到了20世纪80年代,人们开始转向过程准确的问题研究,这是因为与其从结果准确的角度出发,不如将对准确性的把握控制在过程中。过程准确有助于提高结果的准确性。

第二节 绩效评估中的不完整性问题

绩效考核排序法,即评估者按照从最好到最差的顺序给一组被评估者评分。这种方法要求每位评估者均给所有被评估者评分,且评估者对每位被评估者都比较了解。满足以上两个条件,才有可能进行比较排序,其评估结果才具有可比性。因此,在采用排序法进行评估时,需要确保评估者对被评估者有较好的了解程度,以使评估结果具有有效性。但在实际操作排序法时,所有评估者真的能够了解所有被评估者吗?即使是同一个部门的领导作为评估者来评估自己部门的员工时,由于不同领导分管部门不同、员工主管任务不同等原因,领导者也可能不完全熟悉每一位被他评价的人,进而影响最终评估结果。因此,一些评估者只能对群体中的一部分人进行评估排序,那么由此产生的排序位置就不具有可比性。在绩效考核中,由于很难找到对每位被评估者的每个特质或考核内容都熟悉的评估者,为了使考核结果具有可比性,则要求评估者只对自己熟悉的内容进行考核评估,也就意味着会出现部分评估者评估的不完整性问题。如何将所有评估者只评价自己熟悉的被评估者的评估结果进行汇总后统一排序,是绩效考核评估排序法中的一个难点

Thorndike于1916年首次设计出一种方法来合并这种不完全的评分顺序:第一步,将所有评估者对被评估者的评分放到一张表格中;第二步,通过简单的检查以获得初始排序;第三步,比较相邻两位或三位被评估者,明确对他们评估的评估者的排序情况,据此对初始排序进行校正 。但在采用此方法对所有被评估者进行排序时,发现校正过程比较复杂,甚至可能会得到矛盾的排序结果,整个过程不仅费力而且令人困惑。

为了使不完整的评估方法更加具有可行性,Ream于1921年在上述方法的基础上改进了不完整评估的排序法:针对评估者不了解所有被评估者的情况,在进行评估时,可以先请评估者仅对熟悉的被评估者进行从最好到最差的排序评估。在完成评估后,再采用以下“赋值—平均值—校正”(Value-Average-Verification,VAV)的方式进行排序。第一,对所有被评估者进行赋值。根据评估者对被评估者的评分多少,参照赋值表(Thorndike's Mental and Social Measurements,Table 22)给每个等级的被评估者进行赋值(例如,评估者仅评价了两名被评估者,则排名第一的被评估者赋值0.8,排名第二的被评估者赋值-0.8)。一般而言,评估者评估的人数越多,则排名越好的被评估者赋值越高、排名越差的被评估者赋值越低;排名在中位以前的被评估者赋予正值,排名正好为中位的被评估者赋值为0,排名在中位以后的被评估者赋予负值;排名越靠前赋值越高,排名越靠后赋值越低。第二,计算每位被评估者的平均值。根据以上赋值,得出每位被评估者的平均值,并根据平均值进行排序。第三,参考评估者的评估结果对排名进行校正。通过相互比较法完成对排序的验证和校正工作(如A、B两位被评估者同时出现在四位评估者的排序名单上,其中三位评估者均判定A优于B,而根据平均值得出的结果相反,则应校正)。在校正时,需要特别注意排名在中间位置的被评估者排序是否合理。

第三节 绩效考核方法涉及的关键问题

多年以来,学者花费很多精力对绩效考核方法进行研究,认为获取信息的工具对所获取信息的准确性和有效性会产生影响 。考核方法可以分为直接评估方法和间接评估法。在直接评估方法中,评估者给被评估者一个代表某种绩效水平的数字;而在间接评估方法中,评估者对被评估者做出一系列统计的判断,加权汇总可以得出绩效的评分。同时,学者们还注重评分中的一些技术问题,如锚的问题。绩效考核的各种方法分别有何优劣、有何利弊,如何去比较它们的利弊,就涉及了“绩效考核方法的优劣利弊应该从哪些角度去把握”的问题。本节内容将探讨绩效考核方法设计中的最核心问题。

一、直接评估方法

精细的评分实际上是一个非常重要又难以做到的事情。不同评估者对评分松紧度的把握是不同的,对待晕轮效应的态度也是如此。如果评估者的态度不同,学识水平不同,则评分结果也会不同。如果不是匿名评审,可能还会涉及很严重的道德风险,如故意提高或压低分数。看上去是以最终分数来决定被评估者的成绩,但实际上在严格的、清晰的分数背后,却存在着很多的准确性疑问。如何保证准确性?哪些关键问题会影响准确性?对于这些问题,学者们进行了长达60年的讨论。本节从量表角度探讨评价的准确性问题。

1.图形评分法

1922年,Paterson提出了图形评分法(Graph Rating Scale) 。在他看来,这种新方法有两个特点:(1)采用了量化的方式对绩效进行评估;(2)评估者能够根据需要做出精细区分。该方法的量表由特征标签、对这些标签的简要定义、用数量和形容词表达的标签等级三个部分组成。这个方法一直流行到第二次世界大战后。但是“人们对图形系统的主观性和任意性越来越不满意” ,主要原因是,该评估办法很难消除宽大效应或晕轮效应等不良后果。

1958年,Barrett、Taylor、Parker通过测试,对比了四种结构各不相同的评级格式 。具体而言,四种格式均由一条10英寸(25.4厘米)的分割线组成,格式1有15个分割点和一个特质名称,量表上没有特质定义或锚;格式2的特质定义被添加到特质名称中;格式3的分段线由行为锚定义,有特质标签但没有特质定义;格式4包括行为锚和特质定义,但没有特质标签。在这几种格式中,格式3显示出较高的可靠性,较低的宽大效应和晕轮效应。以上实验说明,行为锚、特质名称、特质定义是图形评分法里面的三个重要的组成部分,不同的组合会导致评估方法的效果不同,它们是确保图形评分法能够有效运行的三个关键因素,也是其他工具能够运行的关键。

2.行为锚定评分法

1963年,Smith和Kendall提出了一种新的开发评分量表的方法——行为锚定评分法(Behaviorally Anchored Rating Scales,简称BARS) 。在20世纪70年代,用行为锚定评分法开发的评分量表已经被用于多种场合,足以证明其可以广泛使用的特点。很多学者讨论了行为锚定评分法的效果。比如,Smith和Kendall证明了这种量表可以有效地用于描述护理工作,Maas证明了这种量表在绩效访谈方面的有效性 ,Landy和Guion证明了该技术在工作动机评分方面的效用

行为锚定评分法有一个很大的缺点,就是开发成本很高。首先,需要开发小组来开发维度,并对这些维度下定义。其次,是对这些维度的行为进行锚定,开发这些维度不同层次的行为范例并进行分组。最后,为这些范例分配量表值。行为锚定评分法需要做两项工作,一是对每个层级的实际案例进行分析;二是对每个层级进行赋值。行为锚定评分法的有效性依赖于多个因素,包括开发过程中团队的专业性、参与者的独立性,还包括范例和量表值的选择。确保参与开发过程的团队具备相关领域的专业知识和经验,可以提高量表的可信度和准确性。然而,目前对行为锚定评分法的主要反对意见是,这些量表产生的评分是否没有偏差,是否足以证明量表开发的成本是合理的。下面我们将对行为锚定评分法与其他直接评分方法进行比较。

3.图形评分法和行为锚定评分法的比较

学者们已经做了大量细致的工作,试图评估行为锚定评分法相对于传统的图形评级方法的有效性。Campbell、Dunnette和Arvey等人发现,行为锚定评分法可以有效减少评级的方法差异、晕轮效应和宽大效应 。Borman和Vallon发现,采用行为锚定评分法得出的评级在可靠性和评估者信心方面更高

Burnaska和Hollmann比较了三种不同的方法 。第一种方法采用标准的行为锚定评分法。第二种方法包含相同的维度和定义,但是将行为锚点替换为形容词锚点。第三种方法是传统的图形评分法。尽管三种方法都存在宽大效应和晕轮效应,但行为锚定评分法减少了宽大效应并增加了可归因于被评估者差异的方差量。然而,Burnaska和Hollmann得出结论,当使用行为锚定评分法时,在评级的某些方面的改进会伴随着其他领域的问题,比如,“评级的创新虽然很多,但很可能导致拆东墙补西墙”。每种格式似乎都有其独特的问题。我们在使用评估方法时,要注意所选用的评估方法是否有利于解决绩效评价中通常碰到的宽大效应、居中趋势、晕轮效应等问题。一种方法可能对解决某个问题比较有效,但是可能在其他方面无效。

Keaveny和McGann比较了大学教授分别用行为锚定评分法和图形评分法所做的学生评分 。行为锚定评分法导致较少的晕轮效应,但它们在宽大效应方面与图形评分法没有区别。在教师评价中的晕轮效应问题包括学生的长相、家庭背景、社会关系、口头表达、着装等。因此,针对这两种评估量表,没有哪种评估方法会比另外一种评估方法有绝对的优势。

Borman和Dunnette将行为锚定评分法与具有特征标签和数值锚点的传统图形评分法进行了比较 。结果发现,尽管标准行为锚定评分法格式在心理测量上更优越(就晕轮效应、宽大效应和可靠性而言),但格式差异在评分方差中仅占据了微不足道的比例(大约5%)。如此看来,量表工具的差异对绩效评价的有效性可能影响并不大。

Bernardin、Alvares和Cranny比较了汇总评分法与行为锚定评分法 ,研究结果表明,与行为锚定评分法评级相比,汇总评分法的特点是,可获得更小的宽大效应和更大的评级之间的一致性。他们假设,无论量表的格式如何,量表制定的严谨性是减少评级偏差的关键问题。在Bernardin的后续研究中,证明了在行为锚定评分法中使用项目分析程序来选择锚点时,行为锚定评分法评分和汇总评分之间没有差异 。因此,量表制作的严谨性是关键,量表工具并不重要,制定工具的严谨性才是重要的。请读者特别注意这个观点。

最后,Friedman和Cornelius比较了三个组的评分:(1)参与开发行为锚定评分法的小组,(2)参与开发图形评分法的小组,(3)没有参与量表开发的小组 。第1组和第2组的评分偏差没有差异,第3组的评分偏差(晕轮效应)明显高于其他两组。这说明评估者参与到量表的制作中,可以更好地提高绩效评价的有效性。虽然图形评分法和行为锚定评分法之间的偏差不大,但如果不用这样的工具,偏差就很大。

Bernardin、Friedman和Cornelius认为,好的量表在发展过程中往往经过了严谨的心理测量学设计和个体参与。由此可见,严谨程度和个体参与对评估工具的有效性是非常关键的,比使用哪种量表工具更为关键。总的来说,尽管行为锚定评分法的引入引起了人们的热情,但它的有效性并没有得到实证的支持。

二、间接评估方法

到目前为止,最受欢迎的间接评估方法是强制分布法。杰克·韦尔奇曾指出,管理的最有效方法是区分。在这个系统中,评估者需要从一组可供选择的描述项(通常是四项)中选择最具评估者特征的子集;这种方法的变体要求评估者同时选择最符合与最不符合被评估者特征的描述项。这些描述项的功能类似于直接评级中的锚。锚定法是直接评估,强制分布法是间接评估。在直接评估方案中,评估者使用锚点将个体置于连续的统一体中;在强制选择系统中,描述项对应相应得分,评估者通过对描述项的选择得出被评估者的分数。

强制分布法的假定优势之一是,它可以降低宽大效应。这是由于评估者不知道各种描述项的偏好和区分指数。Isard发现,模棱两可的描述词比积极或消极的陈述更可靠且更有效,也更不容易产生故意偏差 。Obradovic对蓝领和白领表现的一项研究证实了中性陈述的价值 。有学者试图使用关键事件作为强制选择格式的描述项,产生了低信度评分 。在上述学者的讨论中,有两个问题值得注意:第一,模棱两可的描述比“积极或消极的陈述”更加可靠。第二,在强制分布法中,使用关键事件法来作为区分的标准,效果不佳。

要比较各个工具之间的好坏,不能单一从某个方法的效果角度去看,而要从比较的角度看。从强制分布法与其他方法的比较中学到的东西,比从强制分布法本身内部的变化中学到的东西更多。Berkshire和Highland证明,与图形评分法相比,强制分布法的范围限制更小 。这些研究似乎指出了强制分布法的一个主要优势是最大化了个体间的方差,尽管人们对强制分布法对个体内方差的影响知之甚少。由于强制分布法的引入主要是为了降低宽大效应,因此很少有人注意到晕轮效应的问题。Sharon和Bartlett在以下四种情况下,研究了强制分布法和图形评分法对宽大效应的相对阻力:(1)评估者匿名,仅用于研究目的;(2)评估者匿名,反馈给教员;(3)确定评估者,仅供研究用途;(4)确定评估者,与评估者进行后续讨论 。这些评分代表了学生对大学教师的评价,结果显示,图形评分法有显著的宽大效应,但强制分布法可以降低宽大效应。也就是说强制分布法的宽大效应比较小,与整体排名的相关性高于图形评分法。Taylor、Schneider和Clay发现强制分布法和图形评分法之间的相关性很高,但强制分布法显示出较少的宽大效应 。Cotton和Stoltz在为数不多的关于可靠性的比较研究中发现,当量表是从关键事件发展而来时,图形评分法和强制分布法产生了相同的可靠性 。从之前描述项的早期研究中,我们可以得出结论,这些描述符对强制分布法是不利的。

1959年,Cozan回顾了关于强制分布法有效性的研究,并得出结论,除非一个新系统明显优于现有系统,否则不轻易进行变革,因为存在变革成本 。也就是说绩效考核的方式一旦使用了,就不要随意变化。由于迄今为止的研究没有提出任何令人信服的理由来选择强制分布法而不是其他方式,Cozan建议保留传统的图形评分法。这一观点与由于成本增加反对开发行为锚定评分法的论点类似。

三、其他考核方法

除了直接评估方法和间接评估方法,学者们还提出了一些其他的考核方法。Blanz和Ghiselli提出了混合标准评级法(Mixed Standard Rating Scale),评估者需要指出被评估者所呈现的行为是好于、等于还是差于标准,即用优秀、合格和不合格区分等级 。这有利于减少“好好先生”的状态。由于这些行为之前已经根据它们所代表的绩效水平进行了衡量,因此可以从这些判断中得出评级。然而,许多不同维度的行为是随机排列的,使得评估者很难确定各种陈述的价值顺序,从而难以判断哪个指标更好,也很难确定要测量哪些维度。在只对被评估者进行合格打分的情况下,如果没有定义维度和权重,评估者实际上很难进行评价。对维度和权重的定义,有助于防止有意的偏差。

但是,混合标准评级法的一些早期结果令人失望 。尽管这种方法的晕轮效应比图形评分法或行为锚定评分法的要小,但可靠性似乎非常低。因为当人们对一个被评估者下结论为优秀或者不合格的时候,的确会有这个问题。此外,在该方法最初的介绍中所建议的计分格式存在一些严重的问题。Arvey和Hoyle发现,采用Guttman标度技术(混合标准评级法的方法学基础)开发的量表显示出良好的收敛性和区分效度,但试图使用该方法识别较差的评估者并不成功 。只有少量的证据表明,在一个工作维度上评分偏差的评估者在其他维度上的评分也很低,或者在给一个人评分时出错的评估者在给其他个人评分时也会出错。基于Guttman标度技术开发的量表,也表现出比更传统的基于行为的量表更高的评级相关性。

四、不同考核方法的共性问题

1.考核维度和指标数量

绩效考核中的一个关键问题是考核指标的选择,对哪些维度进行评估一直是争议点。Kavanagh认为,实证文献不支持人们明确选择评估量表的内容类型(即绩效结果、可观察的工作行为、在职者的个人特征等) 。这是一个重要的观点,也是绩效管理研究的重大转向,表明从个人特质因素转向更多的与绩效有关因素的考核,从而使绩效考核从心理学研究角度转向了更加宽泛的管理角度。Brumback也呼吁取消个人特质作为评分维度,优先考虑绩效因素 。此外,Kavanagh认为,适当的评分维度问题只能通过考虑工作要求、个人和绩效因素对该工作的相关性,以及每个内容类型的实证防御性(可靠性、偏差性和构造效度)来回答。

2.考核类别数目

当量表涉及的异质信息类别过多时,被评估者可能在选择适当答案时感到困扰,从而影响测量结果的准确性和可靠性。因此,有些研究者建议,在设计量表时限制类别数量少于9个,以减少被评估者感到认知负担,从而提高量表的可靠性和有效性。

Bendig的一系列仔细研究提供了关于评分格式最有效的响应类别数量的有力证据 。综合考虑评估量表信度和评估者信度,当类别数从5增加到9时,信度没有提高;而当响应类别小于3或大于11时,信度会下降。Finn研究了类别数量对评分信度的影响,发现当回答类别少于3个或多于7个时,信度下降 。Lissitz和Green在蒙特卡罗研究响应类别对量表信度的影响时得出结论,当量表点或响应类别超过5个时,信度几乎没有增加 。Bernardin、LaShells、Smith和Alvares比较了连续和非连续的7点反应格式,并没有发现评分偏差的差异 。最后,Jenkins和Taber在另一项影响量表可靠性因素的蒙特卡罗研究中,同意Lissitz和Green的观点,即在5个评估量表类别之外添加类别没有多少用处 。以上研究为我们选择恰当数量的考核指标提供了理论支持,不过还是需要更多证据来证明考核指标数量应该为多少。

3.工具中的核心问题:锚

许多研究表明,与简单的数字或形容词锚点相比,行为锚点的相对有效性更强 。什么是锚?举一个销售人员的例子:当一个销售人员面对顾客的询问时,“一问三不知”或“成为顾客可信赖的顾问”,这些都是行为锚。数字锚指的是,某个人在某个方面可以得到几分,如学习勤奋度打5分。由于行为锚定评分法在很大程度上依赖于量表锚点的行为性质,几乎所有对行为锚定评分法持积极态度的研究,都可能被认为是对行为锚点持积极态度。

尽管如此,还是有一些研究对精心设计的锚的性质提出了一些怀疑。Finn发现,锚是数字的还是描述性的似乎并不重要 。Kay发现,使用关键事件锚定评级量表会降低可靠性 。他认为,关键事件过于具体,不适合作为锚,可能是由于普遍性不够。

1 )锚的重要性与被衡量维度的定义程度有关

锚的类型和数量的重要性可能与维度定义的充分性有关。在没有对要评定的尺寸进行充分定义的情况下,评估者必须依靠锚来提供刻度的含义,即从哪些维度来评价被评估者的确很重要。通常情况是,先区分维度,再做锚定(用锚区分为不同等级),再用锚(被定义的等级)去评价员工。如果维度没有搞好,那么再好的锚(等级区分)也没有用。正如四条腿的桌子,我们不能只评价一条腿。同时,不仅要明确维度,还必须对维度进行定义。Barrett等学者在研究中发现,与有定义但没有锚点的量表相比,具有良好行为锚点的量表具有更高的信度、更少的晕轮效应和更少的宽大效应 。总的来说,锚似乎很重要,而且有证据表明行为锚比数字锚或形容词锚更好,但是必须和考核维度及其定义合起来使用才会更有效果。好的考核是一个系统工程,由此可见一斑。

评估量表通常有四种类型的锚点:数字、形容词、行为、关键事件。已经有几项研究旨在确定这些类型的锚点用于锚定系统的相对有效性。例如,Bendig发现随着锚定程度的增加,量表可靠性提高 ;Barrett等证明了锚定量表比不锚定量表的有效性有所提高。

2 )锚的有效性取决于锚刻度的细化

Campbell、Hunt和Lewis 研究了情境的变化对精神分裂症患者在认知组织评估方面的影响 。他们发现,有详细锚定的量表比缺乏详细锚定的量表更不容易失真。由此可知,把锚定得小一些、细一些,对评估的准确性更有利。

3 )以偏概全的问题

在强制分布法的形式下,为每个项目确定了区分指数和偏好指数。区分指数是特定项目对高绩效者和低绩效者的区分程度;偏好指数是典型评估者对特征或行为的重视程度。Obradovic发现,中性项目在结果评分的心理测量特征方面优于积极或消极项目 。由此,人们可能会得出这样的结论:偏好指数居中的项目比偏好指数高(或低)的项目效果更好。如果人们过分重视某一个人的能力因素,则可能会导致对能力评价的偏差。因此,评估者不能过分偏好某一个要素,以偏概全,否则就会导致在某一个要素上的晕轮效应等问题。如果一个评估者揪住被评估者的某个缺点不放,也可能产生对这个人评价的偏差。

4.绩效考核的重点在于用什么程序来开发量表而非使用何种量表

在一个研究案例中,Smith和Kendall使用项目分析方法,确定特定的行为锚所具备的区分好护士和差护士的能力 。Bernardin等学者的研究表明,评估量表减少传统评级偏差的有效性,在某种程度上取决于量表开发和锚定的严谨性 。他认为这种严谨性可以通过标准的项目分析程序提高,这是一个非常值得重视的问题。与其他量表格式相比,行为锚定评分法表现相对令人失望的原因,很可能是由于在锚点的选择和等级方面缺乏严谨性

人们在锚定过程中,试图消除别的工具中存在的一些问题,但是如果使用不当,比方说在锚的等级界定上过多或者过少,就会导致偏差。许多学者都证明了锚定过程会影响最终的项目量表值和标准差 。如果锚定过程不够科学,它可能会导致项目量表的数值和标准差被夸大。因此,评估的准确性在评价维度和锚定过程中就已经受到了影响。

通过以上讨论,可以得出如下结论。

第一,从1950年到1980年,学术界虽然致力于绩效考核方法的研究,但在开发一种有效的、心理测量学上能够替代传统图形评分法的方法上并没有取得什么进展。尽管如此,我们已经了解了关于评估量表格式的一般情况。尽管人们可能对高锚和低锚的各种物理安排、图形编号系统等有偏好,但这些偏好对实际评级行为几乎没有影响。也就是说,用哪种方法对绩效考核的有效性并没有什么影响。重点在于,设计评价体系中的维度和刻度的环节,以及锚定过程。

第二,评估者可用的考核类别数量不宜超过9个。如果考虑的是连续的而不是离散的反应连续体,那么明智的做法是进行一些试点研究,以确定潜在评估者能感知多少种反应类别。

第三,使用行为锚比使用简单的数字锚或形容词锚多一些优势。在缺乏良好的维度定义的情况下,这种优势可能会增加。

第四,在编制评分表时重要的是项目选择和采用严格的程序,而不是考虑具体格式。如果采用更严格的程序(比如行为锚定评分法),则可能会比传统方法有所改进。选择评价维度的程序比评估中的评价行为更加重要,而过去比较注重后者。 urTVFajUMxzGUfxdd/DuQa1v3UOuAKqBjZKsmLtLicVXNqf3BbSSCtpHbkZNzT6e

点击中间区域
呼出菜单
上一章
目录
下一章
×