《顾客满意视角的电子商务服务质量研究》

2.2.2 量表开发的方法论问题

2.2.2.1 研究方法

电子商务服务质量量表开发的研究方法主要有定性研究法、定量研究法以及定性定量混合研究法。表2-2所示研究中有半数以上使用了定量法，只有极少数学者使用了内容分析法、诠释学逻辑等定性方法。定量法有一定的局限性，比如受访者不愿或不能回答问题，不愿如实回答隐私、尴尬以及影响自我或地位的问题，也不能挖掘受访者的潜在意识（Malhotra, 2007）。表2-2所示研究中大约一半的电子商务量表直接使用SERVQUAL量表或对其进行改编，这表明研究人员并非通过对网购者的一手研究来确定初始质量标准，而是使用二手数据，导致“从量表中创造量表”的后果。鉴于此，Kalia（2017）建议在量表开发的初始阶段采用定性研究法。

2.2.2.2 抽样方法

表2-2所示研究中大多数采用了方便抽样方法。方便抽样既有可能导致真正具有代表性的人群没有被包含在调查范围内，还有可能使研究存在自选择偏差，故研究结果的通用性有限。由于利用学生作为调查对象，许多研究都承认其分析结果的通用性程度有限。比如Yoo等（2001）让市场营销专业的学生在访问三个购物网站后填写问卷，Lee等（2005）的数据则来自网络书店的学生用户。Ha等（2009）在研究局限中提出，使用大学生样本和方便抽样不利于研究结果的一般化，限制了测量量表对年长网络消费者的适用性。Igbaria等（1989）发现，受过高等教育的用户相对于受教育程度较低的用户对网络的使用更加自由、更容易满足。因此，服务质量的维度可能会因样本学历存在差异而不同。文化水平是顾客对被交付服务的期望的重要决定因素（Constanza, 2001），具有不同价值观念和生活方式的顾客会以不同的方式感知服务质量（Sarjono et al.，2010）。Malhotra等（2005）发现美国受访者和菲律宾受访者对服务质量维度的看法不同，前者更为系统。值得注意的是，现有的电子商务服务质量量表开发研究以美国为主，受访者多来自美国，因此研究结果可能存在文化偏差。

现有研究还存在样本量问题。经验法则认为300例是很好的样本量（Tabacnik et al.，1996）。另一个关于样本量的建议指南是：50，非常差；100，差；200，可接受；300，好；500，很好；1000，优秀（Comrey et al.，1992；Tabacnik et al.，1996；Vanvoorhis et al.，2007）。部分研究使用了小样本，比如Yoo等（2001）和Cai等（2003）分别用了116和171的小样本，邓之宏等（2012）的样本量为130。许多研究提到了样本不足的局限性，在某些情况下，研究人员承认他们的成果只是一个初步的量表，因为他们的小样本不支持进行全面的心理测量评估。

2.2.2.3 题项管理

研究人员使用基于文献综述的演绎法（如Chol et al.，2004；Collier et al.，2006；Dai et al.，2011；戚牧，2011；王伟军等，2017）和基于探索性研究的归纳法来产生量表题项，后者包括半结构化访谈（如Janda et al.，2002）、焦点小组访谈（如Parasuraman et al.，2005）、内容分析（如Kim et al.，2006）及诠释学逻辑（如Trocchia et al.，2003）等。单纯从已有文献中确定的维度产生题项不利于识别新维度。Collier等（2006）承认他们使用的维度来自相关从业者和学术性文献综述，未来需要通过定性研究来进一步细化这些维度。基于因子载荷而产生的题项取决于受访对象的共识、判断和反馈，但是目前学术界对电子商务服务质量的因子及其定义尚未形成共识。

许多研究删除了因子载荷小于0.5的题项，Ding等（2011）甚至使用0.7作为下限值。载荷小于0.5意味着因子不稳定（Costello et al.，2005），但一些研究仍使用了相对较低的数值（小于0.4）作为因子载荷下限值（如Ha et al.，2009；Yoo et al.，2001）。通常，如果一个变量的公因子方差小于50%，那么这个变量就可以被剔除，因为因子解释不足原变量方差的一半。Ha等（2009）的研究只剔除了公因子方差小于30%的题项。对于题项—总体相关系数的参考值，不同的研究采用了不同的标准，有的小于0.3（如Cheng et al.，2008；Janda et al.，2002），有的小于0.4（如Choi et al.，2004；Wolfinbarger et al.，2003）。小于3个题项的因子通常被认为是较弱且不稳定的，但有很多研究的因子题项数小于3（如Szymanski et al.，2000；Yoo et al.，2001；戚牧，2011；王伟军等，2017）。

2.2.2.4 信度和效度评价

信度是指测量工具的可靠性。Cronbach（1951）提出用α系数（0和1之间的数值）来衡量量表的内部一致性。表2-2中，大多数电子商务服务质量量表的α系数显示了良好的信度，少数几个研究的α系数低于0.7的建议值，比如Jun等（2004）、Yang等（2008）的研究中信度的α系数为0.59，Kim等（2009）的研究中履行性（可靠性）的α系数为0.58，Long等（2004）的研究中购买流程和响应性的α系数分别为0.58和0.51。

效度是指一个测量工具能在多大程度上测量它所要测量的对象（Tavakol et al.，2011）。效度有六种，这六种效度又可归为两类：翻译效度（包括表面效度和内容效度）和效标效度（包括收敛效度、区分效度、预测效度和同时效度）（Drost, 2004）。

翻译效度是指通过主观判断（表面效度）或内容检查（内容效度）来准确翻译或使用构念的程度。表面效度是一种较弱的构念效度表现形式，涉及对构念操作化的主观判断，表2-2中只有少数几个研究建立了表面效度。Bollen（1989）将内容效度定义为“一种定性的效度类型，是指明确概念的范围，并由分析人员判断测量是否完全覆盖了该范围”。许多电子商务服务质量量表更关注“购前”题项，而不是“购买和交付”题项，这和电子商务质量概念不一致，量表的内容效度受到质疑。

效标效度是指一个或多个外部参照物（标准）与测量方法之间的对应程度（通常用相关性来衡量）。Campbell等（1959）建议通过收敛和区分效度来建立构念效度。收敛效度是指两种测量方法对同一构念的测量程度，如果收敛效度表现不好会影响研究结果的可靠性和可解释性。Choi等（2004）通过计算项目—总数相关系数并建议剔除相关系数小于0.4的题项来建立收敛效度。还有一些研究计算每个因子的平均提取方差，如果总方差中平均提取方差大于0.5，则收敛效度可接受（如Gounaris et al.，2005；Ha et al.，2009）。Janda等（2002）、Swaid等（2009）通过在 p <0.001时， t 值显著不等于0来检验收敛效度。其他研究也报告了量表的收敛效度。区分效度是“两个概念上相似的构念之间差异的程度”（Hair et al.，2009）。如果区分效度不足，测量量表可能无法发挥正确的作用，构念间的关系结论也可能不正确（Hair et al.，2009）。表2-2中，大多数研究通过平均提取方差（Average Variance Extracted，AVE）为每个构念建立了区分效度，即每个构念的AVE要大于构念间的平方相关系数。Janda等（2002）、Choi等（2004）通过卡方值的显著性来建立区分效度。根据Drost（2004）的观点，预测效度（法则效度）检验测量工具对未来的相关行为或结果的影响，即测量工具作为未来情况预测指标的有效程度；而同时效度是指测量工具对当前事件的预测能力。关于预测效度，在表2-2中，研究人员检验了服务质量对消费者购买意愿（Cho et al.，2001）、推荐意愿和网站整体质量（Jun et al.，2004）、网站质量和总体满意度（Kim et al.，2004）、顾客满意度和忠诚度（Ding et al.，2011）等相关构念的影响。仅个别研究（Francis et al.，2002）报告了同时效度。

表2-2中，超过半数的文献报告了收敛效度和区分效度，除少数几篇定性研究文献外，超过1/5的文献没有报告任何效度。在这些没报告效度的文献中，国内文献占了大多数。因此，国内对电子商务服务质量的测量研究还需进一步深化。

2.2.2.5 维度分析

1.分析方法

表2-2中，研究人员使用探索性因子分析（EFA）或验证性因子分析（CFA）来预测或评估量表维度。EFA事先并没有设定因子结构，研究人员根据理论上的可解释性，在计算出来的各种解决方案中选择最合适的方案。CFA是对预先假设的因子结构或模型进行检验，以确定是接受还是拒绝该结构或模型（Curran, 1994）。因此，可以说CFA是EFA的“假设支持版”。

EFA有一些局限性，比如在正交旋转的EFA中，不相关因子的假设会导致因子载荷失真和对因子数量的不正确推断（Bagozzi et al.，1982），把测量值作为所有特征因子的函数会导致不一致（不唯一）的因子载荷估计（Segars et al.，1993）。此外，显性检验统计量在确定收敛效度和区分效度时也存在不足。模型以探索性的方式搜索因子，因此每个指标都被表征为所有特征因子的函数。Lahey等（2012）强调了CFA相对EFA的某些优势，比如CFA可以多方面检验假设模型。此外，对于假设模型的不足之处，CFA还可以分析得出模型不拟合的原因以及不拟合程度的详细信息。

2.共性维度

表2-2中，电子商务服务质量量表的维度数量最小是2（Choi et al.，2004），最大是14（Yang et al.，2004），多数在4～6。不同研究的维度各不相同，但像安全（隐私）、网站设计、可靠性、响应性和信息等少数几个维度则常常被引用。被引用最多的是安全（隐私）维度，此维度是指信用卡支付的安全性和共享信息的保密性（Kim et al.，2009；Wolfinbarger et al.，2003）、个人信息和财务信息的安全性（Yoo et al.，2001），以及网站的安全程度和网站对顾客信息保护的程度（Parasuraman et al.，2005）。安全（隐私）维度还包括向顾客提供视觉信号，让他们知道自己处于安全连接中（Collier et al.，2006）。网站设计是指与用户体验相关的所有元素，包括导航、信息搜索、订单处理、适当的个性化和产品选择（Wolfinbarger et al.，2003）。Lee等（2005）认为网站界面应可读、整洁以及具有视觉吸引力。Francis（2007）也提出零售网站应具有“快速下载”和“视觉吸引”的能力。可靠性是网站的性能和可靠性方面的指标，涉及网站能否在承诺的时间内通过电子邮件或者电话联系客户、交付正确的产品，以及费用计算是否正确（Yang et al.，2002）。Bauer等（2006）认为，可靠性是整体服务质量和顾客满意度的重要预测变量。响应性是指网站与消费者互动的程度，它衡量的是网络零售商向客户提供解决问题的信息的能力，以及处理退货和提供在线担保的机制（Kim et al.，2006）。Swaid等（2009）的研究表明，响应性正向影响整体服务质量和顾客满意度，负向影响转换倾向和负面口碑倾向，对抱怨行为也有显著影响。信息是客户对网站内容的有用性和质量的看法。Janda等（2002）认为，信息的数量和可信度是电子商务服务质量的重要组成部分。其中数量代表消费者在购买时获取相关信息的数量，可信度是消费者对网络零售商所提供信息的信任程度。网络消费者在很大程度上依靠网站提供的信息做出购买决策（Kim et al.，2006）。

3.与传统服务质量的维度类比

有些电子商务服务质量的维度与传统服务质量类似。可靠性在传统服务质量中被定义为能够可靠、准确地履行承诺的服务，也是电子商务服务质量的一个重要维度。与此类似，在传统服务质量中被定义为愿意帮助顾客并提供及时服务的响应性，也在一些电子商务服务质量研究中被提及。传统服务质量的移情性维度是指企业对顾客的关怀和个性化的关注。移情性似乎与网络环境无关，但许多研究表明某些类似移情性的维度也出现在网络环境中，比如沟通和理解（Bauer et al.，2006），网站访问（Jun et al.，2004）、电子邮件、聊天室、公告栏、FAQ等各类交流工具的可用性和多语言选择（Cai et al.，2003），互动公平（Collier et al.，2006），个性化（Kim et al.，2006）等。传统服务质量的保证性维度是指员工具备的知识和礼貌，以及他们激发客户信任和信心的能力。一些研究也涉及网络环境下与传统服务质量的保证性维度类似的维度，如网络安全、隐私和可信度（Cai et al.，2003；Jun et al.，2004；Long et al.，2004）。传统服务质量的有形性维度是指物理设施的外观、设备以及人员形象。在网络环境下，Long等（2004）也提出，有形性是网络服务质量最重要的组成部分，体现在虚拟服务之中，比如网站的易用性、导航设计以及产品展示。