购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

5.3 集簇分析法

在卡片分类试验完成后,试验结果可以用不同的方法进行分析。最简单的方法是观察法,即将用户分类结果反复浏览并体会用户分类的一般规律。这种方法的优点是,数据分析者能有机会看到每一位用户代表分组的具体情况。其缺点是用时长,而且当卡片数量或试验参加人数较多时,同时把握用户整体的分组结果就非常困难。

集簇分析法是一种分组研究的定量方法。运用这种方法可以有效地将卡片分类试验的结果进行综合计算而得到距离矩阵(distance matrix),然后利用不同的算法对距离矩阵进行进一步处理而画出易于分析理解的树状图。距离矩阵的具体计算步骤如下:

第一步,建立一个阶数等于卡片数量的矩阵。矩阵的每一个元素对应的行和列的位置用来标记这两个卡片之间的关系。例如,位于第 i 行第 j 列的元素的数值将用来表达卡片 i 和卡片 j 之间的关系。对于一个试验参加者,如果两个卡片被放在同一个低层次组中,则赋值2,如果两个卡片被放在同一个高层次组中,却未被放在同一个低层次组中,则赋值1,如果两个卡片既未被放在同一个低层次组中,也未被放在同一个高层次组中,则赋值0,这些数值就构成一个“单一试验者原值矩阵”(raw score matrix for one participant)。表5-1所示为对图5-2所述例子进行处理而得到的单一试验者原值矩阵。由于单一试验者原值矩阵是对称矩阵,为简明起见,此表只列出了矩阵左下角的独立数据部分。

表5-1 单一试验者原值矩阵

第二步,将同一个试验的所有单一试验者原值矩阵中的元素对应相加,得到“全体试验者原值矩阵”(raw score matrix for all participants)。假设有4名试验参加者对上述例子中的卡片进行分类试验,表5-2所示为这一试验的全体试验者原值矩阵的一个例子。

表5-2 全体试验者原值矩阵

从矩阵元素的数值中可以大致看出所有试验参加者卡片分类的趋势。矩阵元素的最大值是8(是4人试验可能的最大原值),其对应的两个卡片内容是“经营范围”和“产品类别”。说明每一位试验参加者都将这两个卡片归在最低层次的组中,也就是说,每一位试验参加者都认为这两个卡片的内容非常接近。与其相反,在矩阵中有若干元素的数值为0(例如“产品类别”和“工作机会”)。说明每一位试验参加者都未将这些0元素对应的卡片归在任何组中,也就是说,每一位试验参加者都认为这些卡片对应的内容非常疏远。当矩阵元素值为0与8之间时,说明有一部分试验参加者将这两个卡片归为一组。数值越大,说明其对应卡片内容就越接近。数值越小,说明其对应卡片内容就越疏远。

第三步,将全体试验者原值矩阵的每一个元素除以最大可能的原值:2× n n =全体试验者的数量),得到相似矩阵(similarity matrix)。这时候相似矩阵中的每一个元素的值都在0与1之间。表5-3所示为上述例子的相似矩阵的一个例子。

表5-3 相似矩阵

第四步,利用下面的公式将相似矩阵转化为距离矩阵:

D i j )=1- S i j

其中, D i j )表示距离矩阵中的任意一个元素; S i j )表示相似矩阵中的任意一个元素。

距离矩阵中的每一个元素也被称为距离值(distance score)。这些距离值都在0与1之间。卡片 i 与卡片 j 越经常和紧密地被试验参加者放在一起, D i j )的值越低。如果每一位试验参加者都将卡片 i 与卡片 j 分在同一个低层次组中,则 D i j )=0,如果每一位试验参加者都未将卡片 i 与卡片 j 分在任何同一个低层次组或高层次组中,则 D i j )=1。表5-4是上述例子的距离矩阵。

表5-4 距离矩阵

通过观察和比较距离矩阵元素可以得到一些关于项目分类的大致概念。但是当卡片数量增大时,距离矩阵元素数量急剧增加,通过观察矩阵元素分析数据就变得非常困难。这时候就需要运用集簇分析法将上述的距离矩阵转化为树状图,以便对试验结果进行观察和分析。

集簇分析法按照计算组间距离的不同规则分为若干种算法。最常见的有单一(single)算法、完全(complete)算法和平均(average)算法。单一算法认为组间距离等于组间元素之间距离的最小值。完全算法认为组间距离等于组间元素之间距离的最大值。平均算法认为组间距离等于组间元素之间距离的平均值。图5-3是对以上所述例子利用单一集簇分析算法进行处理而得到的树状图。

图5-3 单一集簇分析算法进行处理而得到的树状图

从图5-3中可以看出,“产品类别”和“经营范围”这两个卡片内容联系最紧密。其连接点的距离值为0,即这两个卡片被每一位试验者放在同一个低层次组。“公司概况”和“发展历史”的联系也相当紧密,其连接点的距离值为0.25。当“公司概况”和“发展历史”合并为一组之后,这组与“合作伙伴”卡片的距离值取决于这组中所有单个卡片与其距离值的最小值,即min(0.875,0.625)=0.625。从图5-3中还可以看出“公司概况”和“发展历史”组成的小组与“合作伙伴”连接点的距离值为0.625。

运用不同算法得到的树状图从不同角度反映出用户分类的趋势。关于单一算法、完全算法和平均算法的具体计算细节,集簇分析的其他算法及其比较,请参考具体的统计分析理论书籍,在这里不再赘述。 txLgVnBSht4y1af+EpenS7O4BsCDJSCdNT4XTAhfvuWCdo2zpN6DTb7xxV4gdbzf

点击中间区域
呼出菜单
上一章
目录
下一章
×