时下,在进行财务分析时,我们所面临的问题并不是我们拥有的信息太少了,而是我们拥有的信息太多。在对公司进行分析时,我们不可避免地会面对大量的而且经常是相互矛盾的信息。统计学可以让这种分析变得更加容易。
数据的呈现方式有3种。第一种,也是最简单的一种,就是提供单一数据项,并让使用者搞清楚这些数据。比如说,有分析师用市盈率来比较一家化学公司与其他4家化学公司的表现,他所使用的就是单一数据。随着数据项的增多,追踪单一数据将会变得愈加困难。这时,我们就需要对数据进行概括。在这些概括统计中,最常见的就是所有数据项的平均值,以及衡量平均值偏差幅度的标准方差。概括统计虽然有效,但有时候也会造成误导。因此,当成千上万条信息摆在你面前时,你可以将这些数字分解成单值(或者值域),并指明属于某个值或值域的单一数据项的个数,这被称为频数分布。以分布的方式呈现数据具有双重优势。首先,即便是最大规模的数据集,你也可以将其归纳在一个分布中,并可确定哪些值发生的频率最高,以及高低值之间的幅度。其次,这样一个分布与许多常见的统计分布比较相似。比如说,正态分布是对称分布,其顶点居于分布的中心,尾部延伸至无限正值或无限负值。然而,并非所有的分布都是对称的。有的偏向于极正值,并呈正偏态分布,有的偏向于极负值,并呈负偏态分布,如图2-1所示。
图2-1 正态和偏态分布
为什么你应该关注?在偏态分布中,平均值或许并不是一个衡量典型特征的好方法。在正偏态/负偏态分布中,它将会被极正值/极负值推高或压低。在这些分布中,中位数——即这个分布的中点值(一半的数据点比它高,一半的数据点比它低)——会成为更好的指标。
当考察两组数据时,了解两个变量之间是否存在关系以及一个变量的运动如何影响另一个变量是非常有用的。以两个被普遍追踪的变量——通货膨胀和利率——为例,并假定你要分析它们之间同步变动的关系。关于这种变动,最简单的衡量方式就是相关系数。在通货膨胀上升时,如果利率也上升,那么这两个变量就是同步变动的,而且彼此之间是一种正相关;在通货膨胀上升时,如果利率下降,那么它们之间就是一种负相关。相关系数趋于零表明利率和通货膨胀之间并不存在关系。虽然相关系数是可以告诉你两个变量是如何同步变动的,但简单回归可以让你获得更多信息。比如说,你想知道通货膨胀的变化是如何影响利率变化的。你可以在散点图中标出10年间利率和通货膨胀的数据,如图2-2所示。
图2-2 利率相对于通货膨胀的散点图
散点图上的每一个圆点都代表一年的数据。当回归直线拟合时,两个参数就出现了——一个是回归的截距,另一个是回归直线的斜率。在本例中,假设回归输出为:
利率=1.5%+0.8×通货膨胀率×R 2 =60%
截距表示的是通货膨胀为零时,利率的值;在本例中,该值为1.5%。回归斜率(b)表示的是利率在通货膨胀每变动1%时的变动情况;在本例中,该值为0.8%。当这两个变量为正相关(负相关)关系时,斜率也会为正值(负值)。这一回归等式可用来估算因变量的预测值。因此,如果你预计通货膨胀率为2%,那么利率将会为3.1%(1.5%+0.8×2%=3.1%)。在多元回归中,你可以通过这一方法利用多个自变量来解释一个因变量。比如说,你可以利用通货膨胀率和整体经济增长率来解释利率的变化。在简单回归和多元回归中,R 2 都可以解释因变量的变动百分比,而因变量的变动则可以通过一个或多个自变量解释;这样,60%的利率变动就可以用通货膨胀率的变动来解释。