测量变量之间的关系
绝大多数相关研究中,变量之间的关系是通过相关系数来体现的。让我们回顾如何定义和解释这个统计量。
相关系数
相关系数(correlation coefficient)是用于表征变量之间关系的统计量,一般用符号r来表示。相关系数的值在-1.00至+1.00的范围变化。正相关系数表示因变量的值随着自变量增加而增加(图4.1a)。例如,应激与抑郁的正相关表示人们报告的应激源越多,其抑郁程度就越高。

相关可以是正的(a)或负的(b)。零相关(c)表示自变量和因变量之间没有关系。绝大多数相关是中等相关(d),表示自变量的值不能完全预测因变量的值。
负相关系数表示因变量随自变量增加而减少(图4.1b)。如果我们测量应激源和抑郁程度,负相关意味着报告经历更多应激源的人其抑郁程度更低。这种情况不太可能发生,但确实存在很多变量之间是负相关的实例。例如,得到正向社会支持越多的人,通常抑郁程度越低。
相关的量值(大小)是指变量之间同时发生变化的程度。它体现为相关系数接近-1.00或+1.00的程度。相关量值(r)为0,表示变量之间没有关系(图4.1c)。当r为+1.00或者-1.00时,表示变量之间完全相关(如图4.1a和4.1b所示),一个变量的值可以完全预测另一个变量的值。例如,人们每次经受应激时都变得抑郁。
心理学研究中很少有完全相关。相反,相关量值往往落在低或中等范围内(例如,0.2到0.5),表示两个变量之间有一定关系,但远低于完全相关(图4.1d)。变量之间的很多关系具有偶然性,没有什么意义。科学家通过检验统计显着性来评估相关系数的重要性。
统计显着性
结果(如相关系数)的统计显着性(statistical significance)指示的是纯粹由于偶然导致该结果发生的可能性。在研究中你经常会看见这样的结论,如“结果在p<;
0.05的水平上具有统计显着性”。这意味着该结果偶然发生的概率(p)在100次中不到5次。虽然选择可接受的显着性水平某种程度上具有随意性,但大多数研究者都认为这个显着性水平支持了他们的假设。
当显着性水平定为p<;
0.05时,相关系数是否具有统计显着性取决于相关系数的大小以及样本的大小。相关系数和样本规模越大,就越容易达到统计上的显着。如果样本达到200人或更多,0.30的相关系数也会是显着的;但如果是10人或者不到10人的小样本,那么0.30的相关系数就不具有显着性。另一方面,即使样本只有30个人,0.90的相关系数在统计上也是显着的。
具有统计显着性的结果可能不具有临床显着性。例如,一项涉及1万人的研究可能发现,人们经历的应激数量与其在抑郁问卷上的得分之间的相关为0.15。由于样本很大,这个相关可能具有统计相关性。但是这个相关数值太小,表明应激不能很好地预测抑郁。类似地,由于两组样本都很大,所以两组人的平均抑郁水平的差异可能也达到了显着水平。但是,如果抑郁问卷的分值范围是0到60分,而两组的分数差异只有1到2分,那么两组差异的临床显着性就会受到质疑。越来越多的研究开始对一个效应是否兼具统计显着性和临床显着性进行检验。
相关和因果
因变量和自变量高度相关,并不意味着自变量导致了因变量。如果我们发现了应激与抑郁症之间存在强相关,我们也不能下结论说应激导致了抑郁。正相关系数只能告诉我们一件事,即应激和抑郁症之间有关系。可能是抑郁症导致了应激,或另外某个变量同时导致了应激和抑郁症。后一种情况称为第三变量问题(third variable problem),即研究中没有被测量的变量,才是被测量的变量之间产生关系的真正原因。例如,有些脾气糟糕的人因为难以相处,既容易患抑郁症,也容易在生活中遭遇应激体验。如果只测量应激和抑郁症,我们可能会观察到它们之间有关系,因为它们确实同时出现在同一个人身上。但这种联系可能实际上只是因为它们都和此人的性情有关。






本书评论