第三节 统计论证
人们在对总体中的样本个体进行考察时,会遇到两种情况:一种情况是在所考察的个体中,每一个样本个体都具有P属性,无一例外,于是概括出总体或总体中的其他个体也具有P属性,这就是枚举推理。另一种情况是在所考察的样本个体中,有些具有P属性,有些不具有P属性,这时就需要对具有P属性的样本个体进行测量,基于对样本具有某种属性的统计,概括出总体或总体中的其他样本也具有这种属性的统计性结论,这就是统计推理。统计推理有统计概括和统计三段论两种形式,我们把运用这两种推理形式的论证叫做统计论证。
一、统计概括
在所考察的样本个体中,有些具有P属性,有些不具有P属性,我们把具有这种特征的样本属性叫做样本的统计属性。统计概括就是从样本的统计属性概括出总体的统计属性的推理。例如:
(1)我从超市的桶中舀了一勺杂拌坚果,15粒坚果有5粒是杏仁。所以,桶里的杂拌坚果有1/3是杏仁。
(2)心理学家在对500名文科生的调查中发现,其中85%的学生有数学恐惧症。所以,85%的文科生有数学恐惧症。
以上推理具有如下形式:
S的x%有P属性所以,A的x%有P属性。
在以上形式中,“x%有P属性(0<x<100)”表示被考察样本S和总体A的统计属性。
统计概括的可靠性主要取决于样本是否有代表性。只有从能够代表总体的样本出发,才能得到关于总体的可靠结论。但是,怎样才能使样本具有代表性呢?通常从样本的容量和样本与总体的相关性两方面来保证样本的代表性。以下我们主要围绕样本的代表性给出评估统计概括的批判性准则,每一条准则都是提高归纳强度的必要条件。
准则1.样本越大越有代表性。
过少的样本难以保证样本的代表性,除非有证据表明样本属性与描述属性是同质的。不过,如何确定样本容量是一个重要而棘手的问题。我们不能给出一个精确的指标,这里只谈两个与确定样本容量有关的重要因素。
首先是时间因素,我们知道对样本的考察是很费时的,样本的规模过大是不现实的。比如,调查二千万选民的政治态度,也许调查还没有结束,选举活动已经结束。再说,随着时间的推移,选民的态度也会发生变化。
其次是总体性质,总体的性质指的是总体的规模和它的异质性程度。由于样本越大,越接近总体,所以总体的规模越大,其样本也应越大。
但是,这种情况仅在一定程度上是适用的。当总体规模足够大时,比如说其中的个体数是无穷的或者是不知道的,总体规模对样本容量只有较小的影响,或者说样本的增大对接近总体几乎没什么作用。所以,当我们说样本越大越能为确信结论提供保证时,不意味着样本的数量与对结论的确信是成正比的,你不能说一个基于3000个样本的归纳概括,它的归纳强度是基于1500个样本的两倍。样本容量除了受总体规模的影响外,还受总体内部的异质性程度的影响。内部的异质性程度越低,所需要的样本容量越小;内部的异质性程度越高,所需要的样本容量越大。要获得适当的样本容量,对总体的了解是不可少的。
准则2.样本与总体的相关性越大,样本就越具有代表性。
样本的代表性除了取决于样本的容量以外,还取决于样本与总体是否具有相关性,二者的相关性主要是由不同的抽样方法决定的。让我们比较以下两则归纳概括:
(1)不知道密云水库有多少种鱼,也不知道它的总量是多少。根据一次对捕鱼比赛所捕捞到的1000条鱼的统计,其中有98%是鲤鱼。由此推断,密云水库的鱼有98%是鲤鱼。
(2)不知道密云水库有多少种鱼,也不知道它的总量是多少。根据对在不同的时间和地点捕捞的1000条鱼的统计,其中有80%是鲤鱼。由此推断,密云水库的鱼有80%是鲤鱼。
这两则概括的样本容量是相同的,显然,我们对第二个推断的信心更大一些,因为它的抽样有一定的代表性,而第一个推断中的抽样则有一定的倾向和偏差。比如,比赛以捕鱼总量和单尾鱼的最大体重定输赢,根据经验,密云水库的鲤鱼长的最大,所以参赛选手总是选择在鲤鱼集中,而且经常有大鲤鱼出没的地方捕捞,这就使样本产生了较大的偏差。如何避免样本的偏差,使样本的统计数值(样本属性)最大限度地接近总体的统计数值(描述属性),这就是样本与总体的相关性问题。显然,这种相关性程度越高,样本就越具有代表性。
我们用概率抽样这个概念来描述样本与总体的相关性,如果样本是根据总体的不同性质选择恰当的随机抽样方法选取的,那么样本与总体就有相关性,并把它称为统计相关。
在社会和自然界中,某一类事件在相同的条件下可能发生也可能不发生,这类事件称为随机事件。例如,一只口袋装两只黑色球、一只白色球和一只红色球,这四只球的大小、形状和重量完全一样,从袋子里任意取一球,“得到的是一只红色球”就是一个随机事件。不同的随机事件发生的可能性的大小是不同的,概率就是用来表示随机事件发生的可能性的大小的一个量。将必然发生的事件的概率规定为1,将不可能发生的事件的概率规定为0,而一般随机事件的概率是介于1与0之间的某个数。比如,从袋子中取得白色球的概率为1/4,取得黑色球的概率则是1/2。
概率越大就表示该事件发生的可能性也越大。
概率抽样就是使总体中每一个体都有一个已知不为零的被选择的机会进入样本。概率抽样分为两大类:等概率抽样和不等概率抽样。前者总体中每一个体被选择的机会均等,后者总体中每一个体被选择的机会不等。等概率抽样又称随机抽样。对于不等概率抽样,可以采用某些加权的方法对不相等的概率进行调整。在以各种方式抽取的样本中,随机样本的代表性最高。让我们来了解几种常用的随机抽样方法。
简单随机抽样:简单随机抽样是一种特殊的等概率抽样方法,总体中每一个体均有同等被抽选的机会,而且样本中的每一个体都是被单独选出的。日常的抛硬币、抽签等方法都是简单随机抽样。这种抽样方法在抽样时不进行任何分组、排列,使总体中的每一个体都有平等的被抽取的机会,它最直观地体现了随机抽样的原则,是最基本的概率抽样,其他的概率抽样可以看成是由它派生出来的。简单随机抽样是概率抽样的理想类型,没有偏见,简单易行。但是,当总体所含的个体数目太多时,采用这种方法就不方便了。
比如,从北京市的所有家庭中抽取1000户作样本,用简单随机抽样法,需要将北京市200万以上的家庭全部登记造册,这是一项巨大的工作。
另外,在构成总体的个体的异质性程度较大时,用这种方法会有较大的误差。
分层随机抽样:所谓分层抽样就是根据一种或几种特征将总体分为几个子体(子类或子群),每一个子体为一层,然后再使用简单随机抽样从每一层中抽取样本。当一个总体的内部层次明显时,分层抽样按群体的不同特征分布,从不同的层中获得尽可能均衡的样本数,使样本与总体更相似,从而改善了样本的代表性,能降低简单抽样所造成的误差。例如,在某个教师总体中,教授占总体的20%,副教授占总体的30%,讲师占总体的40%,助教占10%。按这四种职称类别进行分层抽样,使样本在各类教师中所占的比例也分别为20%,30%,40%和10%。这时,样本似乎成了总体的一个“缩影”。在总体内的个体数目较多、结构复杂、异质性程度较高的情况下,分层抽样比较适用。一般说来,分层的数目越多,样本越大,样本就越有代表性。
系统随机抽样:系统随机抽样是简单随机抽样的一个变种,将总体的所有个体前后进行编号,然后根据这个编号次序和某个规定的间隔进行抽样。与简单抽样一样,系统抽样也要收集总体的名单,对所有个体进行编号。不同的是系统抽样是按等距间隔进行抽样,所以又称之为等距抽样。比如,抽样个体是登记在同样大小的卡片上,按随机排列的次序放在盒子中,如户籍卡片,就可以用一把尺子每隔一寸抽一张卡片。与简单抽样相比,这种方法不但工作量小,而且能使样本在总体中的分布更平均,抽样误差小于或至多等于简单抽样。不过,系统抽样是以总体的随机排列为前提的,如果总体的排列出现有规律的分布时,就会使系统抽样产生很大的误差,降低样本的代表性。比如,部队的名单一般是以班为单位排列的,十人一班,第一名是班长,最后一名是副班长;若抽样距离也是十时,则样本或者都由正、副班长组成,或者都由战士组成,失去了代表性。所以,在使用系统抽样时要注意考察总体的排列情况和抽样距离。与简单抽样一样,它适用于同质性较高的总体,当总体中不同类别之间所含个体的数目相差悬殊时,使用这种方法得到的样本的代表性可能会很差。
由此可见,根据总体的不同性质选择恰当的随机抽样方法能提高样本的代表性。提高样本代表性的后续方法是在确定了样本规模和抽样方法后,先对抽出的一小部分样本进行评估。比如,我们要调查某镇上的家庭平均人口和每月的平均消费水平,决定从全镇的4000户家庭中抽取500户作样本,在确定样本之后,先抽出100户,然后利用一些容易得到的资料,如全镇人口的性别比率为107∶100,而在抽取的100户中,人口性别比率为105∶100;又从其他报表得知全镇家庭三人以上的大户占28%,二人与三人的小户占56%,单身户占16%。而在所抽到的100户中相应的比例为25%,60%,15%。从上面的比较中看到,所抽样本与总体情况相似,这就说明样本较有代表性。一般地说,比较的变量越多,统计数值越接近,样本就越有代表性。
准则3.结论统计数值的参数区间越大,
归纳强度就越高。
抽样调查的目的不是为了认识样本自身的属性,而是以此为根据推论总体的属性。根据随机抽样的统计值,所概括出的总体的统计值,不是一个精确值,而是一个估测值。样本的统计值是总体估测值的一个参数,围绕这个参数有一个正负误差的区间,称之为参数区间。例如,在某个有10000名员工的企业中,从中随机抽取的400名员工的月平均收入是1200元,由此推测,该企业全体员工的月平均收入在1100~1300元之间,其中的1200元是参数,100元的正负误差称为参数区间。也就是说,总体的估测值是一个参数值。
比如,基于抽样调查,我们会说该企业员工的月平均收入在1200元左右。
显然,结论统计数值的参数区间越大,前提对结论的证据支持程度就会越强,对结论的确信程度也会越高,反之,则会越低。但是,统计数值的参数区间与其精确度却是成反比的,参数区间越大,数值的精确度越差。这就是说,对同一样本,若提高对其结论精确度的要求,就要相应降低对其确信度的要求;反之,若提高对其确信度的要求,就要相应降低对其精确度的要求。这一点对评估归纳强度是非常重要的。
二、统计三段论
统计三段论是统计概括的逆转形式。让我们看以下几则推理:
(1)北京四中的毕业生有90%考上了重点大学,小明是北京四中的毕业生。所以,小明也可能考上了重点大学。
(2)北京四中的毕业生有90%考上了重点大学,高三的二班是北京四中的毕业班之一。所以,二班的同学也可能有90%考上重点大学。
(3)绝大多数儿童都爱吃冰淇淋,小文今年5岁。所以,小文也可能爱吃冰淇淋。
(4)98%的女人都使用化妆品,前进棉纺厂的纺织工都是女的。所以,前进棉纺厂的纺织工也可能有98%的人使用化妆品。
上述推理被称为统计三段论。如果结论描述的是样本个体的属性,如推理(1)和(3),其推理形式是:
A的x%有P属性。
这个a属于A所以,这个a可能有P属性。
如果结论描述的是样本的属性,如推理(2)和(4),其推理形式是:
A的x%有P属性。
这些个a属于A所以,这些个a的x%可能有P属性。
在日常思维中,统计三段论的小前提经常被省略,表现为以下更简明的形式:
A的x%有P属性。
所以,这个a可能有P属性。
或者A的x%有P属性。
所以,这些个a的x%可能有P属性。
例如:
(5)95%的地方政府都奉行地方保护主义,所以,这个地方的政府也可能奉行地方保护主义。
(6)几乎所有的模特都很苗条,所以,今天上台表演的模特也可能很苗条。
除了省略小前提之外,使用大多数、绝大多数、几乎所有、通常、总是、一直等标志词代替统计三段论中的统计数字,这也是日常思维中统计三段论的一个显著特征。以上是统计三段论的肯定形式,当然,统计三段论也有否定形式。例如:
(7)几乎没有运动员能跳过2.5米的高度,所以,这位运动员很可能不能跳过2.5米的高度。
(8)绝大多数钞票不是假的,所以,这张钞票很可能不是假的。
(9)我服用阿莫西林一直没有过敏反应,所以,这次服用也不会过敏。
现在让我们来了解评估统计三段论的批判性准则:
准则1.总体中的x越接近于100,结论为真的可能性就越大。
很显然,以下基于推理(10)的前提所得出的结论为真的可能性,要比基于推理(11)的前提所得出的结论为真的可能性大得多。
(10)田家庄99%的人都姓田,这个人是田家庄的人,所以他很可能姓田。
(11)田家庄55%的人都姓田,这个人是田家庄的人,所以他很可能姓田。
准则2.样本或样本个体应当在总体中具有代表性。
让我们来看以下论证:
(12)98%的深圳人都来自外地,张华是深圳人,所以张华可能来自外地。
样本或样本个体是否有代表性,取决于样本或个体的属性是否享有x的属性。张华是外地人的可能性究竟有多大?如果我们只知道张华是深圳人,这种可能性会在98%左右。如果我们还知道张华是来自深圳福田村的“寓公”(以出租房子为生的土著居民),该论证的前提对结论的支持就相当有限了。如果是这样,则应形成以下论证:
(13)绝大多数福田村的“寓公”是本地人,张华是福田村的“寓公”,所以张华可能是本地人。
如何保证样本或样本个体享有x的属性?这是一个经验性的问题。统计三段论的大前提选择了总体的某种属性,如“来自外地”,保证样本或样本个体享有x的属性的方法,是依靠经验考察样本或样本个体是否具有与大前提所选择的属性相关的属性,如口音、职业和相貌等与“来自外地”相关的属性。如果张华的口音有浓厚的东北味,从事的职业是软件设计,相貌体格有北方人的特征,这些额外信息大大提高了论证(12)的可信性;如果张华的口音和相貌明显具有深圳土著居民的特征,而且从事的是福田村房屋租赁的管理工作,这些额外信息则大大降低了论证(12)的可信性。无论是统计概括,还是统计三段论,其结论总是向经验敞开的,而且会不断得到经验的修正。请看以下这则对话:
谍报队员:吉尔伯(职业间谍)看牙医的可能性仅有百万分之一。
谍报队长:对职业间谍来说,百万分之一的可能就是十分之九的可能。
准则3.结论统计数值的参数区间越大,归纳强度就越高。
如果统计三段论的结论描述的是样本的属性,而不是样本个体的属性,就涉及结论统计数值的参数区间的问题。显然,以下论证(14)的归纳强度弱于论证(15)。
(14)95%的深圳人是外地人,所以在座的100个深圳人可能有95人是外地人。
(15)95%的深圳人是外地人,所以在座的100个深圳人可能有95(±5)人是外地人。
三、统计推理的谬误
统计推理的谬误包括在论证中运用统计概括和统计三段论时所犯的错误。在统计概括中,常见的错误如样本太小、样本不具有代表性等,与枚举推理中常见的错误类似,在此不重复讨论。
这里介绍的赌徒的谬误、平均数的谬误和精确度谬误,属于运用统计三段论时所犯的错误,其共同特征是在推理中将总体的属性误用于样本或样本个体,区分这类错误的标准是误用统计数据的表现形式各不相同。
1.赌徒的谬误
赌徒的谬误指的是误用大数定律所产生的一种谬误。例如,在盘子上具有红、黑两色的轮盘赌中,每次出现红色的概率是1/2,赌徒输一次就增加赌注,以为这一次输了,下一次赢的机会就会增大;赢一次就减少赌注,以为这一次赢了,下一次不大可能还会赢。这就是赌徒的谬误。
随机事件发生的频率通常有一定的规律性,在重复进行大量的试验时,这种频率总是接近于某个常数,这个常数称为该随机事件发生的概率。当试验的次数足够多时,随机事件发生的频率与它们的概率可以无限接近。然而,就某一次随机事件而言,它都是独立的,上一次发生的事件既不会增加,也不会减少下一次事件发生的可能性。比如,抛掷硬币正面朝上的概率是1/2,即使硬币连续10次出现正面朝下的情况,下一次正面朝上的概率还是1/2。
有一个与赌徒的谬误相关的有趣例子,据说在第一次世界大战中,许多士兵躲在炸弹坑里,理由是两颗炸弹几乎不落在同一个地方。在第二次世界大战中,国际象棋大师班里在伦敦的住宅被炸之后,基于同样的理由返回他的住宅,结果他的住宅又一次挨了炸弹。
2.误用平均数
在论证中,如果将总体的平均值或平均数的性质机械地分配给总体中的个体,就会导致反例的产生,犯了误用平均数的错误。平均数的含义本身就意味着个体的统计值围绕它有上下幅度的波动,而且在许多情况下这种波动的幅度是相当大的。比如,你可能不大相信一位身高1.8米的小伙子,在平均不足半米的河水中被淹死了,其实他是在河中取沙子时,掉进取沙后所形成的超过5米的深潭中被淹死了。再如:
马先生最近决定花5000美元购买一部1974年生产的R.R牌二手车,这个价格比目前这种车的平均售价低50%。买了这部车后,需要花10000美元的维修费才能把它修好。由于这部车是古典型轿车,预计5年后会涨价70%,如果把它修好并使用5年后,将会赚2000美元。对车的成本和维修费做了权衡之后,马先生决定购买并对它进行大修。
在马先生的决策过程中,存在误用平均数的错误。马先生以低于目前平均价的一半购买了这部车,但是,在计算5年后卖出这部车时,却是以目前的平均价,也就是10000美元为基数进行计算的。从中可以看到,一部车的实际售价通常会围绕平均价有较大幅度的上下波动,以目前的平均价为基数,只能预测出5年后这种车的平均售价是17000美元,并不能据此断言马先生的这部车也能卖17000美元,实际的情况可能会围绕这个平均价有较大幅度的上下波动。
3.精确度谬误
精确度谬误指的是由于忽视统计数值的参数区间而得出精确结论的错误。这种错误有可能发生在从样本到总体的概括中,也有可能发生在从总体到样本或样本个体的统计三段论中。
样本中的统计数值几乎不可能和总体中的统计数值完全相同,在从样本到总体的概括中,必须考虑到统计数值的误差,否则,如果得出的结论是一个精确值,这不但会大大削弱归纳概括的强度,而且会严重地损害结论的准确性和可信性。相反,在从总体到样本的统计三段论中,道理也是一样的。例如:
有两名儿童小明和小虎,心理学家对他们进行智力测验,测验的结果是小明的智商为98,小虎的智商是101,智商的平均值或者标准值是100。于是我们满怀信心地认为,小虎一定比小明聪明得多,因为小虎的智商高于平均值,而小明的智商则低于平均值。
该论证的结论过于武断,因为这一结论的得出没有考虑到统计数值的误差。对样本属性或总体属性进行测量所得出的统计数值并不是一个精确值,而是一个近似值。比如,小明的智商表述为98(±3),以及小虎的智商表述为101(±3)
可能是比较准确的,也就是说,小明的智商在95 ~101之间,小虎的智商在98~104之间,从中很快就能发现小明的智商上升到101的可能性与小虎的智商下降到98的可能性的概率是相等的。如果我们再进一步考虑智商的平均值也会有一个波动的区间,比如说在90~110之间,我们就不能说小虎比小明聪明得多,因为他们的智商都在正常的范围之内[17]。总之,面对一个以精确数值表达的统计结论,或者是在区间数值被省略的情况下,必须牢记参数区间的概念。
四、评估统计数据
在论证中,运用统计数据作论据,就好比在法庭上使用第三者的证词一样,具有很强的证据支持效力。正因为如此,在论证中一旦有误用统计数据的情况发生,就如同老实人的谎言一样,具有更大的欺骗性。审查统计数据是否具备作为理由的资格,这是评估统计论证最重要的方面。
1.独立数据
数据通常具有可比性,而且这种可比性是数据能够起到证据作用的必要条件,脱离比较基础的独立数据,在论证中的证据效力是不能令人信服的。例如:
S市人大常委会委员长在保举张三为该市市长的辩论中说:张三的领导能力已经被近三年来我市经济发展的成就所证实。仅在过去的一年中,全市有70%的工人增加了工资,创造了5000个新的就业机会,6个公司将他们的总部设在我市。
该论证所列举的统计数据就是独立数据,对于证明张三的领导能力来说是悬而未决的。若使列举的数据成为有说服力的证据,就必须与相关的数据进行比较。比如,与S市比较相似的C市的经济成就进行比较,如果在过去的一年中,C市有90%的工人增加了工资,创造了2万个新的就业机会,有30家公司将他们的总部设在该市,那么文中列举的数据不但不能证明张三的领导能力很强,反而却证明他的领导能力很弱。总之,没有比较的独立数据是缺乏证据效力的。
2.数据的相关性
在归纳论证中,归纳强度取决于样本与总体的相关性。统计概括的结论不但描述对象的性质,如“密云水库的鱼有80%是鲤鱼”,也描述对象的因果关系,如“刮四级以上的春风百日后有雨的可能性约为95%”。人们在论证中时常依靠统计相关来确认现象之间的因果联系,比如,通过对吸烟者患肺癌人数的调查,来确认吸烟是不是得肺癌的原因之一。
当我们依靠统计数据来解释或者确认一种因果关系时,必须考虑前提所选择的样本属性与结论所描述的总体属性是否相关,在不相关的两种属性之间强加因果联系是在论证中误用统计数据的常见形式之一。例如:
1840年,哈里森当选美国总统,病逝;1860年,林肯当选美国总统,被刺杀;1880年,加菲尔德当选美国总统,被刺杀;1900年,麦金利当选美国总统,被刺杀;1920年,哈丁当选美国总统,病逝;1940年,罗斯福当选美国总统,病逝;1960年,肯尼迪当选美国总统,被刺杀。自从1840年以来,凡在20的倍数的偶数年当选的总统都没有活着离开白宫,所以在1980年当选的美国总统也不会活着离开白宫。
该论证基于统计数据在某方面的巧合,认为“零年因素”是导致本年当选总统死亡的原因,事实上两者是不相干的。一位评论家在谈到这种滥用数据的谬误时,举了一个颇具讽刺性的例子:
近十年来,得克萨斯州博士的数量每年增加
5.5%,而该州骡子的数量每年却减少5.5%,所以博士数量的增长导致了骡子数量的下降。
数据的相关性还表现在样本的归属问题上。
相对不同的群体,某事在样本身上发生的可能性的大小通常是不一样的。所以,当我们衡量某事在一个样本身上发生的可能性时,必须确定这个样本属于哪个群体。
举例来说,一家保险公司在决定向一名申请购买保险的司机支付多少保险金时,他手中只有该国各类司机发生事故的统计数据,没有支付保险金的现成规定。当然,支付保险金的条件是这个支付金额既有竞争力,又能获利。
为了做出这个决定,公司调查员必须考虑这名司机在未来发生严重车祸的可能性。我们知道这是一名持有驾照的男子,其总体是该国所有持有驾照的男司机。除此之外没有其他资料。调查员需要对这名司机展开调查。比如,通过调查了解到,他超过25岁,于是把他归于25岁以上的男司机这个群体中,这个群体的事故发生率和严重事故发生率可能会相对低一些;还了解到,他已经安全行驶5年了,于是他被归于25岁以上、5年没发生事故的男司机这个新的群体中;此外,还了解到这个司机不喝酒、已婚、有孩子等。这样调查员不断以新的特征缩小司机的归属范围,同时取得了与所归属的群体相关的统计数据。调查员发现在被缩小的不同群体中,发生事故以及发生严重事故的可能性在不断下降。
调查员在确定司机所归属的群体的过程中,每选择一个新的样本特征,就会出现一种不同的可能性。其中的合理做法就是根据已有的不同群体的统计数据,不断选择相关的样本特征,尽可能缩小样本所归属的群体。依据背景知识,调查员不会选择诸如肤色、身高、体重、对食物的偏好这些不相关的属性作为样本归属的特征。如果在做决定时没有考虑样本的归属问题,或者选择不相关的属性作为归类的标准,调查员对事故在这个司机身上发生的可能性所做出的判断就会有很大的误差,或者说在结论中得出的统计数据就会缺乏相关性。
3.数据的相对性
数据的相对性主要指的是百分比、基数与绝对值三者的相对关系,比如,百分比高不意味着绝对量大,还要看基数。忽视三者的相对变化而导致对数据的滥用,在论证中也是常见的现象。
例如:
在一个具有代表性的样本中,所有HIV(艾滋病)检测呈阳性的男子,其中有75%是已婚的。所以,一般说来已婚男子是HIV的高危人群。
若得出上述论证的结论,必须对两个总体规模进行比较,即已婚男子总数和未婚男子总数的比较,必须通过比较这两个总体中HIV呈阳性人数的比例,而不是所有HIV呈阳性的男子中已婚者和未婚者各自所占的比例。比如,男子总体为1亿,其中8000万或者说80%是已婚的。假如有0.075%的已婚男子是HIV阳性,0.1%的未婚男子是HIV阳性。比较这两个总体,未婚男子与已婚男子相比,其高危比率要高出33%,因为0.1%与0.075%的比差为33%。但是,HIV呈阳性的已婚男子的数量是8000万中的0.075,即6万人;而HIV呈阳性的未婚男子的数量是2000万中的0.1%,即2万人。
当然,在HIV呈阳性的8万人中,已婚的男子占75%,未婚的男子占25%。这也就是说,已婚男子HIV呈阳性在所有HIV呈阳性的男子中所占的比例,与它在所有已婚男子中所占的比例不是一个概念,判断已婚男子是否是HIV的高危人群,主要取决于后者的比例。再如:
在某种饮用水中,铅的含量只有0.0025%。
今年肺结核发病数量增长的比率是去年的4倍。
如果饮用水中含铅量的合格标准是0.0015%,0.0025%就不是一个微不足道的数据;增长的比率是去年的4倍,不意味着今年患病的人数是去年的4倍。假如前年患者的人数是1000例,去年是1001例,那么今年则是1005例,而不是4004例。这里,衡量的标准是增长的比率,去年与前年相比增长的是1,这个增长数字的4倍是4,因而今年的总数是1005例。
4.数据的可比性
统计概括的结论总是涉及总体的性质,也就是总体的规模和它的异质性程度,由于忽略总体性质的差异而对两个统计数据进行比较,并试图在此基础上确立某一结论,这就犯了数据不可比的错误。一个著名的例子是美国海军的一则征兵广告:
在美国与西班牙作战期间,纽约市民的死亡率是1.6%,而美国海军的死亡率仅为0.9%。欢迎广大青年加入海军,美国海军的死亡率比纽约市民的死亡率还要低。
这里,1.6%和0.9%是不可比的,因为各自所概括的总体性质有很大的差异。纽约市民中有婴幼儿、老年人和各式各样的病人,而美国海军士兵都是通过体检选拔出来的身强体壮、生命力旺盛的年轻人。再如:
大学附属综合医院S在抢救危重病人方面,其成功率与市属三级医院C几乎是同样的。所以,在抢救危重病人方面S医院并不比C医院更加有保证。
如果去S医院就诊的危重病人的病情比去C医院就诊的病人相对较重,而且就诊的患者相对较多,该论证所提供的数据就不足以支持其结论。
若使这两家医院在抢救危重病人方面的成功率是可比较的,还必须提供与比较双方总体,也就是到各自医院就诊的危重病人的总人数以及与病情相关的信息。
在对数据进行比较时,除了数据本身外,必须考虑其他可比较的基础,或者可比较的因素。
例如,在比较有关犯罪率的数据时,可能需要考虑“犯罪”这一概念基础是否有相对的变化,比如几年前还没有“破坏生态环境罪”,相应的行为未计入犯罪数据中,而在今天增加了此项立法,相应的犯罪行为就被计入犯罪数据中,因此现在的犯罪率可能会高于以往的,然而,据此并不能充分肯定现在违法的社会现象比以往更加严重。再比如,过去我国对自然灾害的报道持消极态度,尤其是对灾害中造成死亡人数的报道十分保守,甚至是保密的,而现在则鼓励人们进行积极的、实事求是的报道。如果我们以公开发表的有关自然灾害的报道为基础,通过比较以前和现在的统计数据来说明问题,就必须考虑到有关报道自然灾害的政策变化这一重要因素对数据的影响。
以下这则幽默是对数据不可比的讽刺:
航空协会发言人:飞机远比汽车安全!飞机每飞行1亿公里死1人,而汽车每行驶5000万公里死1人。
汽车协会发言人:汽车远比飞机安全!汽车每行驶200万小时死1人,而飞机每航行20万小时死1人。
5.利用数据制造错觉
运用图表直观地描述和展示统计数据是理解和分析数据的特征及其所体现的规律性的适宜手段,因而使用图表刻画数据所反映的特征和规律性,在现实生活中得到了广泛的应用。形象的图表与抽象的数字相比,具有较强的视觉效果,如果运用得当,可以获得事半功倍的说服效力;如果不正当地使用统计图表,就可能给人造成错觉,并误导人们得出不相干的结论。
让我们看以下这张图表,它反映了某个国家国民生产总值在一年中的增长情况,横坐标的时间单位是月份,纵坐标的数量单位是亿元:
这是一张完整清晰的图表,标准地反映了一年中国民生产总值增长的具体状况和总体趋势,让人看上去一目了然。虽然你看到的是一张真实的图表,但是它未必是你所期望的或者是方便你使用的图表,比如用这张图表来证明国民生产总值增长的幅度看起来过于平庸,在不违背任何原则的情况下,对这张图表掐头去尾,再把纵坐标的数量级别做进一步的分割,就形成如下这张图表:
对于证明国民经济在这一年中具有强劲的增长势头,以及国民生产总值的增长获得大幅度的攀升而言,这无疑是一张更理想的图表。这种不正当使用图表的做法,与引用他人的观点时所犯的断章取义和夸大其词的错误如出一辙[18]。
不正当地使用图表是利用数据制造错觉的主要形式,不依赖图表的数字计算也能给人造成错觉。常见的形式之一是商场里的变相打折销售。
例如,同样的商品,比如一双中高档运动鞋,同样的标价,比如400元。在A店买这双鞋打八折,花320元;在B店买这双鞋不打折,但消费满100元返50元的购物券,简单的计算法则告诉我这相当于一半的折扣。于是我在B店买了一双我早就想买的运动鞋,花了400元,手中还握有200元的购物券。这些购物券开始刺激我的消费欲望,我挖空心思、四处寻找合适的商品,经过艰苦卓绝的努力和准确的计算,决定再花400元给我妻子买一双鞋,这样又能得到200元购物券,然后用400元购物券刚好能为我10岁的儿子买一双运动鞋。购物的结果是花800元买了3双运动鞋,回到家的结果是儿子不喜欢鞋的颜色,夫人不喜欢鞋的款式。返券购物不退货,当初是为了买鞋而花钱,拿到购物券之后开始为了花钱而买鞋,结果深受其害。
本书评论