「数据会说谎」的真实例子有哪些? 田吉顺,新书《妇产科男医生告诉你》上市 你一定听说过“酸男辣女”的说法,就是妈妈爱吃酸就生男孩,爱吃辣就生女孩。当然,大多数人把这个当做玩笑话——如果妈妈爱吃酸辣土豆丝难道就要生个不男不女的了? 但是,你觉得妈妈的饮食情况会影响到孩子的性别吗? 2008 年,在权威杂志《英国皇家学会学报》上发表了一篇文章:《You are what your mother eats: evidence for maternal preconception diet influencing foetal sex in humans》。研究人员就打算回答上面的问题。他们通过对 740 名女性进行分组研究,考察她们孕前、早孕期、中晚孕期的饮食情况对于胎儿性别的影响。研究人员对 133 种食物进行问卷调查研究,结果发现,怀孕前早饭吃更多燕麦的女性,更容易生男孩!而除了燕麦,调查的其他食物都和男女性别没有明显关联。 这篇文章一发表,马上引起广泛关注,Google 点击超过 50000。要知道,这可是一篇纯学术文献,也可以有如此之高的点击量! 如此高的关注度,自然逃不过学术界的质疑。2009 年,同样在《英国皇家学会学报》上,一篇针锋相对的质疑文章发表出来:《Cereal-induced gender selection? Most likely a multiple testing false positive》。提出质疑的,是三位统计学家:Stanley Young,Heejung Bang 和 Kutluk Oktay。他们撇开实验设计中的数据获取的问题,比如回忆偏倚、测量误差、精确测量的困难性等等,直接针对前一篇文章的统计学方法提出质疑。他们在对前一篇文章中提供的原始数据进行重新统计之后发现,那些数据其实全部没有相关性,而所得出的“吃燕麦生男孩”的结论,其实只是一个偶然事件。 也就是说,之前研究的那 133 种食物,对于生男生女的影响都是随机分布的;但是在那一次研究的时候,恰好发现那一批研究对象吃了燕麦更容易生男孩,这纯粹属于偶然事件。那篇文章把一个偶然事件当做结论报道出来了。 但是,做实验和统计分析,不就是为了尽可能的避免偶然因素的影响,来找到实际的关联性吗?那为什么在统计了这么多样本量和分析了这么多因素之后,竟然最终还是找出个偶然事件呢? 问题就在统计方法上。2008 年那篇文章的统计方法用的还是 p 值,但是,Stanley Young 他们指出,在做多重检验(multiple testing)的时候,使用 p 值是不正确的,而应该用校正后的 p 值(ajusted p-value),也就是要考察一个错误发现率(False Discovery Rate,FDR)。 这到底是怎么回事呢? 如果从统计学角度,原假设、备择假设、一类错误、二类错误的可能比较复杂,我尽量用最简单的话解释一下基本思想。 我们做的每一个判断都是有可能出错的,但是,我们希望经过我们的努力,使我们的判断出错的概率尽可能小。就是说我们允许自己犯错,但是不能太离谱,老是犯错就不对了。 我们在做统计研究的时候也一样,也是有一定的“容错率”的,比如说 1%。也就是我们做这项研究,按照这样的统计方法得出的结论,虽然有可能是错误的,但是错误的机会不超过 1%。这种小概率事件在一次试验中实际发生的机会其实微乎其微,于是我们认为结果是可信的。 但是,当我们研究的因素多起来,对这些因素同时进行统计分析的时候,本来一个因素 1% 的出错机会就被放大了。比如每个因素有 1% 的出错可能,当我们的研究因素增加到 100 个,那么就会存在一个结果是 100% 错误的。就好像如果一个疾病的发病率是 1%,那么在 100 个人当中,就会有一个是患病者。本来的小概率,当遇上更大的基数时,小概率事件就发生了!所以,就出现了上面提到的,虽然那 133 种食物的影响其实都是随机的,但是当对他们进行研究时,竟然出现了一个“有意义”的结论。 这样一来,本来只是一个很小的犯错几率,结果因为分析因素的增多,竟然真的出现了错误! 因此,在 1995 年,Benjamini 和 Hochberg 提出在多重检验时要考察 FDR 的概念,就是要限制这个被增大的错误机会。而当把 FDR 控制在一个可以接受的范围内时,再对 2008 年那篇文献的原始数据进行统计,就会发现那 133 种食物对于胎儿性别其实都没有特异性的影响。 目前,FDR 的概念被用于高通量的基因相关研究。因为基因片段实在太多了,量级可能不仅是几百几千,甚至上万,这时候如果继续使用 p 值检验,那么就会错得离谱。但是,试验在定 FDR 时,也不是越低越好,因为过低的话,可能本来有意义的结果,也因为过低的 FDR 而显示无意义了。所以,FDR 的确定,应该在一个平衡点,因此当我们考察 FDR 的时候,可能就有某个因素其实已经出错了,只不过这个错误的数量尚在可接受范围内。 这让我想到前些天,因为 Angelina Jolie 继乳房切除后又切除双侧卵巢输卵管,让有些人感觉依靠基因治疗癌症预防癌症好像指日可待。而且,很多科幻电影上,也不乏通过基因测定或者改造来判断和影响人体某些特性,或者治疗疾病。 确实,基因的发现对于生物医学来说,可谓意义重大;当科技领域的进步让人充满期待的时候,基因的出现让生物医学不至于太过寒碜。但是,作为医生我得说,我们可以期待科技领域的“日新月异”,但是在临床医学上,最好还是保守一些。基因确实对医学有帮助,但研究的同时,即使改进统计方法,也会带来实际出错的机会。而在生命和健康这么一个特殊的领域,我们的容错率是很低的。即使是实验室研究已经获得了令人欣喜的结果,在临床医学领域,我们还是要老老实实的设计严格的临床试验去验证,而很多时候,医学上的验证是需要时间的。 这还让我想到大数据。现在是一个逢人必说大数据的时代,而且大数据确实给我们的观念带来巨大的冲击。但是,大数据不牛逼,分析数据获得信息才更重要。因为有瑕疵的分析方法,就有可能会得出前面提到的“吃燕麦生男孩”的结论。如果这样的分析结果用在投资上,大不了就是一次投资决策失败,最多某人破产,他还尚有东山再起的机会。而如果这样的问题出现在医学领域,那么受影响的恐怕就是健康和生命,结局的可逆性就没有那么好了。 1988 年,Russell Ackoff 提出了 DIKW 金字塔。这个金字塔的最底层是数据,而塔尖则是智慧。在从数据通往智慧的路上,是信息和知识。所以,我们这个世界上不缺乏数据,缺乏的是通过合适的方法从数据中获取信息,进而从信息中提炼知识,上升到智慧的能力。 其实数据不会说谎,它们只是一些毫无意义的数字而已;但是当你对这些数字进行解读,从获取到分析,这个过程就可能出现问题,即使你的每个步骤都是合乎逻辑的。在医学上,这就是医学的不确定性带来的。 而且,医学还有它的特殊性。医学解决问题都是滞后的,一定是先出现疾病,然后我们才能认识到它,再去想办法去解决它。我们不会去预测新的疾病。当你已经知道事情的结局,企图对这个结局进行解释的时候,总是难免会不自觉的带入自己的偏见。而我们每个人都更容易发现别人的偏见,对别人的解释倾向于怀疑。这时候,数据就出现了。因为数据是最客观的东西,于是它就变成了最好的说服别人的方法。所以有时候我们分析数据的目的,可能还不是为了解释现象获取信息,其实仅仅是为了说服别人或者说服自己。 所以,当把大数据引入医学的时候,更应该时刻保持警惕。大数据分析的时候,可能出现问题的地方远不止前面提到的 FDR,还有很多,这就需要我们对结论时刻保持怀疑,并且留出足够长的验证时间。 查看知乎原文