日报标题:确实出了点 bug,但 15 年大脑研究并不会付诸东流 相关链接:数以万计的 fMRI 脑科学研究,可能因软件 Bug 存在重大瑕疵 沉默的马大爷,终于开公众号啦:Madaye_psy | 初级心理学工作者 | 现代颅相学从业者 作为一名现代颅相学 (fMRI) 从业人员,尝试用通俗的语言解释一下这件事: 1.这篇论文到底讲了什么? 在科学研究中,一个效应是否存在,通常会设定一个统计学标准,达到这个标准就认为结果显著(阳性结果)。对于 fMRI 数据,有两种常用的标准,一种我们称之为 A(基于 voxel 激活强度),另一种我们称之为 B(基于 cluster 大小)。对于 B,又有两种主要的参数设置方法,一种是 X(用 voxel 水平 p<.01 界定 cluster),一种是 Y(用 voxel 水平 p<.001 界定 cluster)。这篇文章主要质疑的是 B+X(基于 cluster 大小的阈限,用 voxel 水平 p<.01 界定 cluster)。作者找到了一批理论上讲不应该得到显著结果的数据(静息态 fMRI+ 随机生成实验组),使用几种常用的数据分析软件作分析,发现如果采用 B+X 的思路分析,虚报结果的概率很高,可以达到 70%(基线水平应该是 5%)。如果使用 B+Y,也会有偏差,但没那么大。 2.是因为程序的 bug 吗? 不是。这是一个统计学问题,不是程序问题。所谓的「程序 bug」,是论文中提到某个数据分析软件(AFNI)的某个函数(3dClusterSim)存在 bug。这个软件确实用得不少,但也只是市面上多款软件中的一个而已。上面说的假阳性的问题,对于其它软件也同样存在,背后的原因是,方法 B 有一些前提假设,但是真实数据可能并不满足这些假设,导致偏差。在 B+X 的情况下,这种误差尤其明显。 3.40000 篇论文都受到影响吗? 不是。论文作者之一 Thomas Nichols 最近写了一篇博客,表示很后悔抛出 40000 这个数字:Entries for Wednesday 06 July 2016, Neuroimaging Statistics Tips & Tools. 40000 其实是 PubMed 上搜到的所有 fMRI 相关论文的数量,其中大概 15000 篇使用的是方法 B,而使用 B+X 的大概是 3500 篇。这篇论文提到的问题,主要影响这 3500 篇。 4.3500 篇论文里有 70% 都不靠谱吗? 不是。这是对于推论统计的一个常见误解:假阳性概率 70%,并不意味着得到的阳性结果有 70% 都是假的。70% 是一个条件概率,意思是当真实效应不存在时,得到显著结果的概率:P(结果显著|真实效应不存在)。一篇论文的显著结果是否是假的,这是另一个条件概率:P(真实效应不存在|结果显著)。二者之间不能划等号。对于真实的研究情境,我们不知道真实效应是否存在的先验概率,只能做合理的猜测;如果一项研究有大量先期结果的支持,做出来的效应量很强,那么即使用了 B+X,也可能是可靠的。 总结一下就是,这篇论文确实指出了 fMRI 数据分析中的一个重要问题,但是因为作者和杂志一些不当的表述方式,被希望抓人吸引眼球的媒体利用,将其影响力放大了若干量级,制造出了一个耸人听闻的大新闻。 阅读原文