能够将人类大脑中浮现的画面重现出来的技术原理是什么? Hwizhi,In collective intelligence I trust 利用 fMRI 信号重建视觉场景,是一种对神经活动的解码,本质上是神经编码的一个逆问题。 顺便说一句,提问者将问题做了变动,实际上原标题更确切。因为论文的工作是用 fMRI 信号重建受试者看过的视频。新标题中中“大脑中浮现的画面”也可以理解为在不看视频的情况下想象出来画面,如是与原文工作有所出入;另外,在这种条件下用 fMRI 信号反推“浮现”的画面,具有更大的挑战性。 基于大脑反应重建视觉刺激(图像或者视频)的研究并不新鲜,而且也不局限于用 fMRI 信号重建。Yang Dan 博士(现在 UC Berkeley)在上个世纪 90 年代就用神经元的放电活动重建视觉场景(文献[1-3])。因为没有对神经解码类课题的一手研究经验,而且很长时间不看这方面的文献了,只能依据一点初浅理解对题主的问题做个概略性的回答。 1. 视觉神经通路编码和 fMRI 信号的产生 虽然从技术角度并非必须(文献[4]),了解视觉神经编码和 fMRI 信号的产生原理,可以帮助理解为什么可以用 fMRI 信号重建视觉场景。视觉神经编码的基础知识在任何一本基础性的神经生物学都有介绍。 关于编码:(1)从眼球的后壁视网膜开始,到外侧膝状体 (LGN),到初级视觉皮层 (V1),到后面分化的视觉通路上(腹侧 -ventral 和背侧 -dorsal pathway),视觉神经细胞对视觉场景的各种视觉信息特征(大小,形状,颜色,运动速度,空间位置等)的编码逐级分化 (图 1)。(2)现在广泛接受的编码理论是视觉神经细胞用放电活动频率表征视觉信息特征。例如初级视觉皮层的一个神经细胞对某个空间位置上垂直方向的线条产生强烈放电(e.g., 50 spikes/second),对其他位置和水平方向的线条放电频率则大幅下降(e.g., 6 spikes/second),甚至不放电。(3)类似功能的神经元分布在相邻的区域,例如早期视觉皮层的功能柱。Hubel 和 Wiesel 博士在 50 年代开始对(2)和(3)的开创性的系统研究为他们赢得了 1981 年诺贝尔奖。(4)Population coding 的概念[文献 6]:不同区域的视觉皮层中大量神经细胞在同一时刻的反应构成某种特定的放电模式从而表征视觉场景,这种模式可能与表征过去场景的历史模式有某种关系。 图 1,视觉神经通路 (Strand-Brodd K et al. 2011) 关于 fMRI 信号:(1)虽然具体的量化关系没有定论,fMRI 信号的强弱与神经放电的强弱正相关[7]。(2)一个 fMRI 像素表征三位空间的一个小区域内(1 个立方毫米量级)大量神经元的放电活动,还好如前面提到,这个空间内的神经元的功能比较类似。(3)相对单个神经元的放电活动信号,fMRI 信号在时间有延迟(1-10 秒)。 2. 神经解码 有了上面的信息,理论上当我们理解了每个神经细胞的放电活动,可以根据足够多的数据完全重现对应的视觉场景。如果我们进一步知道 fMRI 信号与神经放电活动的数量关系,我们也可以利用 fMRI 信号精确重建对应的视觉场景。 具体实施的时候,也不必理解中间编码的具体过程。根本问题变成求解视觉刺激与脑活动信号(fMRI、脑电、多电极纪录的单个神经元放电等信号)之间的关系。数学上,视觉刺激可以用一个矩阵描述 V,脑电信号可以用一个矩阵描述 B,中间联系他们的是一个传递函数 T,同样用一个矩阵表示。他们之间的关系可以表达为 VT=B。如果先通过测量对应一系列的视觉刺激 Vi (i=1, ..., N)的脑活动 Bi (i=1, ..., N) 可以求出传递函数 T,那么在已知 B 的情况下,可以求出对应的 V。文献[3]中论述了这几个矩阵之间的关系,[4]是一个很好的综述,文献[5]是一个具体的应用实例。 图 2,视觉刺激和脑活动 fMRI 信号的对应关系(Naselaris et al., 2011) 补充一下用电极记录的神经放电活动重建视觉场景的研究。第一行和第三行的是视觉刺激,第二行和第四行是相应的重建结果。 图 3,利用 LGN 神经放电信号重建视觉场景(Stanley GB, Li FF, Dan Y 1999) 神经解码的困难:因为原理和技术的限制,精确地实现神经解码是非常困难。第一个问题是我们对神经编码的理解还十分有限,因而导致我们的测量和建模未必能抓住最核心的参数。第二个困难源于数据采集技术带来的信息局限性。基于不同技术在数据采集精度和对神经系统损伤程度的考虑,现在能获取的数据在时间和空间分辨率都非常有限。第三个挑战是作为编码的逆问题,解码通常是一个病态问题。在有限精度下,两幅场景对应的神经放电模式/fMRI 图像可能几乎一致,从而当你看到一幅 fMRI 的模式,你不能确定反推出到底哪幅图像是本来的刺激图像。在这种情况下,你无法实现视觉场景重建。 3. 几篇关键文献 1)基于 LGN 神经放电活动的视觉场景重建 (Dr. Dan 的工作让我首次了解到神经信号解码的问题): [1]Dan Y, Atick JJ, Reid RC (1996) Efficient coding of natural scenes in the lateral geniculate nucleus: experimental test of a computational theory. J Neurosci 16:3351–3362. [2]Dan Y, Alonso J-M, Usrey WM, Reid RC (1998) Coding of visual information by precisely correlated spikes in the LGN. Nat Neurosci 1:501–507. [3]Stanley GB, Li FF, Dan Y (1999) Reconstruction of Natural Scenes from Ensemble Responses in the Lateral Geniculate Nucleus. The Journal of Neuroscience 19(18): 8036-8042. 2)fMRI 信号解码原理及应用 [4]Naselaris et al. (2011) Encoding and decoding in fMRI. NeuroImage 56 (2011) 400-410. (综述) [5]Shinji Nishimoto, An T. Vu, Thomas Naselaris, Yuval Benjamini, Bin Yu & Jack L. Gallant (2011) Reconstructing Visual Experiences from Brain Activity Evoked by Natural Movies. Current Biology. (应用,按照作者说法可以看看这片文章的价值:This paper presents the first successful approach for reconstructing passively viewed natural movies from brain activity measured by fMRI.) 3)population coding [6]Alexandre Pouget, Peter Dayan, and Richard S. Zemel (2003) INFERENCE AND COMPUTATION WITH POPULATION CODES. Annual Review of Neuroscience 26: 381-410. 4)fMRI 和神经放电活动的关系 [7]Logothetis et al. (2001) Neurophysiological investigation of the basis of the fMRI signal, Nature 412, 150-157. 镜亦非台,cognition and cognitive neuroscience 首先提问者给出的截图来自 UC Berkeley 的 Jack Gallant lab 2011 年发到 Current Biology 的:Reconstructing Visual Experiences from Brain Activity Evoked by Natural Movies: Current Biology 网站上有他们的重建效果的视频,感兴趣的可以去看看。关于 brain decoding 的研究有不少,主要用 machine learning 的方法,比如说这里有篇重建人脸(静态) 的文章也很有趣:Neural portraits of perception: Reconstructing face images from evoked brain activity 因为 brain decoding 是很复杂的课题,这里我就只针对性地回答一下提问者提到的这篇文章的原理。 如果提问者阅读过原文的话,应该发现文章的重点其实是在自(炫)豪(耀)地讲他们之前提出的一种新型的 encoding model (编码方法,有 decoding 自然也就有 encoding)如何如何好,这种叫作 motion-energy encoding model 的方法(主要是用来 model 对运动物体的感知的)的 NB 之处呢在于克服了 fMRI 研究的一个局限:fMRI 主要是以 BOLD(blood oxygen level-dependent, 血氧依赖水平)信号来间接反映神经元信号的,fMRI 分析的假设认为只要相应的神经元被激活了,BOLD 信号就会开始增加,但是实际上它们并不同步,BOLD 信号要比神经活动慢一些,比如说 BOLD 信号的 peak 点就比神经活动的 peak 点要慢 6s 左右。最常用的假设的 BOLD 信号模型如下图,我们可以看到神经活动大概过了 6s 后,BOLD 的曲线才慢慢到达顶点。但是 BOLD 信号变化这么滞后,怎么能快速反映瞬息万变的世间万象和心理变化呢?这个问题深深地困扰着很多 fMRI 研究者。所以这篇文章的算法解决了这个问题,“顺便”重构了一下看电影片段时的 fMRI 信号,然后我们就被震惊啦,大牛出手非同凡响! 图 1. 作为 machine learning 的方法,首先他们需要 training data,这里的 training data 是观看 7200s 的电影片段相对应的位于腹侧枕颞视觉皮层(ventral occipitotemporal visual cortex)的 BOLD 信号,BOLD 信号记录下的是观看电影时视觉皮层特定区域的整体活动,这样是不能用来建立 fMRI 活动和视觉图像的对应关系的,所以他们用了某种叫做 nonlinear spatiotemporal motion-energy filter 的过滤器来提取图像的特征 (这里叫 filters,但是我感觉应该是特征的意思), 比如位置,方向,空间,时间频率啊这些,如图 2B 所示。然后再把这些特征与 BOLD 信号(也就是图 2A 中的 Hemodynamic response)结合起来,每一个特征对应一种特定的 BOLD 曲线(运用了 L1-regularized linear regression 的方法),把这些曲线合在一起就是预测的 BOLD 信号。这里是用 training data 得到的模型,然后他们又把这些模型用到 540s 电影(新的电影片段)的 test data 上面,拿预测的信号与实际的信号作比较从而判断模型的准确性(通过计算两者的相关性)。为了显示自己模型的优越性,作者拿了另外两个模型作比较,最后当然如我们所料,作者的模型完胜。 图 2. 前面大费周折说了那么多,总结一下就是作者的 encoding model 是可以用来预测看 natural movie 时的 BOLD 信号的! 下面是大家比较感兴趣的重建(reconstruction)过程, 所谓重建就是利用 BOLD 信号来重构图像,传统的 fmri 研究是刺激→BOLD 信号这样一个过程,重建就是反过来 BOLD 信号→刺激的过程,也就是传说中的“读心术”。重建的刺激是新的电影片段,BOLD 信号来自视觉皮层。首先要说明一下这个重建并不是真的直接提取大脑信号来重建,而是先建立一个包罗众多电影片段的数据库(18 million second,5000 小时),然后用上述的 encoding model 来建立视觉刺激与 BOLD 信号之间的关系(predicted signal),通过比较预测的信号与实际测量的信号(被试在 MRI scanner 里面躺了 5000 小时???)来对视觉刺激进行一个排名(图 3B),图 3C 就是与站立人像的 BOLD 信号最接近的 30 副图,所谓的解码也就是在记录被试看影像时的 BOLD 信号的同时,比对数据库中已存的实际影像的 BOLD 信号,然后找出最接近的片段,图 4 看起来更清楚,红色方框里就是所谓重构的图像,按照接近程度进行排列。楼主给的图的右侧看起来比较模糊,是因为那幅图是 100 张图平均的结果,并不是一幅图,也就是图 4 的 AHP。至此,重构过程也就完成了。2013 年的时候,日本的学者发了一篇 science 用的是类似的方法来解梦,感兴趣的可以移步看一下:Neural Decoding of Visual Imagery During Sleep 如果大家觉得这样的黑科技出来,以后人类就没有隐私了,因为我心里想什么就会被知道了(心理学的学生窃喜终于盼到这一天了)那就实在高估现在的技术水平了。首先 MRI 那么昂贵笨重的机器在那里,直接就限制了这项技术的商业化运用,其实整个编码解码过程都需要被试的高度配合,这也是为什么文中只用了三个被试,而且都是合作者!!躺进过 MRI 中做实验的人都知道其中的痛!!再者,解码的算法还需要很大的改进,从图 4 中可以看出解出来一些奇怪的画面。不过不管怎么说,这篇文章的想法真的很独特,虽然说这种想法本身就会导致重构图像的不精确,不过这只是迈出的第一步(也许好几步了,我就不数几步了),相信未来的发展会更加超出我们的想象的! 图 3. 图 4. 后记: 今年学期要结束的时候,Dr. Gallant 来我们系做一个讲座介绍他的研究,不得不说 Gallant lab 做的研究真的特别 impressive,有兴趣的朋友可以去他的实验室 lab 看一下(Gallant Lab homepage),重建视觉信息只是他研究的一部分,他们还有很多有意思而且很重要研究正在进行。Dr. Gallant 在讲座的时候说他不是一个 psychologist,因为那些高级的认知功能太复杂恐怕这辈子都搞不清楚,但是视觉区域的研究已经相对比较透彻了,所以他有生之年还有可能见到搞清楚的一天。这篇文章也正如他说的那样,主要在讨论技术层次的问题,涉及到 fMRI 技术,信号处理还有贝叶斯统计方面的内容,基本上和认知功能没有什么太大联系。 查看知乎原文