在抑郁症基因的探索上,弗林特设计的研究方法有什么独到之处?为什么只有 CONVERGE 团队成功了? Jack Wang,学应用统计和生物的摄影工作者 在做类似的东西,不请自来。 首先庆贺同行们的突破,下面来正式回答问题: 遗传类精神疾病的基因研究,是一个很复杂的过程。 一个最简化的模型是: 采集同一类病人血样 --> 基因测序 --> 全基因组关联性分析 GWAS -->发现等位点 但是这个过程里存在好多问题,难点。 第一,也是最主要的问题,很多研究的样本不好。比如: 精神类的疾病往往“错综复杂”,一些疾病,看起来都差不多,实际上却是两种病。一些医生会错误的把 A 病的病人,放在 B 病的样本里。 导致一些精神疾病出现的等位点很多,意大利人得抑郁症可能因为 1 号染色体上某点,中国人得抑郁症可能因为 1 号染色体上另外一点。这两点表达的产物都与细胞通路有关,能产生病情。采样的时候,需要控制病人的遗传背景,家族背景。 不同性别之间,不同患者的疾病表现可能不尽相同。 在这种情况下,传统统计学意义上更好的大样本,反而不见得是好事。(几万样本容量的 meta analysis 很可能什么都研究不出来,因为样本太混杂,控制 FWER 之后的 p-value 又太小,没有足够 power) 对于这个最主要的问题,CONVERGE 团队选取了,祖父母均为汉人的女性。对于发病时间,发病症状,进行了比较严谨的界定。 选出了一个比较“纯”的样本,为后续的研究提供了有利的条件。 (我在加拿大一家精神医院做精神分裂的基因分析,真的很羡慕国内能有这么大的样本量..我们整个省的严重抑郁症病人,可能都没有这个样本量大。这个样本是研究能成功的关键因素) 其次,就是鲁明 前辈提到的,基因测序成本的问题 Illumina 这家测序公司,用新一代测序,把测序的成本缩减到了 1000 美元 / 人. (实际会比这个高一些,因为做不到全年无休一直 sequencing)。对比十年之前几十万美元 / 人的价格,降低了太多。使得采集相对比较大的基因样本数 成为了可能。 综上,CONVERGE 团队成功的两大原因是: 1. 找到了一个相对“纯”(homogenous)的病人样本 2. 依托先进的技术,高速而又相对廉价地,完成了对这些病人基因的测序。 最后,依靠合适的统计学方法,找出了与重度抑郁症相关的两个遗传变异。 所以,这个故事告诉我们,做研究,一定要学好统计呦。好研究, 从寻找好样本开始 Reference: CONVERGE consortium Sparse whole-genome sequencing identifies two loci for major depressive disorder. Nature. 2015;523:588–591. doi: 10.1038/nature14659. [PMC free article] [PubMed] [Cross Ref] 查看知乎原文