如何缩小对基因的搜索范围
全基因组关联研究(GWAS)针对大量人群寻找有助于常见的多基因特征(如身高或肥胖)的基因。这些综合性研究经常发现大量微小的遗传变异,这些变异在高龄,肥胖等人群中更常发生。但这种关联并不意味着变异实际上有助于引起这种特性;它可能只是为了骑行。
科学家应该进一步调查哪些基因?虽然有许多计算算法可用于帮助提取GWAS结果,但很难知道选择哪一种。研究人员在美国人类遗传学杂志上发表了5月2日报道称,他们认为这是一种有效,无偏见的方法,可以选择最佳算法,称为Benchmarker。
大多数用于评估算法的方法可能会使研究人员偏向已经充分表征的基因,使科学家远离发现真正新事物的机会。其他方法需要访问并非总是随时可用的独立参考数据。
“我们有不同的优先级算法,但我们实际上并不知道如何确定哪一个是最好的,”Rebecca Fine说,他是哈佛医学院的博士候选人,他一直在与Joel Hirschhorn一起研究这个问题,他是医学博士,博士,主任波士顿儿童医院的内分泌学,也负责布罗德研究所的新陈代谢计划。“我们不想依赖先前的'黄金标准'或引入除原始GWAS数据之外的任何其他内容。”
借用机器学习
借助“交叉验证”的机器学习概念,Benchmarker使调查人员能够将GWAS数据本身作为自己的控制。我们的想法是采用GWAS数据集并挑出一条染色体。然后,基准测试的算法使用来自剩余的21条染色体(除X和Y之外的所有染色体)的数据来预测单个染色体上的哪些基因最有可能对所研究的性状有贡献。由于依次对每个染色体重复该过程,因此汇集算法标记的基因。然后通过将这组优先基因与原始GWAS结果进行比较来验证该算法。
“您在GWAS上训练算法,并保留一条染色体,然后返回到该染色体,并询问这些基因是否与原始GWAS结果中的强p值相关联,”Fine解释说。“虽然这些p值并不能代表确切的”正确答案“,但它们确实可以告诉您一些真正的遗传关联。最终产品是对每种算法执行情况的评估。
基准测试基准测试
Fine,Hirschhorn及其同事将这种方法贯穿于20个不同特征的步伐中,得出的结论是,结合多种策略通常可以获得最佳结果。他们还发现了某些算法在寻找某些特征的基因时表现最佳的证据。
“我们希望在GWAS之后开发更多算法来回答关键的下一个问题:哪些基因和变异与人类特征和疾病有因果关系,”Hirschhorn说。“基准测试方法可以作为一种无偏见的方法来确定用于回答这个问题的算法。”