人类参考基因组

来自医学百科

人类参考基因组(Human Reference Genome),是现代 基因组学精准医疗NGS 数据分析的绝对数字基石。它并非来自于某个单一真实个体的 DNA序列,而是由多名志愿者的基因组数据拼接而成的一个单倍体镶嵌序列,本质上是人类遗传学的一套“标准三维坐标系”。 自 2003 年 人类基因组计划(HGP) 宣告初步完成以来,该参考序列由基因组参考联盟(GRC)不断迭代,目前临床应用最广泛的版本是 2013 年发布的 GRCh38。在临床生信分析中,从测序仪产出的数十亿条犹如碎纸片般的短读长序列(Reads),必须经过 Mapping 算法精确锚定到参考基因组上,才能找出导致 罕见病SNP 或驱动癌症的 SV。2022 年,端粒到端粒联盟(T2T联盟)利用 长读长测序技术 发布了 T2T-CHM13,首次填补了困扰科学界 20 年的最后 8% 的“暗物质”区域(如 着丝粒 和高度重复序列),宣告了人类首个无缝隙、100% 完整的基因组诞生。如今,为了克服单一线性参考导致的人群偏倚,科学界正致力于构建融合多族裔多样性的 人类泛基因组(Pangenome) 图谱。

Reference Genome
The Genomic Coordinate System (点击展开)
测序 Reads 与参考基因组的比对
临床主流版本 GRCh38 (hg38)
无缝隙最新版 T2T-CHM13 (2022年)
序列总长度 约 30.55 亿 bp
维护更新机构 GRC, NCBI
核心数据格式 FASTA (纯序列文本)
注释文件格式 GTF / GFF (基因坐标坐标)
前沿演进方向 基于图的泛基因组

历史演进与结构破局:填补最后的“暗物质”

人类参考基因组并不是在 2003 年一口气拼好的,由于一代测序和二代测序(短读长)的物理极限,基因组中高度重复的区域长期以来都是一片无法解析的“黑洞”(以 N 碱基表示):

  • GRCh38 时代的妥协: 2013年发布的 GRCh38 是目前世界上 99% 的医院和生信分析管线正在使用的标准参照物。它解决了约 92% 的常染色质区域(编码蛋白质的区域)。但对于 着丝粒端粒、核糖体 DNA(rDNA)阵列等充满了大片段串联重复序列的 异染色质 区域,短读长测序如同拿着全是纯蓝色的拼图碎片,根本无法得知它们在全景图中的确切位置。
  • T2T-CHM13 的终极补全: 2022 年,由全球顶尖科学家组成的 T2T 联盟,利用 PacBio HiFi(高保真长读长)和 Oxford Nanopore(超长读长)这两把 第三代测序 的破冰利器,一口气读取了长达数万至百万 bp 的 DNA 片段。他们成功跨越了重复序列的鸿沟,补齐了最后约 2 亿个碱基对(相当于整整一条 染色体 的长度),并在这些曾经被认为是“垃圾DNA”的区域中发现了 2000 多个全新的候选基因。
  • 细胞系的选择策略: 值得注意的是,T2T-CHM13 并非来自正常人类的体细胞,而是测序了一个特殊的 完全性葡萄胎 细胞系(CHM13)。因为这种细胞只有来自父亲的两套完全相同的基因组(单倍体同基因型),极大降低了因为 等位基因 杂合性带来的拼装复杂性。

临床病理与诊断映射:没有坐标,就没有精准

临床测序与生信分析 参考基因组的作用逻辑 指导的诊断与疾病解析
变异检测与罕见病诊断
(Variant Calling)
将患儿的 WES 测序碎片通过 BWA 算法比对到参考基因组上。找出哪里多了一个碱基(插入突变),或是某个 A 变成了 T(错义突变)。 在茫茫的 30 亿碱基中精准锁定导致 囊性纤维化DMD 的单个致病突变,出具临床诊断报告。
结构变异与肿瘤学
(Structural Variants, SVs)
如果在比对时,发现一条 Read 的一半比对到了 9 号染色体,另一半比对到了 22 号染色体,说明在患者体内发生了大规模的染色体断裂与错误连接。 精准诊断 CML 中的 费城染色体 (BCR-ABL融合),或是肺癌中的 ALK 融合,指导靶向药使用。
药物基因组学
(Pharmacogenomics)
新版的参考基因组极大改善了具有高度多态性的区域(如 HLA 复合体CYP450 药物代谢酶基因家族)的参考质量。 预测患者对某种化疗药物(如 伊立替康)的毒性反应,或是在 造血干细胞移植 前进行精确的配型。

生信工程与未来革命:从“单向线”到“泛图谱”

人类泛基因组参考 (Human Pangenome)

  • 参考偏倚的致命伤 (Reference Bias): 现有的 GRCh38 基因组有超过 70% 的序列来自于一名非裔美国人志愿者(编号 RPCI-11)。由于它是一条单向的“线性”序列,如果测序对象的基因组(如亚洲人或欧洲人)中包含了这段参考序列上根本没有的特有插入片段,现有的比对算法就会直接将其当成“无法识别的垃圾数据”丢弃。这导致少数族裔在基因组疾病诊断中面临严重的先天不公。
  • HPRC 的图基因组革命: 2023 年,《Nature》发表了由人类泛基因组参考联盟(HPRC)构建的首个“草图版”泛基因组(Pangenome)。它结合了来自全球 47 个不同遗传背景个体的高质量基因组。在数据结构上,它不再是一条从头到尾的直线序列文本(FASTA),而是一个错综复杂的 数学图谱(Graph)。图的主干是全人类共有的序列,而所有的分支代表了不同族裔特有的结构变异和多态性节点。利用图基因组进行比对,将彻底消除参考偏倚,发现那些被漏掉的罕见致病变异。

核心相关概念

  • FASTA格式 存储参考基因组序列的纯文本行业标准格式。文件以 `>` 符号开头,标注染色体名称,紧随其后的就是绵延数百万行的 A、T、C、G、N 纯粹的字母序列。
  • GTF格式 / GFF: 基因转移格式。参考基因组只有序列文本是不够的,科学家还为其配套了“基因注释字典”(GTF文件)。里面记录了这 30 亿个字母中,从第几个碱基到第几个碱基是 外显子,哪一段是 内含子,哪一段是某个肿瘤靶点基因。
  • BWA算法 (Burrows-Wheeler Aligner): 生物信息学中最伟大的算法之一。由李恒博士开发,利用了常用于数据压缩的 BWT 转换,能够以极少的内存占用和极高的速度,将测序仪产生的几亿条 150bp 短片段,精准无误地映射回长达 30 亿碱基的参考基因组上。
       学术参考文献 [Academic Review]
       

[1] Lander ES, Linton LM, Birren B, et al. (2001). Initial sequencing and analysis of the human genome. Nature. 409(6822):860-921.
[历史奠基]:国际人类基因组测序联盟(HGP)发布的具有划时代意义的历史文献。标志着人类耗资 30 亿美元,经过十多年努力,首次获得了自身遗传代码的首个草图。它为随后 20 年的生命科学与分子医学发展拉开了序幕。

[2] Nurk S, Koren S, Rhie A, et al. (2022). The complete sequence of a human genome. Science. 376(6588):44-53.
[终极补全突破]:由 T2T 联盟主导发表的重磅封面文章。借助 PacBio 和 Nanopore 长读长测序技术,彻底填补了 GRCh38 留下的 8% 的异染色质与高重复序列空白,宣告了首个(也是当时唯一一个)端粒到端粒、100% 完整的无缝隙人类基因组 T2T-CHM13 的诞生。

[3] Liao WW, Asri M, Ebler J, et al. (2023). A draft human pangenome reference. Nature. 617(7960):312-324.
[未来范式]:人类泛基因组参考联盟(HPRC)发表的革命性成果。展示了融合 47 个不同族裔个体的高质量基因组序列组成的图数据结构“泛基因组”,正式吹响了告别单一线性参考基因组时代的号角,旨在彻底消除基因组学诊断中的种族偏见。

           人类参考基因组 · 知识图谱
核心演进版本 GRCh38 (临床标准) • T2T-CHM13 (完整版) • 泛基因组 (多元化)
生信与辅助解析 Mapping (BWA算法)Variant Calling基因注释
临床诊断指征 罕见致病突变筛查肿瘤融合基因检测