人类参考基因组

人类参考基因组（Human Reference Genome），是现代 基因组学、精准医疗 与 NGS 数据分析的绝对数字基石。它并非来自于某个单一真实个体的 DNA序列，而是由多名志愿者的基因组数据拼接而成的一个单倍体镶嵌序列，本质上是人类遗传学的一套“标准三维坐标系”。自 2003 年 人类基因组计划（HGP） 宣告初步完成以来，该参考序列由基因组参考联盟（GRC）不断迭代，目前临床应用最广泛的版本是 2013 年发布的 GRCh38。在临床生信分析中，从测序仪产出的数十亿条犹如碎纸片般的短读长序列（Reads），必须经过 Mapping 算法精确锚定到参考基因组上，才能找出导致 罕见病 的 SNP 或驱动癌症的 SV。2022 年，端粒到端粒联盟（T2T联盟）利用 长读长测序技术 发布了 T2T-CHM13，首次填补了困扰科学界 20 年的最后 8% 的“暗物质”区域（如 着丝粒 和高度重复序列），宣告了人类首个无缝隙、100% 完整的基因组诞生。如今，为了克服单一线性参考导致的人群偏倚，科学界正致力于构建融合多族裔多样性的 人类泛基因组（Pangenome） 图谱。

Reference Genome

The Genomic Coordinate System (点击展开)

测序 Reads 与参考基因组的比对

临床主流版本	GRCh38 (hg38)
无缝隙最新版	T2T-CHM13 (2022年)
序列总长度	约 30.55 亿 bp
维护更新机构	GRC, NCBI
核心数据格式	FASTA (纯序列文本)
注释文件格式	GTF / GFF (基因坐标坐标)
前沿演进方向	基于图的泛基因组

历史演进与结构破局：填补最后的“暗物质”

人类参考基因组并不是在 2003 年一口气拼好的，由于一代测序和二代测序（短读长）的物理极限，基因组中高度重复的区域长期以来都是一片无法解析的“黑洞”（以 N 碱基表示）：

GRCh38 时代的妥协： 2013年发布的 GRCh38 是目前世界上 99% 的医院和生信分析管线正在使用的标准参照物。它解决了约 92% 的常染色质区域（编码蛋白质的区域）。但对于 着丝粒、端粒、核糖体 DNA（rDNA）阵列等充满了大片段串联重复序列的 异染色质 区域，短读长测序如同拿着全是纯蓝色的拼图碎片，根本无法得知它们在全景图中的确切位置。
T2T-CHM13 的终极补全： 2022 年，由全球顶尖科学家组成的 T2T 联盟，利用 PacBio HiFi（高保真长读长）和 Oxford Nanopore（超长读长）这两把 第三代测序 的破冰利器，一口气读取了长达数万至百万 bp 的 DNA 片段。他们成功跨越了重复序列的鸿沟，补齐了最后约 2 亿个碱基对（相当于整整一条 染色体 的长度），并在这些曾经被认为是“垃圾DNA”的区域中发现了 2000 多个全新的候选基因。
细胞系的选择策略： 值得注意的是，T2T-CHM13 并非来自正常人类的体细胞，而是测序了一个特殊的 完全性葡萄胎 细胞系（CHM13）。因为这种细胞只有来自父亲的两套完全相同的基因组（单倍体同基因型），极大降低了因为 等位基因 杂合性带来的拼装复杂性。

临床病理与诊断映射：没有坐标，就没有精准

临床测序与生信分析	参考基因组的作用逻辑	指导的诊断与疾病解析
变异检测与罕见病诊断 (Variant Calling)	将患儿的 WES 测序碎片通过 BWA 算法比对到参考基因组上。找出哪里多了一个碱基（插入突变），或是某个 A 变成了 T（错义突变）。	在茫茫的 30 亿碱基中精准锁定导致囊性纤维化或 DMD 的单个致病突变，出具临床诊断报告。
结构变异与肿瘤学 (Structural Variants, SVs)	如果在比对时，发现一条 Read 的一半比对到了 9 号染色体，另一半比对到了 22 号染色体，说明在患者体内发生了大规模的染色体断裂与错误连接。	精准诊断 CML 中的费城染色体 (BCR-ABL融合)，或是肺癌中的 ALK 融合，指导靶向药使用。
药物基因组学 (Pharmacogenomics)	新版的参考基因组极大改善了具有高度多态性的区域（如 HLA 复合体和 CYP450 药物代谢酶基因家族）的参考质量。	预测患者对某种化疗药物（如伊立替康）的毒性反应，或是在造血干细胞移植前进行精确的配型。

生信工程与未来革命：从“单向线”到“泛图谱”

人类泛基因组参考 (Human Pangenome)

参考偏倚的致命伤 (Reference Bias)： 现有的 GRCh38 基因组有超过 70% 的序列来自于一名非裔美国人志愿者（编号 RPCI-11）。由于它是一条单向的“线性”序列，如果测序对象的基因组（如亚洲人或欧洲人）中包含了这段参考序列上根本没有的特有插入片段，现有的比对算法就会直接将其当成“无法识别的垃圾数据”丢弃。这导致少数族裔在基因组疾病诊断中面临严重的先天不公。
HPRC 的图基因组革命： 2023 年，《Nature》发表了由人类泛基因组参考联盟（HPRC）构建的首个“草图版”泛基因组（Pangenome）。它结合了来自全球 47 个不同遗传背景个体的高质量基因组。在数据结构上，它不再是一条从头到尾的直线序列文本（FASTA），而是一个错综复杂的 数学图谱（Graph）。图的主干是全人类共有的序列，而所有的分支代表了不同族裔特有的结构变异和多态性节点。利用图基因组进行比对，将彻底消除参考偏倚，发现那些被漏掉的罕见致病变异。

核心相关概念

FASTA格式： 存储参考基因组序列的纯文本行业标准格式。文件以 `>` 符号开头，标注染色体名称，紧随其后的就是绵延数百万行的 A、T、C、G、N 纯粹的字母序列。
GTF格式 / GFF： 基因转移格式。参考基因组只有序列文本是不够的，科学家还为其配套了“基因注释字典”（GTF文件）。里面记录了这 30 亿个字母中，从第几个碱基到第几个碱基是 外显子，哪一段是 内含子，哪一段是某个肿瘤靶点基因。
BWA算法 (Burrows-Wheeler Aligner)： 生物信息学中最伟大的算法之一。由李恒博士开发，利用了常用于数据压缩的 BWT 转换，能够以极少的内存占用和极高的速度，将测序仪产生的几亿条 150bp 短片段，精准无误地映射回长达 30 亿碱基的参考基因组上。

       学术参考文献 [Academic Review]

[1] Lander ES, Linton LM, Birren B, et al. (2001). Initial sequencing and analysis of the human genome. Nature. 409(6822):860-921.
[历史奠基]：国际人类基因组测序联盟（HGP）发布的具有划时代意义的历史文献。标志着人类耗资 30 亿美元，经过十多年努力，首次获得了自身遗传代码的首个草图。它为随后 20 年的生命科学与分子医学发展拉开了序幕。

[2] Nurk S, Koren S, Rhie A, et al. (2022). The complete sequence of a human genome. Science. 376(6588):44-53.
[终极补全突破]：由 T2T 联盟主导发表的重磅封面文章。借助 PacBio 和 Nanopore 长读长测序技术，彻底填补了 GRCh38 留下的 8% 的异染色质与高重复序列空白，宣告了首个（也是当时唯一一个）端粒到端粒、100% 完整的无缝隙人类基因组 T2T-CHM13 的诞生。

[3] Liao WW, Asri M, Ebler J, et al. (2023). A draft human pangenome reference. Nature. 617(7960):312-324.
[未来范式]：人类泛基因组参考联盟（HPRC）发表的革命性成果。展示了融合 47 个不同族裔个体的高质量基因组序列组成的图数据结构“泛基因组”，正式吹响了告别单一线性参考基因组时代的号角，旨在彻底消除基因组学诊断中的种族偏见。

           人类参考基因组 · 知识图谱

核心演进版本	GRCh38 (临床标准) • T2T-CHM13 (完整版) • 泛基因组 (多元化)
生信与辅助解析	Mapping (BWA算法) • Variant Calling • 基因注释
临床诊断指征	罕见致病突变筛查 • 肿瘤融合基因检测

匿名

搜索

人类参考基因组

名字空间

更多

页面选项

目录

历史演进与结构破局：填补最后的“暗物质”

临床病理与诊断映射：没有坐标，就没有精准

生信工程与未来革命：从“单向线”到“泛图谱”

人类泛基因组参考 (Human Pangenome)

核心相关概念

导航

导航

功能菜单

Wiki工具

Wiki工具

匿名

搜索

人类参考基因组

历史演进与结构破局：填补最后的“暗物质”

临床病理与诊断映射：没有坐标，就没有精准

生信工程与未来革命：从“单向线”到“泛图谱”

人类泛基因组参考 (Human Pangenome)

核心相关概念

导航

Wiki工具

页面工具