<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="zh-Hans-CN">
	<id>https://www.yiliao.com/index.php?action=history&amp;feed=atom&amp;title=GenBank</id>
	<title>GenBank - 版本历史</title>
	<link rel="self" type="application/atom+xml" href="https://www.yiliao.com/index.php?action=history&amp;feed=atom&amp;title=GenBank"/>
	<link rel="alternate" type="text/html" href="https://www.yiliao.com/index.php?title=GenBank&amp;action=history"/>
	<updated>2026-04-18T12:05:13Z</updated>
	<subtitle>本wiki的该页面的版本历史</subtitle>
	<generator>MediaWiki 1.35.1</generator>
	<entry>
		<id>https://www.yiliao.com/index.php?title=GenBank&amp;diff=310447&amp;oldid=prev</id>
		<title>77921020：建立内容为“{{Infobox | bodystyle    = width: 300px; float: right; clear: right; margin: 0 0 1em 1em; border: 1px solid #a2a9b1; background: #f9f9f9; | abovestyle   = backgro…”的新页面</title>
		<link rel="alternate" type="text/html" href="https://www.yiliao.com/index.php?title=GenBank&amp;diff=310447&amp;oldid=prev"/>
		<updated>2025-12-23T09:38:22Z</updated>

		<summary type="html">&lt;p&gt;建立内容为“{{Infobox | bodystyle    = width: 300px; float: right; clear: right; margin: 0 0 1em 1em; border: 1px solid #a2a9b1; background: #f9f9f9; | abovestyle   = backgro…”的新页面&lt;/p&gt;
&lt;p&gt;&lt;b&gt;新页面&lt;/b&gt;&lt;/p&gt;&lt;div&gt;{{Infobox&lt;br /&gt;
| bodystyle    = width: 300px; float: right; clear: right; margin: 0 0 1em 1em; border: 1px solid #a2a9b1; background: #f9f9f9;&lt;br /&gt;
| abovestyle   = background: #e0e0e0; font-size: 110%; font-weight: bold; text-align: center;&lt;br /&gt;
| headerstyle  = background: #eeeeee; font-weight: bold;&lt;br /&gt;
&lt;br /&gt;
| above        = GenBank&amp;lt;br&amp;gt;&amp;lt;small&amp;gt;基因银行&amp;lt;/small&amp;gt;&lt;br /&gt;
| image        = &lt;br /&gt;
&lt;br /&gt;
| label1       = 维护机构&lt;br /&gt;
| data1        = [[NCBI]] (美国)&lt;br /&gt;
&lt;br /&gt;
| label2       = 成立时间&lt;br /&gt;
| data2        = 1982年&lt;br /&gt;
&lt;br /&gt;
| label3       = 所属联盟&lt;br /&gt;
| data3        = [[INSDC]] (国际核苷酸序列数据库联盟)&lt;br /&gt;
&lt;br /&gt;
| label4       = 数据量&lt;br /&gt;
| data4        = &amp;gt; 2.5 亿条序列 (2024年)&lt;br /&gt;
&lt;br /&gt;
| label5       = 核心功能&lt;br /&gt;
| data5        = 存储公开的 DNA/RNA 序列&lt;br /&gt;
&lt;br /&gt;
| label6       = 关键区别&lt;br /&gt;
| data6        = GenBank (存档) vs [[RefSeq]] (标准)&lt;br /&gt;
&lt;br /&gt;
| label7       = 对AI价值&lt;br /&gt;
| data7        = 基因组学大模型 (Genomic LLM)&amp;lt;br&amp;gt;的训练语料&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
'''GenBank''' 是一个开放获取的核苷酸序列数据库，包含了所有公开的 DNA 和 RNA 序列及其注释信息。它由美国国家生物技术信息中心（[[NCBI]]）负责维护。&lt;br /&gt;
&lt;br /&gt;
它是现代生命科学研究的基石。无论是新冠病毒的测序，还是癌症基因突变的发现，所有原始序列数据最终都会汇聚于此。GenBank 与欧洲的 **ENA** 和日本的 **DDBJ** 共同组成了 **INSDC** 联盟，三方数据每天同步，确保全球科学家使用的是同一套数据。&amp;lt;ref name=&amp;quot;GenBank_Overview&amp;quot; /&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 核心数据结构 (Flat File) ==&lt;br /&gt;
GenBank 使用一种经典的“纯文本”格式（GenBank Flat File）来存储数据。这种格式虽然古老，但至今仍是生物信息学的通用标准：&lt;br /&gt;
* '''LOCUS'''：序列的基本信息（长度、类型、日期）。&lt;br /&gt;
* '''ACCESSION'''：'''登录号'''（如 `NM_000546`）。这是序列的唯一身份证，您的 AI 系统在引用基因时必须使用此号码，以避免歧义。&lt;br /&gt;
* '''FEATURES'''：特征表。详细描述了基因的各个部分，如 '''CDS'''（编码区）、'''Exon'''（外显子）、'''Promoter'''（启动子）。AI 可以通过解析这些标签，学习基因的语法结构。&lt;br /&gt;
* '''ORIGIN'''：实际的碱基序列（A, T, C, G）。&lt;br /&gt;
&lt;br /&gt;
== GenBank vs RefSeq (关键区分) ==&lt;br /&gt;
这是您的技术团队在开发“基因医生”诊断系统时最容易踩的坑：&lt;br /&gt;
&lt;br /&gt;
=== 1. GenBank (档案库) ===&lt;br /&gt;
* '''性质'''：它是“作者提交什么，就存什么”。&lt;br /&gt;
* '''冗余性'''：同一个基因可能有几千个不同实验室提交的版本，质量参差不齐，甚至包含错误。&lt;br /&gt;
* '''用途'''：用于科学研究，查看基因的多样性。&lt;br /&gt;
&lt;br /&gt;
=== 2. RefSeq (参考序列库) ===&lt;br /&gt;
* '''性质'''：它是 NCBI 官方精选的“标准答案”。&lt;br /&gt;
* '''唯一性'''：每个基因通常只有一个最佳的 RefSeq 序列。&lt;br /&gt;
* '''用途'''：'''临床诊断的标准'''。当您的 AI 报告说患者在 `TP53` 基因上有突变时，必须是相对于 `RefSeq` 标准序列（如 hg19 或 hg38）而言的差异。&amp;lt;ref name=&amp;quot;NCBI_RefSeq&amp;quot; /&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 数据提交与更新 ==&lt;br /&gt;
* '''BankIt'''：基于 Web 的提交工具，用于少量序列提交。&lt;br /&gt;
* '''Sequin'''：传统的独立软件，用于复杂提交。&lt;br /&gt;
* '''数据增长'''：GenBank 的数据量呈指数级增长（摩尔定律在生物界的体现），大约每 18 个月翻一番。这要求您的 AI 基础设施必须具备处理 PB 级数据的能力。&lt;br /&gt;
&lt;br /&gt;
== 对 AI 基因组学的价值 ==&lt;br /&gt;
随着 AI 能够理解“生物语言”（DNA/Protein），GenBank 成为了训练 '''Genomic LLM'''（如 DNABERT, Nucleotide Transformer）的核心语料库。&lt;br /&gt;
* '''序列预测'''：AI 学习了 GenBank 中的数十亿条序列后，可以预测未知的基因功能或突变后果。&lt;br /&gt;
* '''合成生物学'''：AI 可以利用这些数据设计出自然界不存在的全新蛋白质序列。&lt;br /&gt;
&lt;br /&gt;
== 参见 ==&lt;br /&gt;
* [[NCBI]]&lt;br /&gt;
* [[BLAST]] - 搜索 GenBank 的工具&lt;br /&gt;
* [[人类基因组计划]]&lt;br /&gt;
* [[生物信息学]]&lt;br /&gt;
* [[RefSeq]]&lt;br /&gt;
&lt;br /&gt;
== 参考资料 ==&lt;br /&gt;
&amp;lt;references&amp;gt;&lt;br /&gt;
&amp;lt;ref name=&amp;quot;GenBank_Overview&amp;quot;&amp;gt;Benson, D. A., et al. (2018). GenBank. ''Nucleic Acids Research'', 46(D1), D41-D47. [https://academic.oup.com/nar/article/46/D1/D41/4766551]&amp;lt;/ref&amp;gt;&lt;br /&gt;
&amp;lt;ref name=&amp;quot;NCBI_RefSeq&amp;quot;&amp;gt;O'Leary, N. A., et al. (2016). Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation. ''Nucleic Acids Research'', 44(D1), D733-D745.&amp;lt;/ref&amp;gt;&lt;br /&gt;
&amp;lt;/references&amp;gt;&lt;br /&gt;
&lt;br /&gt;
[[Category:生物信息学]]&lt;br /&gt;
[[Category:在线数据库]]&lt;br /&gt;
[[Category:基因组学]]&lt;/div&gt;</summary>
		<author><name>77921020</name></author>
	</entry>
</feed>