<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="zh-Hans-CN">
	<id>https://www.yiliao.com/index.php?action=history&amp;feed=atom&amp;title=%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86</id>
	<title>自然语言处理 - 版本历史</title>
	<link rel="self" type="application/atom+xml" href="https://www.yiliao.com/index.php?action=history&amp;feed=atom&amp;title=%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86"/>
	<link rel="alternate" type="text/html" href="https://www.yiliao.com/index.php?title=%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86&amp;action=history"/>
	<updated>2026-04-19T08:38:19Z</updated>
	<subtitle>本wiki的该页面的版本历史</subtitle>
	<generator>MediaWiki 1.35.1</generator>
	<entry>
		<id>https://www.yiliao.com/index.php?title=%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86&amp;diff=310441&amp;oldid=prev</id>
		<title>77921020：建立内容为“{{Infobox | bodystyle    = width: 300px; float: right; clear: right; margin: 0 0 1em 1em; border: 1px solid #a2a9b1; background: #f9f9f9; | abovestyle   = backgro…”的新页面</title>
		<link rel="alternate" type="text/html" href="https://www.yiliao.com/index.php?title=%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86&amp;diff=310441&amp;oldid=prev"/>
		<updated>2025-12-23T09:08:45Z</updated>

		<summary type="html">&lt;p&gt;建立内容为“{{Infobox | bodystyle    = width: 300px; float: right; clear: right; margin: 0 0 1em 1em; border: 1px solid #a2a9b1; background: #f9f9f9; | abovestyle   = backgro…”的新页面&lt;/p&gt;
&lt;p&gt;&lt;b&gt;新页面&lt;/b&gt;&lt;/p&gt;&lt;div&gt;{{Infobox&lt;br /&gt;
| bodystyle    = width: 300px; float: right; clear: right; margin: 0 0 1em 1em; border: 1px solid #a2a9b1; background: #f9f9f9;&lt;br /&gt;
| abovestyle   = background: #e0e0e0; font-size: 110%; font-weight: bold; text-align: center;&lt;br /&gt;
| headerstyle  = background: #eeeeee; font-weight: bold;&lt;br /&gt;
&lt;br /&gt;
| above        = 自然语言处理&amp;lt;br&amp;gt;&amp;lt;small&amp;gt;Natural Language Processing&amp;lt;/small&amp;gt;&lt;br /&gt;
| image        = [Image of NLP workflow diagram]&lt;br /&gt;
&lt;br /&gt;
| label1       = 英文缩写&lt;br /&gt;
| data1        = '''NLP'''&lt;br /&gt;
&lt;br /&gt;
| label2       = 所属领域&lt;br /&gt;
| data2        = [[人工智能]]、计算机科学、&amp;lt;br&amp;gt;语言学&lt;br /&gt;
&lt;br /&gt;
| label3       = 核心目标&lt;br /&gt;
| data3        = 让计算机理解、生成和&amp;lt;br&amp;gt;处理人类语言&lt;br /&gt;
&lt;br /&gt;
| label4       = 关键技术&lt;br /&gt;
| data4        = [[Transformer]]、[[大语言模型]]、&amp;lt;br&amp;gt;词嵌入 (Embedding)&lt;br /&gt;
&lt;br /&gt;
| label5       = 医疗应用&lt;br /&gt;
| data5        = [[电子病历]]结构化、CDSS、&amp;lt;br&amp;gt;医学文献挖掘&lt;br /&gt;
&lt;br /&gt;
| label6       = 典型任务&lt;br /&gt;
| data6        = [[命名实体识别]] (NER)、&amp;lt;br&amp;gt;关系抽取 (RE)、机器翻译&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
'''自然语言处理'''（{{lang-en|Natural Language Processing}}，简称'''NLP'''），是[[人工智能]]和语言学领域的分支学科。它探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。&lt;br /&gt;
&lt;br /&gt;
在深度学习时代，尤其是 [[Transformer]] 架构和[[大语言模型]]（LLM）出现后，NLP 取得了突破性进展。对于生物医药行业，NLP 被认为是挖掘医疗大数据（如 [[PubMed]] 文献和 [[电子病历]]）价值的最关键工具。&amp;lt;ref name=&amp;quot;Nature_NLP&amp;quot; /&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 核心任务 (医疗场景) ==&lt;br /&gt;
在您的“智慧医生”项目中，NLP 主要负责解决以下具体问题：&lt;br /&gt;
&lt;br /&gt;
=== 1. 命名实体识别 (NER) ===&lt;br /&gt;
* '''定义'''：从非结构化文本中识别出具有特定意义的实体。&lt;br /&gt;
* ''医疗案例''：从医生手写的病程记录中，自动提取出“吉西他滨”（药物）、“胰腺导管腺癌”（疾病）、“Grade 3”（严重程度）。&lt;br /&gt;
* ''技术关联''：提取出的实体通常会映射到 '''[[MeSH]]''' 词表，以实现标准化。&lt;br /&gt;
&lt;br /&gt;
=== 2. 关系抽取 (RE) ===&lt;br /&gt;
* '''定义'''：确定两个实体之间的语义关系。&lt;br /&gt;
* ''医疗案例''：识别句子“吉西他滨显著抑制了 PANC-1 细胞的增殖”中的关系，输出三元组：`{吉西他滨, 抑制, PANC-1}`。这是构建'''知识图谱'''（Knowledge Graph）的基础。&lt;br /&gt;
&lt;br /&gt;
=== 3. 问答系统 (QA) ===&lt;br /&gt;
* '''定义'''：根据用户的问题，从知识库中检索并生成准确的答案。&lt;br /&gt;
* ''医疗案例''：患者问“我爸胰腺癌晚期能吃什么？”，AI 结合营养学指南生成建议。现代 QA 系统常结合 '''RAG'''（检索增强生成）技术，引用 [[PubMed]] 摘要作为回答依据。&lt;br /&gt;
&lt;br /&gt;
== 关键技术演进 ==&lt;br /&gt;
* '''统计机器学习 (1990s-2010s)'''：使用 CRF、SVM 等模型。特征工程复杂，泛化能力差。&lt;br /&gt;
* '''深度学习 (2013-2017)'''：引入 Word2Vec（词嵌入）和 RNN/LSTM。解决了词义向量化问题，但在处理长文本时有缺陷。&lt;br /&gt;
* '''预训练模型 (2018-至今)'''：以 '''BERT''' 和 '''GPT''' 为代表的 Transformer 架构。&lt;br /&gt;
** '''BioBERT/PubMedBERT'''：专门在 [[PubMed]] 和 [[PMC]] 全文上进行预训练的模型。它们比通用的 GPT-4 更懂医学术语（例如，它们知道“CA”在医学语境下通常指“Cancer”而不是“California”）。&amp;lt;ref name=&amp;quot;BioBERT&amp;quot; /&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 医疗 NLP 的挑战 ==&lt;br /&gt;
=== 1. 术语歧义 ===&lt;br /&gt;
* 同一个缩写 &amp;quot;MS&amp;quot; 可能指“多发性硬化”（Multiple Sclerosis），也可能指“二尖瓣狭窄”（Mitral Stenosis）。AI 必须结合上下文（Context）进行消歧。&lt;br /&gt;
&lt;br /&gt;
=== 2. 幻觉 (Hallucination) ===&lt;br /&gt;
* 生成式 AI（如 GPT）有时会一本正经地胡编乱造不存在的药物或副作用。在严肃医疗场景下，必须通过引入外部知识库（如 [[MeSH]]、[[CTCAE]]）来约束 AI 的生成。&lt;br /&gt;
&lt;br /&gt;
=== 3. 数据隐私 ===&lt;br /&gt;
* 处理 [[电子病历]] (EHR) 时，必须先进行'''去标识化'''（De-identification），去除患者姓名、身份证号等敏感信息，以符合 [[HIPAA]] 或中国《数据安全法》的要求。&lt;br /&gt;
&lt;br /&gt;
== 参见 ==&lt;br /&gt;
* [[人工智能]]&lt;br /&gt;
* [[大语言模型]] (LLM)&lt;br /&gt;
* [[MeSH]] - 实体识别的标准库&lt;br /&gt;
* [[PubMed]] - 训练数据的来源&lt;br /&gt;
* [[电子病历]] - 应用场景&lt;br /&gt;
&lt;br /&gt;
== 参考资料 ==&lt;br /&gt;
&amp;lt;references&amp;gt;&lt;br /&gt;
&amp;lt;ref name=&amp;quot;Nature_NLP&amp;quot;&amp;gt;Topol, E. J. (2019). High-performance medicine: the convergence of human and artificial intelligence. ''Nature Medicine'', 25, 44–56.&amp;lt;/ref&amp;gt;&lt;br /&gt;
&amp;lt;ref name=&amp;quot;BioBERT&amp;quot;&amp;gt;Lee, J., et al. (2020). BioBERT: a pre-trained biomedical language representation model for biomedical text mining. ''Bioinformatics'', 36(4), 1234-1240. [https://doi.org/10.1093/bioinformatics/btz682]&amp;lt;/ref&amp;gt;&lt;br /&gt;
&amp;lt;/references&amp;gt;&lt;br /&gt;
&lt;br /&gt;
[[Category:人工智能]]&lt;br /&gt;
[[Category:自然语言处理]]&lt;br /&gt;
[[Category:生物信息学]]&lt;/div&gt;</summary>
		<author><name>77921020</name></author>
	</entry>
</feed>