77921020：建立内容为“{{Infobox | bodystyle = width: 300px; float: right; clear: right; margin: 0 0 1em 1em; border: 1px solid #a2a9b1; background: #f9f9f9; | abovestyle = backgro…”的新页面

2025-12-23T09:08:45Z

建立内容为“{{Infobox | bodystyle = width: 300px; float: right; clear: right; margin: 0 0 1em 1em; border: 1px solid #a2a9b1; background: #f9f9f9; | abovestyle = backgro…”的新页面

新页面

{{Infobox
| bodystyle = width: 300px; float: right; clear: right; margin: 0 0 1em 1em; border: 1px solid #a2a9b1; background: #f9f9f9;
| abovestyle = background: #e0e0e0; font-size: 110%; font-weight: bold; text-align: center;
| headerstyle = background: #eeeeee; font-weight: bold;

| above = 自然语言处理 Natural Language Processing
| image = [Image of NLP workflow diagram]

| label1 = 英文缩写
| data1 = '''NLP'''

| label2 = 所属领域
| data2 = [[人工智能]]、计算机科学、 语言学

| label3 = 核心目标
| data3 = 让计算机理解、生成和 处理人类语言

| label4 = 关键技术
| data4 = [[Transformer]]、[[大语言模型]]、 词嵌入 (Embedding)

| label5 = 医疗应用
| data5 = [[电子病历]]结构化、CDSS、 医学文献挖掘

| label6 = 典型任务
| data6 = [[命名实体识别]] (NER)、 关系抽取 (RE)、机器翻译
}}

'''自然语言处理'''（{{lang-en|Natural Language Processing}}，简称'''NLP'''），是[[人工智能]]和语言学领域的分支学科。它探讨如何处理及运用自然语言；自然语言认知则是指让电脑“懂”人类的语言。

在深度学习时代，尤其是 [[Transformer]] 架构和[[大语言模型]]（LLM）出现后，NLP 取得了突破性进展。对于生物医药行业，NLP 被认为是挖掘医疗大数据（如 [[PubMed]] 文献和 [[电子病历]]）价值的最关键工具。<ref name="Nature_NLP" />

== 核心任务 (医疗场景) ==
在您的“智慧医生”项目中，NLP 主要负责解决以下具体问题：

=== 1. 命名实体识别 (NER) ===
* '''定义'''：从非结构化文本中识别出具有特定意义的实体。
* ''医疗案例''：从医生手写的病程记录中，自动提取出“吉西他滨”（药物）、“胰腺导管腺癌”（疾病）、“Grade 3”（严重程度）。
* ''技术关联''：提取出的实体通常会映射到 '''[[MeSH]]''' 词表，以实现标准化。

=== 2. 关系抽取 (RE) ===
* '''定义'''：确定两个实体之间的语义关系。
* ''医疗案例''：识别句子“吉西他滨显著抑制了 PANC-1 细胞的增殖”中的关系，输出三元组：`{吉西他滨, 抑制, PANC-1}`。这是构建'''知识图谱'''（Knowledge Graph）的基础。

=== 3. 问答系统 (QA) ===
* '''定义'''：根据用户的问题，从知识库中检索并生成准确的答案。
* ''医疗案例''：患者问“我爸胰腺癌晚期能吃什么？”，AI 结合营养学指南生成建议。现代 QA 系统常结合 '''RAG'''（检索增强生成）技术，引用 [[PubMed]] 摘要作为回答依据。

== 关键技术演进 ==
* '''统计机器学习 (1990s-2010s)'''：使用 CRF、SVM 等模型。特征工程复杂，泛化能力差。
* '''深度学习 (2013-2017)'''：引入 Word2Vec（词嵌入）和 RNN/LSTM。解决了词义向量化问题，但在处理长文本时有缺陷。
* '''预训练模型 (2018-至今)'''：以 '''BERT''' 和 '''GPT''' 为代表的 Transformer 架构。
** '''BioBERT/PubMedBERT'''：专门在 [[PubMed]] 和 [[PMC]] 全文上进行预训练的模型。它们比通用的 GPT-4 更懂医学术语（例如，它们知道“CA”在医学语境下通常指“Cancer”而不是“California”）。<ref name="BioBERT" />

== 医疗 NLP 的挑战 ==
=== 1. 术语歧义 ===
* 同一个缩写 "MS" 可能指“多发性硬化”（Multiple Sclerosis），也可能指“二尖瓣狭窄”（Mitral Stenosis）。AI 必须结合上下文（Context）进行消歧。

=== 2. 幻觉 (Hallucination) ===
* 生成式 AI（如 GPT）有时会一本正经地胡编乱造不存在的药物或副作用。在严肃医疗场景下，必须通过引入外部知识库（如 [[MeSH]]、[[CTCAE]]）来约束 AI 的生成。

=== 3. 数据隐私 ===
* 处理 [[电子病历]] (EHR) 时，必须先进行'''去标识化'''（De-identification），去除患者姓名、身份证号等敏感信息，以符合 [[HIPAA]] 或中国《数据安全法》的要求。

== 参见 ==
* [[人工智能]]
* [[大语言模型]] (LLM)
* [[MeSH]] - 实体识别的标准库
* [[PubMed]] - 训练数据的来源
* [[电子病历]] - 应用场景

== 参考资料 ==
<references>
<ref name="Nature_NLP">Topol, E. J. (2019). High-performance medicine: the convergence of human and artificial intelligence. ''Nature Medicine'', 25, 44–56.</ref>
<ref name="BioBERT">Lee, J., et al. (2020). BioBERT: a pre-trained biomedical language representation model for biomedical text mining. ''Bioinformatics'', 36(4), 1234-1240. [https://doi.org/10.1093/bioinformatics/btz682]</ref>
</references>

[[Category:人工智能]]
[[Category:自然语言处理]]
[[Category:生物信息学]]

自然语言处理 - 版本历史

77921020：建立内容为“{{Infobox | bodystyle = width: 300px; float: right; clear: right; margin: 0 0 1em 1em; border: 1px solid #a2a9b1; background: #f9f9f9; | abovestyle = backgro…”的新页面