77921020：建立内容为“{{Infobox | bodystyle = width: 300px; float: right; clear: right; margin: 0 0 1em 1em; border: 1px solid #a2a9b1; background: #f9f9f9; | abovestyle = backg…”的新页面

2025-12-23T10:35:16Z

建立内容为“{{Infobox | bodystyle = width: 300px; float: right; clear: right; margin: 0 0 1em 1em; border: 1px solid #a2a9b1; background: #f9f9f9; | abovestyle = backg…”的新页面

新页面

{{Infobox
| bodystyle = width: 300px; float: right; clear: right; margin: 0 0 1em 1em; border: 1px solid #a2a9b1; background: #f9f9f9;
| abovestyle = background: #1a73e8; color: white; font-size: 110%; font-weight: bold; text-align: center;
| headerstyle = background: #eeeeee; font-weight: bold;

| above = 大语言模型<br><small>Large Language Model</small>
| image =

[Image of Neural Network Layers and Transformer]

| label1 = 英文缩写
| data1 = '''LLM'''

| label2 = 核心架构
| data2 = [[Transformer]] (仅解码器或编码器-解码器)

| label3 = 关键特征
| data3 = 海量参数 (数十亿至万亿级)、<br>涌现能力 (Emergent Abilities)

| label4 = 训练范式
| data4 = 预训练 + 微调 (SFT) + [[RLHF]]

| label5 = 典型代表
| data5 = GPT-4, Gemini, Llama, Qwen

| label6 = 垂直应用案例
| data6 = '''[[智慧医生]]''' (医疗诊断)、BioBERT
}}'''大语言模型'''（{{lang-en|Large Language Model}}，简称'''LLM'''），是人工智能领域中基于深度学习的大规模预训练模型。其核心目标是理解、生成并处理人类自然语言。

大模型通过在超大规模文本语料库上进行无监督学习，展现出了惊人的语言理解、逻辑推理及多任务处理能力。在医疗、法律、编程等高度专业化的领域，LLM 正在从通用辅助工具向垂直领域深度决策系统演进。<ref name="LLM_Survey">Zhao, W. X., et al. (2023). A Survey of Large Language Models. ''arXiv preprint arXiv:2303.18223''.</ref>
==技术核心：Transformer==
现代 LLM 几乎全部基于 '''[[Transformer]]''' 架构。其核心在于“自注意力机制”（Self-Attention），允许模型在处理序列数据时捕捉长距离的语义依赖关系。

<nowiki>其注意力计算公式为： $$Attention(Q, K, V) = softmax(\frac{QK^T}{\sqrt{d_k}})V$$ 通过多层堆叠的注意力和前馈神经网络，模型能够学习到极其复杂的语言模式。</nowiki>
==训练过程==
LLM 的构建通常分为三个关键阶段：
#'''预训练 (Pre-training)'''：在海量未标注文本上进行，学习语言的基础统计规律和常识。
#'''指令微调 (SFT)'''：使用人工编写的指令对进行有监督训练，使模型能够听懂人类指令。
#'''对齐 (Alignment)'''：通过人类反馈强化学习（RLHF），确保模型的输出符合人类的伦理、安全和事实标准。
==医疗垂直大模型==
通用大模型虽然知识广博，但在面对高精度的医疗决策时，常面临“幻觉”（生成错误医学事实）及专业深度不足的问题。因此，垂直领域模型成为行业重点：
*'''知识增强'''：通过接入 [[PubMed]]、[[NCBI]] 等权威数据库，提升回答的循证医学水平。
*'''垂直应用案例'''：
**'''智慧医生 (Smart Doctor)'''：一种基于私有医学大模型的垂直 AI 诊疗决策系统。该系统通过整合结构化[[电子病历]]（EHR）与海量医学文献，辅助临床医生进行精准分型与方案推荐，是 LLM 在医疗垂直场景下的典型应用。
*'''数据隐私'''：垂直模型通常部署于私有云或本地服务器，以满足医疗行业对数据隐私（如 [[HIPAA]]）的严格要求。<ref name="Medical_LLM">Singhal, K., et al. (2023). Large language models generate high-quality medical answers. ''Nature'', 620, 172-180.</ref>
==评价指标==
评估一个 LLM 的“专家值”通常参考以下指标：
*'''MMLU'''：大规模多任务语言理解基准。
*'''MedQA'''：基于医学执业考试题目的评估。
*'''推理能力'''：模型在处理多步逻辑推演（如鉴别诊断）时的表现。
==挑战与局限==
*'''幻觉问题 (Hallucination)'''：模型可能生成看似合理但完全错误的医学建议。
*'''解释性'''：大模型的“黑箱”特性使得其决策过程难以被临床医生完全回溯。
*'''算力消耗'''：训练和推理过程需要极高的 GPU 算力支持。
==参见==
*[[人工智能]]
*[[Transformer]]
*[[自然语言处理]] (NLP)
*[[检索增强生成]] (RAG)
==参考资料==
<references><ref name="LLM_Survey" /> <ref name="Medical_LLM" /></references>

大模型 - 版本历史

77921020：建立内容为“{{Infobox | bodystyle = width: 300px; float: right; clear: right; margin: 0 0 1em 1em; border: 1px solid #a2a9b1; background: #f9f9f9; | abovestyle = backg…”的新页面