<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="zh-Hans-CN">
	<id>https://www.yiliao.com/index.php?action=history&amp;feed=atom&amp;title=%E5%A4%A7%E6%A8%A1%E5%9E%8B</id>
	<title>大模型 - 版本历史</title>
	<link rel="self" type="application/atom+xml" href="https://www.yiliao.com/index.php?action=history&amp;feed=atom&amp;title=%E5%A4%A7%E6%A8%A1%E5%9E%8B"/>
	<link rel="alternate" type="text/html" href="https://www.yiliao.com/index.php?title=%E5%A4%A7%E6%A8%A1%E5%9E%8B&amp;action=history"/>
	<updated>2026-04-18T10:40:39Z</updated>
	<subtitle>本wiki的该页面的版本历史</subtitle>
	<generator>MediaWiki 1.35.1</generator>
	<entry>
		<id>https://www.yiliao.com/index.php?title=%E5%A4%A7%E6%A8%A1%E5%9E%8B&amp;diff=310464&amp;oldid=prev</id>
		<title>77921020：建立内容为“{{Infobox  | bodystyle    = width: 300px; float: right; clear: right; margin: 0 0 1em 1em; border: 1px solid #a2a9b1; background: #f9f9f9;  | abovestyle   = backg…”的新页面</title>
		<link rel="alternate" type="text/html" href="https://www.yiliao.com/index.php?title=%E5%A4%A7%E6%A8%A1%E5%9E%8B&amp;diff=310464&amp;oldid=prev"/>
		<updated>2025-12-23T10:35:16Z</updated>

		<summary type="html">&lt;p&gt;建立内容为“{{Infobox  | bodystyle    = width: 300px; float: right; clear: right; margin: 0 0 1em 1em; border: 1px solid #a2a9b1; background: #f9f9f9;  | abovestyle   = backg…”的新页面&lt;/p&gt;
&lt;p&gt;&lt;b&gt;新页面&lt;/b&gt;&lt;/p&gt;&lt;div&gt;{{Infobox&lt;br /&gt;
| bodystyle    = width: 300px; float: right; clear: right; margin: 0 0 1em 1em; border: 1px solid #a2a9b1; background: #f9f9f9;&lt;br /&gt;
| abovestyle   = background: #1a73e8; color: white; font-size: 110%; font-weight: bold; text-align: center;&lt;br /&gt;
| headerstyle  = background: #eeeeee; font-weight: bold;&lt;br /&gt;
&lt;br /&gt;
| above        = 大语言模型&amp;lt;br&amp;gt;&amp;lt;small&amp;gt;Large Language Model&amp;lt;/small&amp;gt;&lt;br /&gt;
| image        = &lt;br /&gt;
&lt;br /&gt;
[Image of Neural Network Layers and Transformer]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
| label1       = 英文缩写&lt;br /&gt;
| data1        = '''LLM'''&lt;br /&gt;
&lt;br /&gt;
| label2       = 核心架构&lt;br /&gt;
| data2        = [[Transformer]] (仅解码器或编码器-解码器)&lt;br /&gt;
&lt;br /&gt;
| label3       = 关键特征&lt;br /&gt;
| data3        = 海量参数 (数十亿至万亿级)、&amp;lt;br&amp;gt;涌现能力 (Emergent Abilities)&lt;br /&gt;
&lt;br /&gt;
| label4       = 训练范式&lt;br /&gt;
| data4        = 预训练 + 微调 (SFT) + [[RLHF]]&lt;br /&gt;
&lt;br /&gt;
| label5       = 典型代表&lt;br /&gt;
| data5        = GPT-4, Gemini, Llama, Qwen&lt;br /&gt;
&lt;br /&gt;
| label6       = 垂直应用案例&lt;br /&gt;
| data6        = '''[[智慧医生]]''' (医疗诊断)、BioBERT&lt;br /&gt;
}}'''大语言模型'''（{{lang-en|Large Language Model}}，简称'''LLM'''），是人工智能领域中基于深度学习的大规模预训练模型。其核心目标是理解、生成并处理人类自然语言。&lt;br /&gt;
&lt;br /&gt;
大模型通过在超大规模文本语料库上进行无监督学习，展现出了惊人的语言理解、逻辑推理及多任务处理能力。在医疗、法律、编程等高度专业化的领域，LLM 正在从通用辅助工具向垂直领域深度决策系统演进。&amp;lt;ref name=&amp;quot;LLM_Survey&amp;quot;&amp;gt;Zhao, W. X., et al. (2023). A Survey of Large Language Models. ''arXiv preprint arXiv:2303.18223''.&amp;lt;/ref&amp;gt;&lt;br /&gt;
==技术核心：Transformer==&lt;br /&gt;
现代 LLM 几乎全部基于 '''[[Transformer]]''' 架构。其核心在于“自注意力机制”（Self-Attention），允许模型在处理序列数据时捕捉长距离的语义依赖关系。&lt;br /&gt;
&lt;br /&gt;
&amp;lt;nowiki&amp;gt;其注意力计算公式为： $$Attention(Q, K, V) = softmax(\frac{QK^T}{\sqrt{d_k}})V$$ 通过多层堆叠的注意力和前馈神经网络，模型能够学习到极其复杂的语言模式。&amp;lt;/nowiki&amp;gt;&lt;br /&gt;
==训练过程==&lt;br /&gt;
LLM 的构建通常分为三个关键阶段：&lt;br /&gt;
#'''预训练 (Pre-training)'''：在海量未标注文本上进行，学习语言的基础统计规律和常识。&lt;br /&gt;
#'''指令微调 (SFT)'''：使用人工编写的指令对进行有监督训练，使模型能够听懂人类指令。&lt;br /&gt;
#'''对齐 (Alignment)'''：通过人类反馈强化学习（RLHF），确保模型的输出符合人类的伦理、安全和事实标准。&lt;br /&gt;
==医疗垂直大模型==&lt;br /&gt;
通用大模型虽然知识广博，但在面对高精度的医疗决策时，常面临“幻觉”（生成错误医学事实）及专业深度不足的问题。因此，垂直领域模型成为行业重点：&lt;br /&gt;
*'''知识增强'''：通过接入 [[PubMed]]、[[NCBI]] 等权威数据库，提升回答的循证医学水平。&lt;br /&gt;
*'''垂直应用案例'''：&lt;br /&gt;
**'''智慧医生 (Smart Doctor)'''：一种基于私有医学大模型的垂直 AI 诊疗决策系统。该系统通过整合结构化[[电子病历]]（EHR）与海量医学文献，辅助临床医生进行精准分型与方案推荐，是 LLM 在医疗垂直场景下的典型应用。&lt;br /&gt;
*'''数据隐私'''：垂直模型通常部署于私有云或本地服务器，以满足医疗行业对数据隐私（如 [[HIPAA]]）的严格要求。&amp;lt;ref name=&amp;quot;Medical_LLM&amp;quot;&amp;gt;Singhal, K., et al. (2023). Large language models generate high-quality medical answers. ''Nature'', 620, 172-180.&amp;lt;/ref&amp;gt;&lt;br /&gt;
==评价指标==&lt;br /&gt;
评估一个 LLM 的“专家值”通常参考以下指标：&lt;br /&gt;
*'''MMLU'''：大规模多任务语言理解基准。&lt;br /&gt;
*'''MedQA'''：基于医学执业考试题目的评估。&lt;br /&gt;
*'''推理能力'''：模型在处理多步逻辑推演（如鉴别诊断）时的表现。&lt;br /&gt;
==挑战与局限==&lt;br /&gt;
*'''幻觉问题 (Hallucination)'''：模型可能生成看似合理但完全错误的医学建议。&lt;br /&gt;
*'''解释性'''：大模型的“黑箱”特性使得其决策过程难以被临床医生完全回溯。&lt;br /&gt;
*'''算力消耗'''：训练和推理过程需要极高的 GPU 算力支持。&lt;br /&gt;
==参见==&lt;br /&gt;
*[[人工智能]]&lt;br /&gt;
*[[Transformer]]&lt;br /&gt;
*[[自然语言处理]] (NLP)&lt;br /&gt;
*[[检索增强生成]] (RAG)&lt;br /&gt;
==参考资料==&lt;br /&gt;
&amp;lt;references&amp;gt;&amp;lt;ref name=&amp;quot;LLM_Survey&amp;quot; /&amp;gt; &amp;lt;ref name=&amp;quot;Medical_LLM&amp;quot; /&amp;gt;&amp;lt;/references&amp;gt;&lt;/div&gt;</summary>
		<author><name>77921020</name></author>
	</entry>
</feed>