大模型的训练阶段¶
整体分为 3 个阶段:
- 预训练 - 学习语言的基本表示
- SFT (监督微调) - 适应特定任务
- RLHF (人类反馈强化学习) - 根据用户反馈优化
预训练¶
预训练阶段,模型会学习到语言的表示,比如词嵌入、上下文依赖关系、句法结构等。这是大模型的基础学习阶段。
SFT (监督微调)¶
SFT (Supervised Fine-Tuning) 是一种基于监督学习的方法,通过在预训练的模型上进行微调,来训练模型以适应特定的任务。
类似于从中学到大学的知识,模型会学习到更专业、更特定领域的技能和知识。
RLHF (人类反馈强化学习)¶
RLHF (Reinforcement Learning from Human Feedback) 是一种基于强化学习的微调方法,通过使用人类反馈来训练模型。
类似于从大学生步入职场后的阶段,大模型会根据用户的反馈来更新模型,从而提高模型的效果。比如夸赞、批评等反馈都会影响模型的优化方向。
大模型的特点和分类¶
特点¶
| 特点 | 说明 |
|---|---|
| 规模和参数数量大 | 模型参数可达数十亿甚至上万亿 |
| 适应性和灵活性强 | 可适应多种任务和场景 |
| 广泛的数据集训练 | 基于海量数据进行训练 |
| 计算资源需求大 | 需要强大的算力支持 |
分类¶
- 大语言模型 - 专注于文本理解和生成
- 多模态模型 - 支持多种数据类型
- 计算机视觉模型
- 语音识别模型
- 其他模态模型
大模型的工作流程¶
- 分词化与词表的映射
- 文本生成过程
分词化¶
📝 分词化(Tokenization)核心解读¶
分词化是让计算机理解文本的基础步骤,它将自然语言转换为计算机可处理的格式。
🔍 核心定义¶
分词化是将段落、句子切割为更小的独立单元(token)的过程,目的是让计算机能解析文本结构与语义。
- 英文示例:
I want to study AI.→ 分词结果:['I', 'want', 'to', 'study', 'AI', '.'] - 最终每个 token 会通过词表映射为 token id,句子最终以「token id 列表」的形式供计算机处理。
🧩 三种粒度的分词化¶
| 粒度类型 | 核心特点 | 适用场景 |
|---|---|---|
| 词粒度(Word-Level) | 以完整单词为单位切割 | 西方语言(如英语),符合自然书写习惯 |
| 字符粒度(Character-Level) | 以单个汉字/字符为单位切割 | 中文等表意文字,是最直接的分词方式 |
| 子词粒度(Subword-Level) | 将单词拆分为词根、词缀等更小单元 | 处理新词、专有名词、网络用语等场景,兼容性更强 |
💡 关键价值¶
- 帮助计算机理解文本的**结构与语义**,明确各单元在上下文中的作用;
- 为后续的文本分析、模型训练(如大语言模型)提供标准化输入;
- 不同粒度的分词策略可适配不同语言与业务需求,提升处理效率与效果。
大模型的应用¶
待补充内容...