跳转至

Luke's Wiki

大模型 - 基础篇

大模型的训练阶段¶

整体分为 3 个阶段：

预训练 - 学习语言的基本表示
SFT (监督微调) - 适应特定任务
RLHF (人类反馈强化学习) - 根据用户反馈优化

预训练¶

预训练阶段，模型会学习到语言的表示，比如词嵌入、上下文依赖关系、句法结构等。这是大模型的基础学习阶段。

SFT (监督微调)¶

SFT (Supervised Fine-Tuning) 是一种基于监督学习的方法，通过在预训练的模型上进行微调，来训练模型以适应特定的任务。

类似于从中学到大学的知识，模型会学习到更专业、更特定领域的技能和知识。

RLHF (人类反馈强化学习)¶

RLHF (Reinforcement Learning from Human Feedback) 是一种基于强化学习的微调方法，通过使用人类反馈来训练模型。

类似于从大学生步入职场后的阶段，大模型会根据用户的反馈来更新模型，从而提高模型的效果。比如夸赞、批评等反馈都会影响模型的优化方向。

大模型的特点和分类¶

特点¶

特点	说明
规模和参数数量大	模型参数可达数十亿甚至上万亿
适应性和灵活性强	可适应多种任务和场景
广泛的数据集训练	基于海量数据进行训练
计算资源需求大	需要强大的算力支持

分类¶

大语言模型 - 专注于文本理解和生成
多模态模型 - 支持多种数据类型
- 计算机视觉模型
- 语音识别模型
- 其他模态模型

大模型的工作流程¶

分词化与词表的映射

文本生成过程

分词化¶

📝 分词化（Tokenization）核心解读¶

分词化是让计算机理解文本的基础步骤，它将自然语言转换为计算机可处理的格式。

🔍 核心定义¶

分词化是将段落、句子切割为更小的独立单元（token）的过程，目的是让计算机能解析文本结构与语义。

英文示例：I want to study AI. → 分词结果：['I', 'want', 'to', 'study', 'AI', '.']
最终每个 token 会通过词表映射为 token id，句子最终以「token id 列表」的形式供计算机处理。

🧩 三种粒度的分词化¶

粒度类型	核心特点	适用场景
词粒度（Word-Level）	以完整单词为单位切割	西方语言（如英语），符合自然书写习惯
字符粒度（Character-Level）	以单个汉字/字符为单位切割	中文等表意文字，是最直接的分词方式
子词粒度（Subword-Level）	将单词拆分为词根、词缀等更小单元	处理新词、专有名词、网络用语等场景，兼容性更强

💡 关键价值¶

帮助计算机理解文本的**结构与语义**，明确各单元在上下文中的作用；
为后续的文本分析、模型训练（如大语言模型）提供标准化输入；
不同粒度的分词策略可适配不同语言与业务需求，提升处理效率与效果。

大模型的应用¶

待补充内容...