跳转至

大模型的训练阶段

整体分为 3 个阶段

  1. 预训练 - 学习语言的基本表示
  2. SFT (监督微调) - 适应特定任务
  3. RLHF (人类反馈强化学习) - 根据用户反馈优化

预训练

预训练阶段,模型会学习到语言的表示,比如词嵌入、上下文依赖关系、句法结构等。这是大模型的基础学习阶段。


SFT (监督微调)

SFT (Supervised Fine-Tuning) 是一种基于监督学习的方法,通过在预训练的模型上进行微调,来训练模型以适应特定的任务。

类似于从中学到大学的知识,模型会学习到更专业、更特定领域的技能和知识。


RLHF (人类反馈强化学习)

RLHF (Reinforcement Learning from Human Feedback) 是一种基于强化学习的微调方法,通过使用人类反馈来训练模型。

类似于从大学生步入职场后的阶段,大模型会根据用户的反馈来更新模型,从而提高模型的效果。比如夸赞、批评等反馈都会影响模型的优化方向。


大模型的特点和分类

特点

特点 说明
规模和参数数量大 模型参数可达数十亿甚至上万亿
适应性和灵活性强 可适应多种任务和场景
广泛的数据集训练 基于海量数据进行训练
计算资源需求大 需要强大的算力支持

分类

  1. 大语言模型 - 专注于文本理解和生成
  2. 多模态模型 - 支持多种数据类型
    • 计算机视觉模型
    • 语音识别模型
    • 其他模态模型

大模型的工作流程

  • 分词化与词表的映射
  • 文本生成过程

分词化

📝 分词化(Tokenization)核心解读

分词化是让计算机理解文本的基础步骤,它将自然语言转换为计算机可处理的格式。


🔍 核心定义

分词化是将段落、句子切割为更小的独立单元(token)的过程,目的是让计算机能解析文本结构与语义。

  • 英文示例:I want to study AI. → 分词结果:['I', 'want', 'to', 'study', 'AI', '.']
  • 最终每个 token 会通过词表映射为 token id,句子最终以「token id 列表」的形式供计算机处理。

🧩 三种粒度的分词化

粒度类型 核心特点 适用场景
词粒度(Word-Level) 以完整单词为单位切割 西方语言(如英语),符合自然书写习惯
字符粒度(Character-Level) 以单个汉字/字符为单位切割 中文等表意文字,是最直接的分词方式
子词粒度(Subword-Level) 将单词拆分为词根、词缀等更小单元 处理新词、专有名词、网络用语等场景,兼容性更强

💡 关键价值

  1. 帮助计算机理解文本的**结构与语义**,明确各单元在上下文中的作用;
  2. 为后续的文本分析、模型训练(如大语言模型)提供标准化输入;
  3. 不同粒度的分词策略可适配不同语言与业务需求,提升处理效率与效果。

大模型的应用

待补充内容...