码农戏码

新生代农民工的自我修养

0%

Agent开发-N-gram到LLM的发展路径

《从零开始构建智能体》第三章 大语言模型基础-读书笔记

语言模型 (Language Model, LM) 是自然语言处理的核心,其根本任务是计算一个词序列(即一个句子)出现的概率。一个好的语言模型能够告诉我们什么样的句子是通顺的、自然的。

在多智能体系统中,语言模型是智能体理解人类指令、生成回应的基础。

下面这张图梳理了从 N-gram 到现代 大语言模型 (LLM) 的核心发展路径,重点突出了每个阶段要解决的关键问题。

timeline
    title 语言模型演进史:核心问题与解决方案
    section 统计语言模型 (1948-2003)
        核心挑战 : 如何计算一个句子出现的概率?
        N-gram模型 (1948) : 核心思想: 马尔可夫假设
(一个词只依赖前N-1个词)

优点: 简单、快速、可解释

❌ 缺陷: 数据稀疏、
泛化能力差、
无法捕捉长距离依赖 平滑技术 (1948-1990s) : 为解决“数据稀疏”打补丁
(如:加一平滑、Katz平滑)

效果: 缓解了零概率问题,
但未触及本质。 section 神经网络语言模型 (2003-2017) 核心挑战 : 如何让模型理解语义并泛化? 词嵌入 + NNLM (2003) : 核心思想: 将词映射为
稠密、连续的向量
(词嵌入 Word Embedding)

✅ 优点: 语义相似的词
在向量空间中也相近
(开始具备泛化能力)

❌ 缺陷: 上下文窗口仍固定 RNN/LSTM (1997-2010s) : 核心思想: 引入循环结构,
让信息在网络中循环传递

✅ 优点: 理论上能处理
任意长度的序列

❌ 缺陷: 无法并行计算,
训练慢,有梯度消失/爆炸问题 section Transformer时代 (2017-至今) 核心挑战 : 如何实现并行计算并
真正捕捉长距离依赖? Transformer (2017) : 核心思想: 完全基于
自注意力机制 (Self-Attention)

✅ 优点: 可并行计算、
直接捕捉长距离依赖、
训练效率大幅提升 Decoder-Only 架构 (2018) : 核心思想: 只保留解码器,
通过“预测下一个词”
进行自回归生成

✅ 优点: 训练目标统一、
结构简单易于扩展、
天然适合生成任务

代表模型: GPT 系列、Llama 系列 能力涌现 (2020s) : 模型规模跨过阈值,
展现出小模型没有的能力
(如: 思维链、指令遵循、
代码生成、上下文学习)

图表解读与核心洞察

这个演进过程,可以看作是一场不断突破瓶颈的“闯关游戏”:

  1. 第一关 (统计模型):用“计数”解决了语言建模的可行性问题,但困在了 “死记硬背” 的层面。
  2. 第二关 (神经网络模型):用 “词嵌入” 赋予了模型理解语义的能力,迈出了从“记忆”到“理解”的关键一步,但计算效率成了新瓶颈。
  3. 第三关 (Transformer):用 “自注意力” 机制彻底推翻了循环结构的束缚,同时解决了 “并行计算”“长距离依赖” 两大难题,为大规模训练扫清了道路。
  4. 终局 (Decoder-Only LLM):在Transformer基础上,“预测下一个词” 这一统一而简洁的训练目标,配合海量数据与算力,最终催生了具有 “涌现能力” 的现代大语言模型。