Agent开发-N-gram到LLM的发展路径

《从零开始构建智能体》第三章大语言模型基础-读书笔记

语言模型 (Language Model, LM) 是自然语言处理的核心，其根本任务是计算一个词序列（即一个句子）出现的概率。一个好的语言模型能够告诉我们什么样的句子是通顺的、自然的。

在多智能体系统中，语言模型是智能体理解人类指令、生成回应的基础。

下面这张图梳理了从 N-gram 到现代 大语言模型 (LLM) 的核心发展路径，重点突出了每个阶段要解决的关键问题。

timeline
    title 语言模型演进史：核心问题与解决方案
    section 统计语言模型 (1948-2003)
        核心挑战 : 如何计算一个句子出现的概率？
        N-gram模型 (1948) : 核心思想: 马尔可夫假设
 (一个词只依赖前N-1个词)

 优点: 简单、快速、可解释

 ❌ 缺陷: 数据稀疏、
 泛化能力差、
 无法捕捉长距离依赖
        平滑技术 (1948-1990s) : 为解决“数据稀疏”打补丁
(如：加一平滑、Katz平滑)

 效果: 缓解了零概率问题，
但未触及本质。
    section 神经网络语言模型 (2003-2017)
        核心挑战 : 如何让模型理解语义并泛化？
        词嵌入 + NNLM (2003) : 核心思想: 将词映射为
 稠密、连续的向量
(词嵌入 Word Embedding)

 ✅ 优点: 语义相似的词
 在向量空间中也相近
 (开始具备泛化能力)

 ❌ 缺陷: 上下文窗口仍固定
        RNN/LSTM (1997-2010s) : 核心思想: 引入循环结构，
 让信息在网络中循环传递

 ✅ 优点: 理论上能处理
 任意长度的序列

 ❌ 缺陷: 无法并行计算，
 训练慢，有梯度消失/爆炸问题
    section Transformer时代 (2017-至今)
        核心挑战 : 如何实现并行计算并
 真正捕捉长距离依赖？
        Transformer (2017) : 核心思想: 完全基于
 自注意力机制 (Self-Attention)

 ✅ 优点: 可并行计算、
 直接捕捉长距离依赖、
 训练效率大幅提升
        Decoder-Only 架构 (2018) : 核心思想: 只保留解码器，
 通过“预测下一个词”
 进行自回归生成

 ✅ 优点: 训练目标统一、
 结构简单易于扩展、
 天然适合生成任务

 代表模型: GPT 系列、Llama 系列
        能力涌现 (2020s) : 模型规模跨过阈值，
 展现出小模型没有的能力
(如: 思维链、指令遵循、
 代码生成、上下文学习)

图表解读与核心洞察

这个演进过程，可以看作是一场不断突破瓶颈的“闯关游戏”：

第一关 (统计模型)：用“计数”解决了语言建模的可行性问题，但困在了 “死记硬背” 的层面。
第二关 (神经网络模型)：用 “词嵌入” 赋予了模型理解语义的能力，迈出了从“记忆”到“理解”的关键一步，但计算效率成了新瓶颈。
第三关 (Transformer)：用 “自注意力” 机制彻底推翻了循环结构的束缚，同时解决了 “并行计算” 和 “长距离依赖” 两大难题，为大规模训练扫清了道路。
终局 (Decoder-Only LLM)：在Transformer基础上，“预测下一个词” 这一统一而简洁的训练目标，配合海量数据与算力，最终催生了具有 “涌现能力” 的现代大语言模型。