LLM

用户1371

3月26日修改

LLM History

第一阶段：史前时代 & 技术奠基 (Pre-2017)

在“大模型”概念出现之前，自然语言处理（NLP）领域经历了漫长的技术积累。​

1.
统计语言模型 (N-gram)​：基于马尔可夫假设，用前N个词的概率来预测下一个词。简单有效，但无法处理长距离依赖，数据稀疏问题严重。​

2.
神经网络语言模型 (NNLM)​：2003年，Bengio等人提出了第一个神经网络语言模型，将词映射为稠密向量（词向量），开启了分布式表示的新思路。​

3.
Word2Vec & GloVe (2013年左右)​：高效学习词向量的技术被提出，词表示成为NLP任务的标配。​

4.
RNN/LSTM/GRU​：循环神经网络及其变体（长短期记忆网络LSTM、门控循环单元GRU）成为处理序列数据的主流模型。它们能够处理变长序列，但存在梯度消失/爆炸问题，且难以并行化，训练效率低。​

第二阶段：Transformer架构诞生 (2017) - “一切的起点”

2017年，Google的论文《Attention Is All You Need》带来了颠覆性的Transformer架构。​

•
核心创新​：​
◦
自注意力机制 (Self-Attention)​：让序列中的每个位置都能直接与所有位置交互，彻底解决了长距离依赖问题。​
◦
并行化训练​：抛弃了循环，完全基于矩阵运算，极大地提升了训练效率。​
◦
编码器-解码器结构​：为机器翻译等序列到序列任务量身定制。​

Transformer最初并未立即展现其全部威力，但它为一切大模型提供了最核心的基础设施。​

第三阶段：预训练范式的崛起 (2018-2019) - “预训练+微调”

研究者们开始利用Transformer架构和海量无标注文本进行预训练。​

1.
GPT-1 (Generative Pre-training Transformer, 2018)​：OpenAI提出生成式预训练。使用Transformer解码器，通过自回归（预测下一个词）的方式在无标签文本上预训练，然后在特定任务上微调。证明了生成式预训练的有效性。​

2.
BERT (Bidirectional Encoder Representations from Transformers, 2018)​：Google提出双向编码器。使用Transformer编码器，通过掩码语言模型(MLM) 和下一句预测(NSP) 任务进行预训练，能更好地理解上下文语义。BERT在11项NLP任务上取得SOTA，彻底引爆了“预训练+微调”的范式。​

第一场路线之争​：​GPT（自回归）​ vs BERT（自编码）​。此时BERT在理解类任务上更胜一筹。​

第四阶段：规模缩放与能力涌现 (2020-2022) - “大力出奇迹”

人们发现，简单地放大模型规模、数据规模和计算规模，可以带来意想不到的能力提升。​

1.
GPT-3 (2020)​：OpenAI推出1750亿参数的巨型模型。其核心论文《Language Models are Few-Shot Learners》表明，超大的模型在少样本学习(Few-Shot) 甚至零样本学习(Zero-Shot) 上表现惊人，出现了涌现能力(Emergent Abilities)。它不再需要微调，只需给出任务描述和几个例子（提示工程）。证明了“Scaling Law（缩放定律）”的有效性。​

2.
开源模型的繁荣​：​
◦
T5 (Text-to-Text Transfer Transformer)​：Google将所有NLP任务都重构为“文本到文本”的生成任务。​
◦
GPT系列变体​：如ChatGPT的前身InstructGPT，引入了从人类反馈中强化学习(RLHF)，让模型输出更符合人类偏好。​
◦
其他重要模型​：Google的Switch Transformer、DeepMind的Gopher和Chinchilla（后者强调了数据与计算的最佳配比）。​

3.
Decoder-Only的胜利​：由于其在生成和少样本学习上的绝对优势，​GPT风格的Decoder-Only架构逐渐成为主流，统一了江湖。​

第五阶段：对齐、多模态与智能体 (2022-2023) - “ChatGPT时刻”

模型的能力开始从“强大”走向“有用”和“可用”。

1.
ChatGPT (2022年底)​：基于InstructGPT和RLHF技术，ChatGPT提供了前所未有的对话交互体验，其对话对齐能力震惊世界，开启了AI全民化时代。​

2.
GPT-4 (2023)​：更强大、更可靠的多模态模型（能理解图像输入），推理能力大幅提升，在专业和学术考试中达到人类水平。​

3.
开源模型的追赶​：​
◦
LLaMA (Meta)​：并非开源模型，但Meta发布了其权重，催生了整个开源社区的爆发。它证明了用更少的数据、更小的参数量（70亿）但更精妙的架构（RoPE等）也能达到极佳效果。​
◦
BLOOM、Vicuna、Alpaca等：各大机构和社区基于LLaMA等进行微调、训练，形成了繁荣的开源生态。​

4.
多模态融合​：模型不再局限于文本。CLIP、DALL-E、Stable Diffusion等模型在图文跨模态领域取得突破。​

第六阶段：当前与未来 (2024至今) - “效率、专业化与智能体”​ ​

发展进入新阶段，焦点不再仅仅是扩大规模，而是更智能地使用规模。​

1.
混合专家模型 (MoE) 的普及​：如Mixtral 8x7B、DeepSeek-V2，用稀疏激活的方式在推理时大幅降低计算成本，实现“万亿参数，百亿激活”。​

2.
更优的缩放定律 (Scaling Law 2.0)​：研究如何更高效地分配计算、数据和参数，追求最佳性价比。​

3.
小型化与效率​：出现更多小体积、高性能的模型，如Microsoft的Phi-3，追求在边缘设备部署。​

4.
代码与推理专精模型​：如DeepSeek-Coder、CodeLLaMA，在代码生成和数学推理上达到极高水准。​

5.
长上下文竞赛​：上下文窗口从4K、32K发展到200K甚至100万Token​（如Qwen2、Gemini 1.5），模型可以处理整本书、大量文档。​

6.
AI智能体 (AI Agent)​：模型不再是简单的问答工具，而是能够自主理解目标、规划步骤、使用工具（搜索引擎、代码解释器）、执行任务的智能体。​

LLM Structure

概述

Transformer 是一种完全基于自注意力机制的深度学习模型架构，它在处理序列数据（如文本、语音）方面表现出色，已成为现代大语言模型（如 GPT、BERT）的基石。​

LLM​

LLM