学习小分队
用户1371
添加快捷方式
分享
LLM
输入“/”快速插入内容
LLM
用户1371
用户1371
3月26日修改
LLM History
第一阶段:史前时代 & 技术奠基 (Pre-2017)
在“大模型”概念出现之前,自然语言处理(NLP)领域经历了漫长的技术积累。
1.
统计语言模型 (N-gram)
:基于马尔可夫假设,用前N个词的概率来预测下一个词。简单有效,但无法处理长距离依赖,数据稀疏问题严重。
2.
神经网络语言模型 (NNLM)
:2003年,Bengio等人提出了第一个神经网络语言模型,将词映射为稠密向量(词向量),开启了分布式表示的新思路。
3.
Word2Vec & GloVe (2013年左右)
:高效学习词向量的技术被提出,词表示成为NLP任务的标配。
4.
RNN/LSTM/GRU
:循环神经网络及其变体(长短期记忆网络LSTM、门控循环单元GRU)成为处理序列数据的主流模型。它们能够处理变长序列,但存在梯度消失/爆炸问题,且难以并行化,训练效率低。
第二阶段:Transformer架构诞生 (2017) - “一切的起点”
2017年,Google的论文《Attention Is All You Need》带来了颠覆性的
Transformer
架构。
•
核心创新
:
◦
自注意力机制 (Self-Attention)
:让序列中的每个位置都能直接与所有位置交互,彻底解决了长距离依赖问题。
◦
并行化训练
:抛弃了循环,完全基于矩阵运算,极大地提升了训练效率。
◦
编码器-解码器结构
:为机器翻译等序列到序列任务量身定制。
Transformer最初并未立即展现其全部威力,但它为一切大模型提供了最核心的
基础设施
。
第三阶段:预训练范式的崛起 (2018-2019) - “预训练+微调”
研究者们开始利用Transformer架构和海量无标注文本进行预训练。
1.
GPT-1 (Generative Pre-training Transformer, 2018)
:OpenAI提出
生成式预训练
。使用Transformer
解码器
,通过自回归(预测下一个词)的方式在无标签文本上预训练,然后在特定任务上微调。证明了生成式预训练的有效性。
2.
BERT (Bidirectional Encoder Representations from Transformers, 2018)
:Google提出
双向编码器
。使用Transformer
编码器
,通过
掩码语言模型(MLM)
和
下一句预测(NSP)
任务进行预训练,能更好地理解上下文语义。BERT在11项NLP任务上取得SOTA,彻底引爆了“预训练+微调”的范式。
第一场路线之争
:
GPT(自回归)
vs
BERT(自编码)
。此时BERT在理解类任务上更胜一筹。
第四阶段:规模缩放与能力涌现 (2020-2022) - “大力出奇迹”
人们发现,简单地
放大模型规模、数据规模和计算规模
,可以带来意想不到的能力提升。
1.
GPT-3 (2020)
:OpenAI推出1750亿参数的巨型模型。其核心论文《Language Models are Few-Shot Learners》表明,超大的模型在
少样本学习(Few-Shot)
甚至
零样本学习(Zero-Shot)
上表现惊人,出现了
涌现能力(Emergent Abilities)
。它不再需要微调,只需给出任务描述和几个例子(提示工程)。证明了“Scaling Law(缩放定律)”的有效性。
2.
开源模型的繁荣
:
◦
T5 (Text-to-Text Transfer Transformer)
:Google将所有NLP任务都重构为“文本到文本”的生成任务。
◦
GPT系列变体
:如ChatGPT的前身InstructGPT,引入了
从人类反馈中强化学习(RLHF)
,让模型输出更符合人类偏好。
◦
其他重要模型
:Google的Switch Transformer、DeepMind的Gopher和Chinchilla(后者强调了数据与计算的最佳配比)。
3.
Decoder-Only的胜利
:由于其在生成和少样本学习上的绝对优势,
GPT风格的Decoder-Only架构
逐渐成为主流,统一了江湖。
第五阶段:对齐、多模态与智能体 (2022-2023) - “ChatGPT时刻”
模型的能力开始从“强大”走向“有用”和“可用”。
1.
ChatGPT (2022年底)
:基于InstructGPT和RLHF技术,ChatGPT提供了前所未有的对话交互体验,其
对话对齐能力
震惊世界,开启了AI全民化时代。
2.
GPT-4 (2023)
:更强大、更可靠的多模态模型(能理解图像输入),推理能力大幅提升,在专业和学术考试中达到人类水平。
3.
开源模型的追赶
:
◦
LLaMA (Meta)
:并非开源模型,但Meta发布了其权重,催生了整个开源社区的爆发。它证明了
用更少的数据、更小的参数量(70亿)但更精妙的架构(RoPE等)也能达到极佳效果
。
◦
BLOOM、Vicuna、Alpaca
等:各大机构和社区基于LLaMA等进行微调、训练,形成了繁荣的开源生态。
4.
多模态融合
:模型不再局限于文本。CLIP、DALL-E、Stable Diffusion等模型在图文跨模态领域取得突破。
第六阶段:当前与未来 (2024至今) - “效率、专业化与智能体”
发展进入新阶段,焦点不再仅仅是扩大规模,而是更智能地使用规模。
1.
混合专家模型 (MoE) 的普及
:如Mixtral 8x7B、DeepSeek-V2,用稀疏激活的方式在推理时大幅降低计算成本,实现“万亿参数,百亿激活”。
2.
更优的缩放定律 (Scaling Law 2.0)
:研究如何更高效地分配计算、数据和参数,追求最佳性价比。
3.
小型化与效率
:出现更多小体积、高性能的模型,如Microsoft的
Phi-3
,追求在边缘设备部署。
4.
代码与推理专精模型
:如DeepSeek-Coder、CodeLLaMA,在代码生成和数学推理上达到极高水准。
5.
长上下文竞赛
:上下文窗口从4K、32K发展到
200K甚至100万Token
(如Qwen2、Gemini 1.5),模型可以处理整本书、大量文档。
6.
AI智能体 (AI Agent)
:模型不再是简单的问答工具,而是能够
自主理解目标、规划步骤、使用工具(搜索引擎、代码解释器)、执行任务
的智能体。
LLM Structure
概述
Transformer 是一种完全基于自注意力机制的深度学习模型架构,它在处理序列数据(如文本、语音)方面表现出色,已成为现代大语言模型(如 GPT、BERT)的基石。