Skip to content

大语言模型时代

LLM的崛起

大语言模型基于海量文本数据训练，能理解和生成人类语言。

核心基础

Transformer架构：自注意力机制
规模化定律（Scaling Laws）：性能随规模提升
预训练-微调范式

关键里程碑

GPT系列

GPT-1（2018）→ GPT-3（2020, 1750亿参数）→ GPT-4（2023, 多模态）

Claude系列（Anthropic）

Claude 2（100K上下文）→ Claude 3（多模态）→ Claude 3.5 Sonnet（强代码能力）

其他重要模型

Gemini（Google）、Llama（Meta）、DeepSeek、Mistral

涌现能力

上下文学习（In-Context Learning）
链式推理（Chain-of-Thought）
代码生成
工具使用

生态系统

开发框架

LangChain、LlamaIndex、AutoGPT

关键协议

MCP、A2A、Function Calling

挑战

幻觉问题、计算成本、安全性、数据版权