Skip to content

大语言模型时代

大语言模型基于海量文本数据训练,能理解和生成人类语言。

  • Transformer架构:自注意力机制
  • 规模化定律(Scaling Laws):性能随规模提升
  • 预训练-微调范式
  • GPT-1(2018)→ GPT-3(2020, 1750亿参数)→ GPT-4(2023, 多模态)
  • Claude 2(100K上下文)→ Claude 3(多模态)→ Claude 3.5 Sonnet(强代码能力)
  • Gemini(Google)、Llama(Meta)、DeepSeekMistral
  • 上下文学习(In-Context Learning)
  • 链式推理(Chain-of-Thought)
  • 代码生成
  • 工具使用

LangChain、LlamaIndex、AutoGPT

MCP、A2A、Function Calling

幻觉问题、计算成本、安全性、数据版权