本指南分享了从 GPT-4 等大型语言模型中获得更好结果的策略和战术。这些方法有些可以结合使用以获得更强大的效果。

六大核心策略

1. 写清楚指令 (Write clear instructions)

模型无法读懂你的心思。如果输出太长,要求简短;如果输出太简单,要求专家级写作。如果不喜欢格式,展示你想要的格式。

  • 包含细节: “写关于 AI 的代码” -> “用 Python 写一段代码,使用 PyTorch 库实现一个简单的线性回归模型,并包含注释。”
  • 使用分隔符: 使用 """, ---, ````, <tag> 等符号清晰区分指令和引用的文本。
  • 指定角色: “你是一位专业的学术编辑…”
  • 举例说明 (Few-shot): 提供“输入-输出”对的示例,让模型模仿风格或格式。

2. 提供参考文本 (Provide reference text)

语言模型有时会自信地编造假消息(幻觉)。提供参考资料可以帮助模型回答更准确。

  • 基于参考回答: “使用下面的文章来回答问题。如果你无法从文章中找到答案,请说不知道。”
  • 引用来源: 要求模型在回答中引用参考文本的具体段落。

3. 将复杂任务拆分为简单子任务 (Split complex tasks into simpler subtasks)

就像软件工程将复杂系统分解为模块一样。

  • 多步处理: 不要试图在一个 Prompt 中完成所有事情。先让模型提取信息,再让模型总结,最后格式化。
  • Intent Classification (意图分类): 先判断用户意图(客服、技术支持、销售),然后根据分类加载不同的指令集。

4. 给模型“思考”的时间 (Give the model time to “think”)

如果你被要求立即计算 17 x 24,你可能会算错。如果你可以一步步写下来,正确率会大大提高。

  • 思维链 (Chain of Thought): 要求模型 “Let’s think step by step” (让我们一步步思考)。
  • 强制推理: 在让模型给出最终结论前,先要求它列出推理过程或计算步骤。
  • 检查工作: 要求模型在输出最终答案前,先检查自己生成的代码或逻辑是否存在错误。

5. 使用外部工具 (Use external tools)

通过给模型提供工具来弥补其弱点。

  • 代码执行: 使用 Code Interpreter 进行精确计算或运行代码,而不是让模型“心算”。
  • 检索增强生成 (RAG): 使用 Embeddings 或搜索工具获取外部知识库的信息。
  • API 调用: 使用 Function Calling 连接到你的业务系统。

6. 系统地测试变更 (Test changes systematically)

如果你无法衡量性能,就无法改进它。

  • 构建评估集 (Evals): 创建一组具有标准答案(黄金标准)的测试用例。
  • 自动化评估: 随着 Prompt 的修改,运行评估集,检查准确率、风格一致性等指标是否提升。
  • 不要只依赖一两个例子的感觉,要看整体指标。

示例:优化 Prompt

优化前 (Bad):

帮我写个关于鞋子的广告。

优化后 (Good):

你是一位专业的营销文案。请为一款名为 “AirStride” 的新型跑鞋写一篇 Instagram 广告文案。

产品特点:

  • 重量仅 200g
  • 专为马拉松设计
  • 售价 $120

要求:

  • 语气充满活力且励志
  • 包含 3 个相关的 emoji
  • 结尾包含 “立即购买” 的号召性用语