Gemini 上下文缓存 (Context Caching) 使用指南 - Gemini 开发指南
上下文缓存 (Context Caching) 上下文缓存是一项旨在降低成本和延迟的功能,特别适用于具有大量重复上下文(如长文档、系统指令、代码库)的场景。 为什么使用上下文缓存? 降低成本: 缓存的 token 价格通常低于输入的 token 价格。如果您多次重复使用相同的长上下文,缓存可以显著节省费用。 提高速度: 预处理的上下文无需每次请求都重新计算,从而减少首个 token 的生成延迟(TTFT)。 适用场景 文档问答: 针对一本长篇手册或法律文档进行多轮问答。 代码助手: 加载整个代码库作为上下文,以便进行代码补全或重构。 角色扮演: 包含大量世界观设定或角色描述的对话系统。 如何使用 上下文缓存通常涉及创建一个 cachedContent 对象,该对象包含您希望缓存的内容(文本、文件等)以及生存时间(TTL)。 ...