Anthropic Claude添加提示詞快取降低開發者API使用成本

Anthropic在其API服務中推出提示詞快取（Prompt Caching）功能，該功能讓開發者可以快取經常使用的上下文，使得每次呼叫模型時，不再需要重新提供大量重複的背景資料，官方提到，在長提示詞應用場景中，甚至可降低達90％成本，並使延遲減少85％。

提示詞快取的概念，是將開發者經常使用的大量提示詞上下文進行快取，只要開發者在第一次呼叫API時上傳完整背景資料，在後續呼叫時，系統便可直接使用這些快取內容。當使用者發送請求時，系統會檢查提示詞前綴是否已在最近的查詢中被快取，是則直接使用快取版本，否則處理完整的提示詞並且快取前綴供後續使用。

該功能的優勢在於大幅減少重複性資料傳輸需求，降低呼叫API的成本和延遲，因此特別適合處理大量資料和多次互動的應用程式，諸如長時間的對話代理、程式開發助理、大型文件或多輪對話處理，以及知識庫查詢等。

藉由提示詞快取功能，開發者可以將完整的知識庫或是樣本嵌入到提示中，並且在後續請求中重複使用這些資料，達到低成本和快速回應的效果。寫入快取的成本比基礎輸入Token的價格高25％，但在使用快取內容時便宜許多，僅為基本輸入Token的10％，這代表當頻繁使用快取，則仍可大幅節省成本。

依照定價官方給出提示詞快取在不同情境的效益參考，在10萬Token提示快取的書籍聊天，延遲從11.5秒減少至2.4秒，同時成本降低了90％，而1萬Token的多樣本提示，延遲從1.6秒減少到1.1秒，成本也降低86%，而對於具有長系統提示的多輪對話，延遲從10秒減少至2.5秒，成本節省53％。

目前提示詞快取已經先在Claude 3.5 Sonnet、Claude 3 Haiku模型上開始公開測試，而Claude 3 Opus模型則會在稍晚的時候支援。

除了Anthropic Claude的提示詞快取，市場上也有其他人工智慧服務提供類似的功能，像是OpenAI也有在文件中提到類似的技術，開發者可大量共享提示詞前綴，把RAG結果或是歷史紀錄等動態的部分放在提示的後半部分，就可以使得請求更具鍵值快取友善（Key-Value Cache Friendly），減少每次請求處理輸入的Token數量，進而降低延遲。

熱門新聞