圖片來源: 

Google

 

Google宣布Gemini 2.5模型支援隱含快取(implicit caching)功能,有助於節省用戶成本。

Google於2024年5月首先推出內容快取(context caching),協助開發人員將送到模型的重覆性token減少75%。那時是明確快取(explicit caching),上周Google再推出高呼聲的隱含快取。

隱含快取不需使用者建立明確快取。當用戶對Gemini 2.5模型傳送呼叫時,如果本次呼叫和之前的呼叫有相同的前綴(prefix),就能自動適用快取。Google會動態將省下的費用回饋給用戶,大約等於省下75%的字詞(token)。

為提高適用快取的機會,用戶應把呼叫開頭的內容維持相同,把用戶的問題或其他新增的token加在呼叫尾端。而為提高呼叫字詞符合快取的比例,Google也將呼叫最低門檻降低,在Gemini 2.5 Flash為1024 tokens,在2.5 Pro則為2048 tokens。

其他最佳作法則列於Gemini API文件中

不過如果用戶希望能確實省下成本,還是可以使用支援Gemini 2.5及2.0模型的明確快取API。如果使用Gemini 2.5模型,現在就會在使用量的metadata中看到「cached_content_token_count」,說明呼叫中有多少token中包含在快取中,可適用於較低費率。

熱門新聞

Advertisement