set cache_prompt default to true (#465)

author: saood06 <saood05@gmail.com> 2025-05-28 00:18:25 -0500
committer: GitHub <noreply@github.com> 2025-05-28 08:18:25 +0300
commit: ccd6d9cdf6851f7042c48d682daf47bc0e2eca27 (patch)
tree: ac8324411fd50d18ef9eef08f75e18dd69d6299a /examples/server/server.cpp
parent: 09764678456f8991f6095118f3727d9d0b17b8c8 (diff)
1 files changed, 2 insertions, 2 deletions
diff --git a/examples/server/server.cpp b/examples/server/server.cpp
index 360f571e..466bb339 100644
--- a/examples/server/server.cpp
+++ b/examples/server/server.cpp
@@ -112,7 +112,7 @@ struct server_task_multi {
 
 struct slot_params {
     bool stream       = true;
-    bool cache_prompt = false; // remember the prompt to avoid reprocessing all prompt
+    bool cache_prompt = true; // remember the prompt to avoid reprocessing all prompt
 
     int32_t  n_keep    =  0; // number of tokens to keep from initial prompt
     int32_t  n_discard =  0; // number of tokens after n_keep that may be discarded when shifting context, 0 defaults to half
@@ -905,7 +905,7 @@ struct server_context {
         }
 
         slot.params.stream             = json_value(data, "stream",            false);
-        slot.params.cache_prompt       = json_value(data, "cache_prompt",      false);
+        slot.params.cache_prompt       = json_value(data, "cache_prompt",      true);
         slot.params.n_predict          = json_value(data, "n_predict",         json_value(data, "max_tokens", default_params.n_predict));
         slot.sparams.top_k             = json_value(data, "top_k",             default_sparams.top_k);
         slot.sparams.top_p             = json_value(data, "top_p",             default_sparams.top_p);
author	saood06 <saood05@gmail.com>	2025-05-28 00:18:25 -0500
committer	GitHub <noreply@github.com>	2025-05-28 08:18:25 +0300
commit	ccd6d9cdf6851f7042c48d682daf47bc0e2eca27 (patch)
tree	ac8324411fd50d18ef9eef08f75e18dd69d6299a /examples/server/server.cpp
parent	09764678456f8991f6095118f3727d9d0b17b8c8 (diff)