llama : fix defrag bugs + add parameter (#5735)

* llama : fix defrag bugs + enable by default ggml-ci * llama : add defrag_thold parameter ggml-ci * llama : cont * llama : disable log message ggml-ci * llama : fix graph size check during defrag
author: Georgi Gerganov <ggerganov@gmail.com> 2024-02-27 14:35:51 +0200
committer: GitHub <noreply@github.com> 2024-02-27 14:35:51 +0200
commit: 9d533a77d0c3850ce09d736bc1baa67fd6ad27b3 (patch)
tree: 25adffcbb0f7c13a8578279456a4937ed73ae3f6 /common/common.cpp
parent: cbbd1efa06f8c09f9dff58ff9d9af509cc4c152b (diff)
1 files changed, 9 insertions, 0 deletions
diff --git a/common/common.cpp b/common/common.cpp
index ec596f5a..18289755 100644
--- a/common/common.cpp
+++ b/common/common.cpp
@@ -335,6 +335,12 @@ bool gpt_params_parse_ex(int argc, char ** argv, gpt_params & params) {
                 break;
             }
             params.yarn_beta_slow = std::stof(argv[i]);
+        } else if (arg == "--defrag-thold" || arg == "-dt") {
+            if (++i >= argc) {
+                invalid_param = true;
+                break;
+            }
+            params.defrag_thold = std::stof(argv[i]);
         } else if (arg == "--samplers") {
             if (++i >= argc) {
                 invalid_param = true;
@@ -1004,6 +1010,8 @@ void gpt_print_usage(int /*argc*/, char ** argv, const gpt_params & params) {
     printf("  --yarn-attn-factor N  YaRN: scale sqrt(t) or attention magnitude (default: 1.0)\n");
     printf("  --yarn-beta-slow N    YaRN: high correction dim or alpha (default: %.1f)\n", params.yarn_beta_slow);
     printf("  --yarn-beta-fast N    YaRN: low correction dim or beta (default: %.1f)\n", params.yarn_beta_fast);
+    printf("  -dt N, --defrag-thold N\n");
+    printf("                        KV cache defragmentation threshold (default: %.1f, < 0 - disabled)\n", params.defrag_thold);
     printf("  --ignore-eos          ignore end of stream token and continue generating (implies --logit-bias 2-inf)\n");
     printf("  --no-penalize-nl      do not penalize newline token\n");
     printf("  --temp N              temperature (default: %.1f)\n", (double)sparams.temp);
@@ -1285,6 +1293,7 @@ struct llama_context_params llama_context_params_from_gpt_params(const gpt_param
     cparams.yarn_beta_fast    = params.yarn_beta_fast;
     cparams.yarn_beta_slow    = params.yarn_beta_slow;
     cparams.yarn_orig_ctx     = params.yarn_orig_ctx;
+    cparams.defrag_thold      = params.defrag_thold;
     cparams.offload_kqv       = !params.no_kv_offload;
 
     cparams.type_k = kv_cache_type_from_str(params.cache_type_k);
author	Georgi Gerganov <ggerganov@gmail.com>	2024-02-27 14:35:51 +0200
committer	GitHub <noreply@github.com>	2024-02-27 14:35:51 +0200
commit	9d533a77d0c3850ce09d736bc1baa67fd6ad27b3 (patch)
tree	25adffcbb0f7c13a8578279456a4937ed73ae3f6 /common/common.cpp
parent	cbbd1efa06f8c09f9dff58ff9d9af509cc4c152b (diff)