main : add parameter --no-display-prompt (#4541)

* add the parameter : --no-display-prompt , combine with --log-disable it will display only the generated tokens * remove empty line --------- Co-authored-by: Georgi Gerganov <ggerganov@gmail.com>
author: Yann Follet <131855179+YannFollet@users.noreply.github.com> 2024-01-14 00:09:08 +0800
committer: GitHub <noreply@github.com> 2024-01-13 18:09:08 +0200
commit: 722d33f34ec74c6f7046109f936d0928ffe171bc (patch)
tree: 15cf24a08c4973aa2a07f9842699caff800f1957 /common
parent: c30b1ef39aeba497a943416d2897d69fee055b96 (diff)
2 files changed, 6 insertions, 1 deletions
diff --git a/common/common.cpp b/common/common.cpp
index 322b9f91..c11006bc 100644
--- a/common/common.cpp
+++ b/common/common.cpp
@@ -617,6 +617,8 @@ bool gpt_params_parse_ex(int argc, char ** argv, gpt_params & params) {
             params.numa = true;
         } else if (arg == "--verbose-prompt") {
             params.verbose_prompt = true;
+        } else if (arg == "--no-display-prompt") {
+            params.display_prompt = false;
         } else if (arg == "-r" || arg == "--reverse-prompt") {
             if (++i >= argc) {
                 invalid_param = true;
@@ -936,11 +938,12 @@ void gpt_print_usage(int /*argc*/, char ** argv, const gpt_params & params) {
     printf("  -mg i, --main-gpu i   the GPU to use for the model (with split-mode = none),\n");
     printf("                        or for intermediate results and KV (with split-mode = row) (default: %d)\n", params.main_gpu);
 #endif
+    printf("  --verbose-prompt      print a verbose prompt before generation (default: %s)\n", params.verbose_prompt ? "true" : "false");
+    printf("  --no-display-prompt   don't print prompt at generation (default: %s)\n", !params.display_prompt ? "true" : "false");
     printf("  -gan N, --grp-attn-n N\n");
     printf("                        group-attention factor (default: %d)\n", params.grp_attn_n);
     printf("  -gaw N, --grp-attn-w N\n");
     printf("                        group-attention width (default: %.1f)\n", (double)params.grp_attn_w);
-    printf("  --verbose-prompt      print prompt before generation\n");
     printf("  -dkvc, --dump-kv-cache\n");
     printf("                        verbose print of the KV cache\n");
     printf("  -nkvo, --no-kv-offload\n");
@@ -1582,6 +1585,7 @@ void dump_non_result_info_yaml(FILE * stream, const gpt_params & params, const l
     fprintf(stream, "min_p: %f # default: 0.0\n", sparams.min_p);
     fprintf(stream, "typical_p: %f # default: 1.0\n", sparams.typical_p);
     fprintf(stream, "verbose_prompt: %s # default: false\n", params.verbose_prompt ? "true" : "false");
+    fprintf(stream, "display_prompt: %s # default: true\n", params.display_prompt ? "true" : "false");
 }
 
 //
diff --git a/common/common.h b/common/common.h
index f29be5b5..09646824 100644
--- a/common/common.h
+++ b/common/common.h
@@ -126,6 +126,7 @@ struct gpt_params {
     bool use_mlock         = false; // use mlock to keep model in memory
     bool numa              = false; // attempt optimizations that help on some NUMA systems
     bool verbose_prompt    = false; // print prompt tokens before generation
+    bool display_prompt    = true;  // print prompt before generation
     bool infill            = false; // use infill mode
     bool dump_kv_cache     = false; // dump the KV cache contents for debugging purposes
     bool no_kv_offload     = false; // disable KV offloading
author	Yann Follet <131855179+YannFollet@users.noreply.github.com>	2024-01-14 00:09:08 +0800
committer	GitHub <noreply@github.com>	2024-01-13 18:09:08 +0200
commit	722d33f34ec74c6f7046109f936d0928ffe171bc (patch)
tree	15cf24a08c4973aa2a07f9842699caff800f1957 /common
parent	c30b1ef39aeba497a943416d2897d69fee055b96 (diff)