Add --n-predict -2 for stopping generation on full context (#2565)

author: Christian Demsar <crasm@git.vczf.us> 2023-08-10 10:28:27 -0400
committer: GitHub <noreply@github.com> 2023-08-10 16:28:27 +0200
commit: e59fcb2bc129881f4a269fee748fb38bce0a64de (patch)
tree: f96cb28cdf28e315cd4bea28dbc10b77afbc7fde /examples/common.cpp
parent: 1638757767072a4957f52b9e3594f0b67610631b (diff)
1 files changed, 1 insertions, 1 deletions
diff --git a/examples/common.cpp b/examples/common.cpp
index 4d3ba9bb..9f8aab9a 100644
--- a/examples/common.cpp
+++ b/examples/common.cpp
@@ -543,7 +543,7 @@ void gpt_print_usage(int /*argc*/, char ** argv, const gpt_params & params) {
     fprintf(stdout, "  --in-suffix STRING    string to suffix after user inputs with (default: empty)\n");
     fprintf(stdout, "  -f FNAME, --file FNAME\n");
     fprintf(stdout, "                        prompt file to start generation.\n");
-    fprintf(stdout, "  -n N, --n-predict N   number of tokens to predict (default: %d, -1 = infinity)\n", params.n_predict);
+    fprintf(stdout, "  -n N, --n-predict N   number of tokens to predict (default: %d, -1 = infinity, -2 = until context filled)\n", params.n_predict);
     fprintf(stdout, "  -c N, --ctx-size N    size of the prompt context (default: %d)\n", params.n_ctx);
     fprintf(stdout, "  -b N, --batch-size N  batch size for prompt processing (default: %d)\n", params.n_batch);
     fprintf(stdout, "  -gqa N, --gqa N       grouped-query attention factor (TEMP!!! use 8 for LLaMAv2 70B) (default: %d)\n", params.n_gqa);
author	Christian Demsar <crasm@git.vczf.us>	2023-08-10 10:28:27 -0400
committer	GitHub <noreply@github.com>	2023-08-10 16:28:27 +0200
commit	e59fcb2bc129881f4a269fee748fb38bce0a64de (patch)
tree	f96cb28cdf28e315cd4bea28dbc10b77afbc7fde /examples/common.cpp
parent	1638757767072a4957f52b9e3594f0b67610631b (diff)