ggml-cuda : use graph allocator (#2684)

use a different function for no_alloc to avoid breaking backwards compat, fixes lora remove 512 n_batch limit fixed 2048 batch size cleanup Co-authored-by: Johannes Gäßler <johannesg@5d6.de>
author: slaren <slarengh@gmail.com> 2023-08-22 15:25:19 +0200
committer: GitHub <noreply@github.com> 2023-08-22 15:25:19 +0200
commit: 1123f7fbdfb8012e46f05e903e6f675922916378 (patch)
tree: 27f3700a672e8f0d09d86797ce1c199ff72a4d51 /common/common.cpp
parent: ef3f333d3775600d1646a9fa249aca532d15fb89 (diff)
1 files changed, 0 insertions, 1 deletions
diff --git a/common/common.cpp b/common/common.cpp
index d7e1a572..1623ba21 100644
--- a/common/common.cpp
+++ b/common/common.cpp
@@ -289,7 +289,6 @@ bool gpt_params_parse(int argc, char ** argv, gpt_params & params) {
                 break;
             }
             params.n_batch = std::stoi(argv[i]);
-            params.n_batch = std::min(512, params.n_batch);
         } else if (arg == "--keep") {
             if (++i >= argc) {
                 invalid_param = true;
author	slaren <slarengh@gmail.com>	2023-08-22 15:25:19 +0200
committer	GitHub <noreply@github.com>	2023-08-22 15:25:19 +0200
commit	1123f7fbdfb8012e46f05e903e6f675922916378 (patch)
tree	27f3700a672e8f0d09d86797ce1c199ff72a4d51 /common/common.cpp
parent	ef3f333d3775600d1646a9fa249aca532d15fb89 (diff)