backend : offload large batches to GPU (#6083)

* backend : offload large batches to GPU * fix hip * code cleanup * fix CUDA split buffers * Update ggml-backend-impl.h Co-authored-by: Johannes Gäßler <johannesg@5d6.de> * cuda : fix memset without set_device * imatrix : remove sched affix from weight names * sched : add a new split if the current one has too many inputs reduce max inputs per split more cleanup * update backends ggml-ci --------- Co-authored-by: Johannes Gäßler <johannesg@5d6.de>
author: slaren <slarengh@gmail.com> 2024-03-18 11:03:04 +0100
committer: GitHub <noreply@github.com> 2024-03-18 11:03:04 +0100
commit: 2bf8d0f7c4cc1235755ad06961ca761e458c5e55 (patch)
tree: d2a462deb3c0e34cfb26eab6881a65bfb9fc3b28 /ggml-backend.h
parent: 496bc79bc2b79bfd6124b8687a8dbd6a646e9b06 (diff)
1 files changed, 4 insertions, 4 deletions
diff --git a/ggml-backend.h b/ggml-backend.h
index 099d9c25..422457ab 100644
--- a/ggml-backend.h
+++ b/ggml-backend.h
@@ -70,11 +70,11 @@ extern "C" {
     GGML_API ggml_backend_graph_plan_t ggml_backend_graph_plan_create(ggml_backend_t backend, struct ggml_cgraph * cgraph);
     GGML_API void                      ggml_backend_graph_plan_free  (ggml_backend_t backend, ggml_backend_graph_plan_t plan);
 
-    GGML_API enum ggml_status ggml_backend_graph_plan_compute(ggml_backend_t backend, ggml_backend_graph_plan_t plan);
-    GGML_API enum ggml_status ggml_backend_graph_compute     (ggml_backend_t backend, struct ggml_cgraph * cgraph);
-
-    GGML_API bool ggml_backend_graph_compute_async(ggml_backend_t backend, struct ggml_cgraph * cgraph);
+    GGML_API enum ggml_status ggml_backend_graph_plan_compute (ggml_backend_t backend, ggml_backend_graph_plan_t plan);
+    GGML_API enum ggml_status ggml_backend_graph_compute      (ggml_backend_t backend, struct ggml_cgraph * cgraph);
+    GGML_API enum ggml_status ggml_backend_graph_compute_async(ggml_backend_t backend, struct ggml_cgraph * cgraph);
     GGML_API bool ggml_backend_supports_op(ggml_backend_t backend, const struct ggml_tensor * op);
+    GGML_API bool ggml_backend_offload_op(ggml_backend_t backend, const struct ggml_tensor * op);
 
     // tensor copy between different backends
     GGML_API void ggml_backend_tensor_copy(struct ggml_tensor * src, struct ggml_tensor * dst);
author	slaren <slarengh@gmail.com>	2024-03-18 11:03:04 +0100
committer	GitHub <noreply@github.com>	2024-03-18 11:03:04 +0100
commit	2bf8d0f7c4cc1235755ad06961ca761e458c5e55 (patch)
tree	d2a462deb3c0e34cfb26eab6881a65bfb9fc3b28 /ggml-backend.h
parent	496bc79bc2b79bfd6124b8687a8dbd6a646e9b06 (diff)