ggml : add IQ2 to test-backend-ops + refactoring (#4990)

* ggml : add IQ2 to test-backend-ops + refactoring ggml-ci * cuda : update supports_op for IQ2 ggml-ci * ci : enable LLAMA_CUBLAS=1 for CUDA nodes ggml-ci * cuda : fix out-of-bounds-access in `mul_mat_vec_q` ggml-ci * tests : avoid creating RNGs for each Q tensor ggml-ci * tests : avoid creating RNGs for each tensor ggml-ci
author: Georgi Gerganov <ggerganov@gmail.com> 2024-01-17 18:54:56 +0200
committer: GitHub <noreply@github.com> 2024-01-17 18:54:56 +0200
commit: 38566680cdfe982a495562332c25b9227de9cf8d (patch)
tree: 3936732879d0a3146577745232feadb80e5917c9 /ggml-backend.c
parent: ba69bbc84ced580fe4fdb0713ca2d95634325b7a (diff)
1 files changed, 2 insertions, 0 deletions
diff --git a/ggml-backend.c b/ggml-backend.c
index 4266250f..ef518dae 100644
--- a/ggml-backend.c
+++ b/ggml-backend.c
@@ -692,6 +692,8 @@ GGML_CALL static bool ggml_backend_cpu_graph_compute(ggml_backend_t backend, str
 
 GGML_CALL static bool ggml_backend_cpu_supports_op(ggml_backend_t backend, const struct ggml_tensor * op) {
     switch (op->op) {
+        case GGML_OP_CPY:
+            return op->type != GGML_TYPE_IQ2_XXS && op->type != GGML_TYPE_IQ2_XS; // missing type_traits.from_float
         case GGML_OP_MUL_MAT:
             return op->src[1]->type == GGML_TYPE_F32 || op->src[1]->type == ggml_internal_get_type_traits(op->src[0]->type).vec_dot_type;
         default:
author	Georgi Gerganov <ggerganov@gmail.com>	2024-01-17 18:54:56 +0200
committer	GitHub <noreply@github.com>	2024-01-17 18:54:56 +0200
commit	38566680cdfe982a495562332c25b9227de9cf8d (patch)
tree	3936732879d0a3146577745232feadb80e5917c9 /ggml-backend.c
parent	ba69bbc84ced580fe4fdb0713ca2d95634325b7a (diff)