CUDA: fix mul_mat_q not used for output tensor (#3127)

author: Johannes Gäßler <johannesg@5d6.de> 2023-09-11 22:58:41 +0200
committer: GitHub <noreply@github.com> 2023-09-11 22:58:41 +0200
commit: 89e89599fd095172f8d67903b5e227467420f036 (patch)
tree: 8628a31b9b91b0affdc1e5ff60eab7fe5c610497
parent: d54a4027a6ebda98ab0fef7fa0c2247d0bef132a (diff)
1 files changed, 1 insertions, 1 deletions
diff --git a/ggml-cuda.cu b/ggml-cuda.cu
index 9e9eac48..a14e2362 100644
--- a/ggml-cuda.cu
+++ b/ggml-cuda.cu
@@ -6291,7 +6291,7 @@ void ggml_cuda_mul_mat(const ggml_tensor * src0, const ggml_tensor * src1, ggml_
                 ggml_cuda_op_mul_mat(src0, src1, dst, ggml_cuda_op_dequantize_mul_mat_vec, false);
             }
         } else {
-            if (src1->backend == GGML_BACKEND_GPU && g_mul_mat_q && ggml_is_quantized(src0->type) && min_compute_capability >= MIN_CC_DP4A) {
+            if (g_mul_mat_q && ggml_is_quantized(src0->type) && min_compute_capability >= MIN_CC_DP4A) {
                 ggml_cuda_op_mul_mat(src0, src1, dst, ggml_cuda_op_mul_mat_q, true);
             } else {
                 ggml_cuda_op_mul_mat(src0, src1, dst, ggml_cuda_op_mul_mat_cublas, false);
author	Johannes Gäßler <johannesg@5d6.de>	2023-09-11 22:58:41 +0200
committer	GitHub <noreply@github.com>	2023-09-11 22:58:41 +0200
commit	89e89599fd095172f8d67903b5e227467420f036 (patch)
tree	8628a31b9b91b0affdc1e5ff60eab7fe5c610497
parent	d54a4027a6ebda98ab0fef7fa0c2247d0bef132a (diff)