bitnet: add 2 bpw quantization

The scalar dot product already chieves 37 t/s for TG!
author: Iwan Kawrakow <iwan.kawrakow@gmail.com> 2024-06-17 18:41:30 +0300
committer: Iwan Kawrakow <iwan.kawrakow@gmail.com> 2024-06-22 12:02:51 +0300
commit: f6863cfa1bbc5ac42b78837b355e45d82246a472 (patch)
tree: b4718a3e7f7796f2bd5f8f4e6f81a812eeadae32 /ggml.h
parent: 765622ff8f921319f6b30c556b378d8320500c95 (diff)
1 files changed, 3 insertions, 1 deletions
diff --git a/ggml.h b/ggml.h
index 070af417..3d6e4283 100644
--- a/ggml.h
+++ b/ggml.h
@@ -384,7 +384,8 @@ extern "C" {
         GGML_TYPE_IQ1_M   = 29,
         GGML_TYPE_BF16    = 30,
         GGML_TYPE_IQ1_BN  = 31,
-        GGML_TYPE_Q8_K64  = 32,
+        GGML_TYPE_IQ2_BN  = 32,
+        GGML_TYPE_Q8_K64  = 33,
         GGML_TYPE_COUNT,
     };
 
@@ -427,6 +428,7 @@ extern "C" {
         GGML_FTYPE_MOSTLY_IQ1_M   = 23, // except 1d tensors
         GGML_FTYPE_MOSTLY_BF16    = 24, // except 1d tensors
         GGML_FTYPE_MOSTLY_IQ1_BN  = 25, // except 1d tensors
+        GGML_FTYPE_MOSTLY_IQ2_BN  = 26, // except 1d tensors
     };
 
     // available tensor operations:
author	Iwan Kawrakow <iwan.kawrakow@gmail.com>	2024-06-17 18:41:30 +0300
committer	Iwan Kawrakow <iwan.kawrakow@gmail.com>	2024-06-22 12:02:51 +0300
commit	f6863cfa1bbc5ac42b78837b355e45d82246a472 (patch)
tree	b4718a3e7f7796f2bd5f8f4e6f81a812eeadae32 /ggml.h
parent	765622ff8f921319f6b30c556b378d8320500c95 (diff)