llama : fix embeddings (#5796)

* llama : fix embeddings ggml-ci * llama : do not use KV cache for non-causal models ggml-ci * embeddings : fix llama_batch_init arg * llama : add pooling switch * llama : distinguish token vs sequence embeddings ggml-ci * llama : assert pooling tensor * llama : simplify causal mask condition ggml-ci * llama : assert input batch with pooling enabled * readme : update API changes list
author: Georgi Gerganov <ggerganov@gmail.com> 2024-03-04 22:31:20 +0200
committer: GitHub <noreply@github.com> 2024-03-04 22:31:20 +0200
commit: 29ae62d2ae163e2b68aa0ad3bf2ab4636de0c957 (patch)
tree: a65058dfddf1672f1d765e324dac9f66abf1a7c1 /common/common.cpp
parent: e0843afe1b37890b631bc7d3d2da2ed36c862b91 (diff)
1 files changed, 1 insertions, 1 deletions
diff --git a/common/common.cpp b/common/common.cpp
index 036a9813..c244db64 100644
--- a/common/common.cpp
+++ b/common/common.cpp
@@ -1292,7 +1292,7 @@ struct llama_context_params llama_context_params_from_gpt_params(const gpt_param
     cparams.n_threads_batch   = params.n_threads_batch == -1 ? params.n_threads : params.n_threads_batch;
     cparams.seed              = params.seed;
     cparams.logits_all        = params.logits_all;
-    cparams.embedding         = params.embedding;
+    cparams.embeddings        = params.embedding;
     cparams.rope_scaling_type = params.rope_scaling_type;
     cparams.rope_freq_base    = params.rope_freq_base;
     cparams.rope_freq_scale   = params.rope_freq_scale;
author	Georgi Gerganov <ggerganov@gmail.com>	2024-03-04 22:31:20 +0200
committer	GitHub <noreply@github.com>	2024-03-04 22:31:20 +0200
commit	29ae62d2ae163e2b68aa0ad3bf2ab4636de0c957 (patch)
tree	a65058dfddf1672f1d765e324dac9f66abf1a7c1 /common/common.cpp
parent	e0843afe1b37890b631bc7d3d2da2ed36c862b91 (diff)