llama : add option to render special/control tokens (#6807)

* make : fix common dep on llama.h * llama : add option to render special tokens * readme : add API change notice ggml-ci * swift : fix build
author: Georgi Gerganov <ggerganov@gmail.com> 2024-04-21 18:36:45 +0300
committer: GitHub <noreply@github.com> 2024-04-21 18:36:45 +0300
commit: 40f74e4d739e9250431cf339ae7588b28d8d0663 (patch)
tree: 6008461e7a055c9b86c39df7117b943f1ecc0598 /examples
parent: b9cc76d87e3d7ae5900f19d4fe8f8976d0a35888 (diff)
2 files changed, 5 insertions, 4 deletions
diff --git a/examples/batched.swift/Sources/main.swift b/examples/batched.swift/Sources/main.swift
index 5764acb6..dbbd06da 100644
--- a/examples/batched.swift/Sources/main.swift
+++ b/examples/batched.swift/Sources/main.swift
@@ -229,7 +229,7 @@ private func tokenize(text: String, add_bos: Bool) -> [llama_token] {
 
 private func token_to_piece(token: llama_token, buffer: inout [CChar]) -> String? {
     var result = [CChar](repeating: 0, count: 8)
-    let nTokens = llama_token_to_piece(model, token, &result, Int32(result.count))
+    let nTokens = llama_token_to_piece(model, token, &result, Int32(result.count), false)
     if nTokens < 0 {
         let actualTokensCount = -Int(nTokens)
         result = .init(repeating: 0, count: actualTokensCount)
@@ -237,7 +237,8 @@ private func token_to_piece(token: llama_token, buffer: inout [CChar]) -> String
             model,
             token,
             &result,
-            Int32(result.count)
+            Int32(result.count),
+            false
         )
         assert(check == actualTokensCount)
     } else {
diff --git a/examples/llama.swiftui/llama.cpp.swift/LibLlama.swift b/examples/llama.swiftui/llama.cpp.swift/LibLlama.swift
index 70c43a38..737f882f 100644
--- a/examples/llama.swiftui/llama.cpp.swift/LibLlama.swift
+++ b/examples/llama.swiftui/llama.cpp.swift/LibLlama.swift
@@ -322,7 +322,7 @@ actor LlamaContext {
         defer {
             result.deallocate()
         }
-        let nTokens = llama_token_to_piece(model, token, result, 8)
+        let nTokens = llama_token_to_piece(model, token, result, 8, false)
 
         if nTokens < 0 {
             let newResult = UnsafeMutablePointer<Int8>.allocate(capacity: Int(-nTokens))
@@ -330,7 +330,7 @@ actor LlamaContext {
             defer {
                 newResult.deallocate()
             }
-            let nNewTokens = llama_token_to_piece(model, token, newResult, -nTokens)
+            let nNewTokens = llama_token_to_piece(model, token, newResult, -nTokens, false)
             let bufferPointer = UnsafeBufferPointer(start: newResult, count: Int(nNewTokens))
             return Array(bufferPointer)
         } else {
author	Georgi Gerganov <ggerganov@gmail.com>	2024-04-21 18:36:45 +0300
committer	GitHub <noreply@github.com>	2024-04-21 18:36:45 +0300
commit	40f74e4d739e9250431cf339ae7588b28d8d0663 (patch)
tree	6008461e7a055c9b86c39df7117b943f1ecc0598 /examples
parent	b9cc76d87e3d7ae5900f19d4fe8f8976d0a35888 (diff)