ik_llama.cpp.git - Unnamed repository; edit this file 'description' to name the repository.

Age	Commit message (Expand)	Author
2025-06-18	New IQ2_KT, IQ3_KT and IQ4_KT, V2 (#529)	Kawrakow
2025-06-18	Much faster CPU prompt processing (part 3) (#534)	Kawrakow
2025-06-17	Much faster CPU prompt processing (part 1) (#531)	Kawrakow
2025-06-10	Fix Compile error (C2668) (#508)	Gaolingx
2025-06-01	Trellis quants: faster CPU prompt processing (#482)	Kawrakow
2025-05-23	Trellis quants with CPU inference (#441)	Andrew Chan
2025-05-17	IQ5_KS_R4: row-interleaved IQ5_KS (#426)	Kawrakow
2025-05-15	Adding IQ5_KS - 5.25 bpw quants (#422)	Kawrakow
2025-05-04	Another attempt to fix #367 (#371)	Kawrakow
2025-05-03	Trying to fix iq1_s_r4/iq1_m_r4 quantization failure (#368)	Kawrakow
2025-04-01	Fix ARM_NEON build failure due to q8_2 (#303)	Kawrakow
2025-04-01	Quantization improvements (2) (#302)	Kawrakow
2025-03-27	Use bf16 instead of fp16 block scales for q8_1 (#292)	Kawrakow
2025-03-21	Convert models to row-interleaved quants using the quantize tool (#272)	Kawrakow
2025-03-13	FlashMLA-2 (CPU): faster and smaller compute buffer size (#253)	Kawrakow
2025-02-21	Hopefully this really fixes the confusion between AVX512 and FANCY_SIMD (#216)	Kawrakow
2025-02-19	Q8_KV: 8-bit quantization type targeting the KV cache (#208)	Kawrakow
2025-02-19	Repack also experts (#210)	Kawrakow
2025-02-09	Use Q8_K_128 for IQ1_S_R4 and IQ1_M_R4 matrix multiplications (#194)	Kawrakow
2025-02-07	Add additional checks for iq1_s_r4 quantization (#191)	Kawrakow
2025-02-06	Rename q4_0_r4, q8_0_r4 and iq4_xs_r4 to _r8 (#189)	Kawrakow
2025-02-06	IQ1_M_R4: better 1.75 bpw quants (#187)	Kawrakow
2025-02-05	IQ1_S_R4: better 1.5 bpw quants (#185)	Kawrakow
2025-01-27	Minor performance improvements (#179)	Kawrakow
2025-01-27	Interleave 8 rows (Q8_0, IQ4_XS) (#178)	Kawrakow
2025-01-21	On Zen4 repack fp16 models to bf16_r16 when run-time-repacking is requested (...	Kawrakow
2025-01-15	CPU Flash Attention improvements (#172)	Kawrakow
2025-01-10	Be able to re-quantize MS BitNet I2_S models (#169)	Kawrakow
2025-01-10	Falcon3 changes (#168)	Kawrakow
2024-12-23	IQ3_S_R4 (#162)	Kawrakow
2024-12-23	MSVC fixes (#161)	Kawrakow
2024-12-21	IQ2_S_R4 (#156)	Kawrakow
2024-12-21	IQ2_XS_R4 (#155)	Kawrakow
2024-12-20	IQ2_XXS_R4 (#154)	Kawrakow
2024-12-20	IQ3_XXS_R4 (#153)	Kawrakow
2024-12-18	IQ4_KS_R4 (#150)	Kawrakow
2024-12-18	IQ5_K_R4 (#149)	Kawrakow
2024-12-17	Be able to repack tensors at run time (#147)	Kawrakow
2024-12-17	IQ2_K_R4 (#146)	Kawrakow
2024-12-17	IQ3_K_R4 (#145)	Kawrakow
2024-12-15	BF16_R16 - 16 interleaved bf16 rows (#142)	Kawrakow
2024-12-14	Q8_K_R8: Fastest quantized matrix multiplications (#141)	Kawrakow
2024-12-12	IQ4_K_R4 (#138)	Kawrakow
2024-12-11	Q2_K_R4 (#136)	Kawrakow
2024-12-11	Q3_K_R4 (#134)	Kawrakow
2024-12-10	Q5_K_R4 (#132)	Kawrakow
2024-12-10	Q6_K_R4 (#130)	Kawrakow
2024-12-09	Q4_K_R4 (#129)	Kawrakow
2024-12-08	Faster IQ4_XS_R4 on Zen4 (#128)	Kawrakow
2024-12-08	Rename iq4_nl_x4 to iq4_nl_r4 (#126)	Kawrakow