ik_llama.cpp.git - Unnamed repository; edit this file 'description' to name the repository.

Age	Commit message (Expand)	Author
2024-09-27	Adding ability to have meta data per tensor row (#61)	Kawrakow
2024-09-25	Use fp32 for K*Q in Metal FA implementation (#62)	Kawrakow
2024-09-17	Fix compiler warnings (#58)	Kawrakow
2024-09-17	BF16 support on Metal (#56)	Kawrakow
2024-09-16	iqk_mul_mat(ARM_NEON): adding bf16 support (#41)	Kawrakow
2024-09-15	Minor	Iwan Kawrakow
2024-09-14	Adding bf16 support to CUDA (#40)	Kawrakow
2024-09-14	Improve Q5_0 performance (#55)	Kawrakow
2024-09-14	Improve Q4_0 and Q8_0 performance on AVX2/Zen4 (#54)	Kawrakow
2024-09-13	Minor	Iwan Kawrakow
2024-09-13	Fix bug and D < 128 case for Q8_0 k-cache (#52)	Kawrakow
2024-09-12	Quantized Flash Attention for all supported CPU platforms (#51)	Kawrakow
2024-09-11	AVX2 Flash Attention 2 (#50)	Kawrakow
2024-09-11	ARM_NEON Flash Attention (#49)	Kawrakow
2024-09-10	AVX2 Flash Attention (#48)	Kawrakow
2024-09-10	iq2_tn: slightly better performance on AVX2 (#47)	Kawrakow
2024-09-10	IQ1_TN Metal implementation (#46)	Kawrakow
2024-09-09	Add CUDA support for IQ1_TN (#45)	Kawrakow
2024-09-09	Adding IQ1_TN - 1.6875 bpw for TriLM ternary models (#44)	Kawrakow
2024-09-08	iq2_tn: slightly faster PP (#43)	Kawrakow
2024-09-08	Adding fused rms_norm (#42)	Kawrakow
2024-09-05	Add support for bf16 to iqk_mul_mat (#39)	Kawrakow
2024-09-05	Zen4 Flash Attention - bf16 support (#38)	Kawrakow
2024-09-04	Performance improvements for legacy quants on ARM_NEON (#37)	Kawrakow
2024-09-04	Zen4 Flash Attnetion 2 (#36)	Kawrakow
2024-09-02	Fix Zen4 Flash Attention (#35)	Kawrakow
2024-09-01	Zen4 Flash Attention (#32)	Kawrakow
2024-08-31	Fix build when iqk_mul_mat is disabled (#31)	Kawrakow
2024-08-27	Faster Gemma2 (#27)	Kawrakow
2024-08-21	softcap: minor improvement (#24)	Kawrakow
2024-08-20	Fused soft cap and SIMD-ified GeLU (#9)	Kawrakow
2024-08-19	AVX2 quantization for Q8_K (#22)	Kawrakow
2024-08-14	Skip barriers of noops (#19)	Kawrakow
2024-08-12	Merge mainline - Aug 12 2024 (#17)	Kawrakow
2024-08-09	Fix Makefile	Iwan Kawrakow
2024-08-09	Fix Zen4 implementation of iq3_k, iq4_k, iq5_k	Iwan Kawrakow
2024-08-09	iq6_k: AVX2	Iwan Kawrakow
2024-08-09	iq6_k: Metal	Iwan Kawrakow
2024-08-09	iq6_k: NEON	Iwan Kawrakow
2024-08-09	iq6_k: slightly better Zen4 iqk_mul_mat	Iwan Kawrakow
2024-08-09	iq6_k: Zen4 iqk_mul_mat	Iwan Kawrakow
2024-08-09	iq6_k: CUDA dot product	Iwan Kawrakow
2024-08-09	iq6_k: CUDA dequantize	Iwan Kawrakow
2024-08-09	iq6_k: WIP (quantize/dequantize)	Iwan Kawrakow
2024-08-09	iq6_k: WIP (nothing works)	Iwan Kawrakow
2024-08-07	Adding IQ2_TN for use with ternary models (#13)	Kawrakow
2024-08-05	q2_K: allow it to detect ternary nets and quantize accordingly	Iwan Kawrakow
2024-08-05	iq3_k, iq5_k: faster quantization	Iwan Kawrakow
2024-08-03	iq4_k: speedup quantization by a factor of ~2	Iwan Kawrakow
2024-08-01	Add copyright notice	Iwan Kawrakow