LLM-benchmarks met 16 GB VRAM in llama.cpp (snelheid en context)
Token snelheid van llama.cpp op 16 GB VRAM (tabellen).
Hier vergelijk ik de snelheid van verschillende LLM’s die op een GPU met 16 GB VRAM draaien, en kies ik de beste voor self-hosting.