Alle llama.cpp-routermodellen opnieuw laden zonder opnieuw te starten
Gratis VRAM zonder llama-server te beëindigen.
Routermodus van llama.cpp is een van de meest nuttige wijzigingen aan llama-server in jaren. Het geeft lokale LLM-beheerders eindelijk iets dat lijkt op de modelbeheerservaring die mensen verwachten van Ollama, terwijl het de ruwe prestaties en lage-level controle behoudt die llama.cpp in de eerste plaats de moeite waard maken.