Prometheus

Snabbstart med llama.cpp: Kommandotolken och servern

Snabbstart med llama.cpp: Kommandotolken och servern

Hur man installerar, konfigurerar och använder OpenCode

Jag återkommer till llama.cpp för lokal inferens – det ger dig kontroll som Ollama och andra abstraherar bort, och det fungerar bara. Det är enkelt att köra GGUF-modeller interaktivt med llama-cli eller exponera ett OpenAI-kompatibelt HTTP-API med llama-server.

Observabilitet för LLM-system: Mått, spår, loggar och testning i produktion

Observabilitet för LLM-system: Mått, spår, loggar och testning i produktion

Slutpunkt-till-slutpunkt-övervakningsstrategi för LLM-inferens och LLM-program

LLM-system kan misslyckas på sätt som traditionell API-övervakning inte kan upptäcka – köer fylls tyst, GPU-minne fylls långt innan CPU verkar sysselsatt, och latens exploderar i batchningslageret snarare än i applikationslageret. Den här guiden täcker en fullständig övervakningsstrategi för LLM-inferens och LLM-applikationer: vad du bör mäta, hur du instrumenterar det med Prometheus, OpenTelemetry och Grafana, och hur du distribuerar telemetri-pipelinen i stora skala.