Was sind die vier wichtigsten DORA-Metriken?

Die vier DORA-Metriken sind (1) Deployment-Häufigkeit – wie oft Code in die Produktion deployed wird, (2) Lead Time for Changes – Zeit vom Commit bis zur Produktion, (3) Change Failure Rate – Prozentsatz der Deployments, die zu Fehlern führen, und (4) Time to Restore Service – wie schnell Teams sich von Vorfällen erholen.

Was sind die Spitzenleistungsbenchmarks für DORA-Metriken?

Spitzenleistende führen mehrere Bereitstellungen pro Tag durch, haben Vorlaufzeiten von unter einer Stunde, halten Fehlerraten bei Änderungen unter 15 % und stellen den Dienst innerhalb einer Stunde wieder her. Hochleistende führen eine Bereitstellung pro Tag bis zu einer pro Woche durch, mit Vorlaufzeiten von einem Tag bis zu einer Woche, Fehlerraten bei Änderungen von 0–15 % und Wiederherstellungszeiten von unter einem Tag.

Wie messe ich DORA-Metriken in meiner Organisation?

Verfolgen Sie die Häufigkeit von Bereitstellungen, indem Sie die Produktionsbereitstellungen im Zeitverlauf zählen. Messen Sie die Lead-Time von Code-Commit bis zur Produktionsbereitstellung mithilfe von Zeitstempeln des CI/CD-Pipeline. Berechnen Sie die Änderungsfehlerrate, indem Sie fehlgeschlagene Bereitstellungen und Vorfälle verfolgen. Überwachen Sie die Wiederherstellungszeit, indem Sie die Vorfallbehebungszeiten von der Warnung bis zur Dienstwiederherstellung messen.

Warum sind DORA-Metriken für DevOps-Teams wichtig?

DORA-Metriken bieten objektive, datengestützte Einblicke in die Software-Lieferleistung. Sie helfen, Engpässe zu identifizieren, Verbesserungen im Zeitverlauf zu messen und die Leistung mit Branchenstandards zu vergleichen. Teams, die diese Metriken nutzen, zeigen eine 50 % bessere Mitarbeiterbindung und Zufriedenheit.

Können DORA-Metriken verbessert werden, ohne die Tools zu ändern?

Ja. Während Tools helfen, haben kulturelle Veränderungen oft einen größeren Einfluss – durch die Verringerung der Bereitstellungsbatchgrößen, die Verbesserung der Testautomatisierung, die Implementierung besserer Überwachung und die Förderung der Zusammenarbeit zwischen Dev- und Ops-Teams. Prozessverbesserungen erzielen in der Regel bessere Ergebnisse als Tool-Änderungen allein.

Wie hängen DORA-Metriken mit Geschäftsergebnissen zusammen?

Elite-Performer, die DORA-Metriken nutzen, zeigen ein 50 % höheres Wachstum der Marktkapitalisierung, eine 2,5-mal schnellere Time-to-Market und deutlich bessere Kundenzufriedenheit. Diese technischen Metriken korrelieren direkt mit Geschäftserfolg und Wettbewerbsvorteilen.

DORA-Metriken-Leitfaden: DevOps-Erfolg messen

Meistern Sie die vier zentralen DORA-Metriken für DevOps-Exzellenz

Inhaltsverzeichnis

DORA (DevOps Research and Assessment) Metriken sind der Goldstandard zur Messung der Software-Lieferleistung.

Basierend auf Jahren der Forschung mit Tausenden von Teams bieten diese vier Schlüsselmetriken objektive Einblicke in Ihre DevOps-Fähigkeiten und helfen, Verbesserungsbereiche zu identifizieren.

some meeting Dieses beeindruckende Bild eines wichtigen Meetings wurde von dem KI-Modell Flux 1 dev generiert.

Was sind DORA-Metriken?

Das DORA-Forschungsprogramm, initiiert von Nicole Forsgren, Jez Humble und Gene Kim, untersucht seit 2014 DevOps-Praktiken. Durch den “Accelerate State of DevOps Report” wurden vier Schlüsselmetriken identifiziert, die die Software-Lieferleistung vorhersagen:

Deploymentshäufigkeit - Wie oft Code in die Produktion deployt wird
Lead Time for Changes - Zeit vom Code-Commit bis zum Produktionsdeploy
Change Failure Rate - Prozentsatz der Deployments, die zu Fehlern führen
Time to Restore Service - Wie schnell Teams sich von Vorfällen erholen

Diese Metriken korrelieren stark mit der Organisationsleistung, der Teamzufriedenheit und den Geschäftsergebnissen. Elite-Performer in diesen Metriken zeigen ein 50 % höheres Marktwachstum und eine 2,5-fach schnellere Time-to-Market.

Die vier Schlüsselmetriken erklärt

1. Deploymentshäufigkeit

Definition: Wie oft Ihre Organisation erfolgreich Code in die Produktion veröffentlicht.

Warum es wichtig ist: Häufige Deployments deuten auf reife CI/CD-Praktiken, kleinere Batch-Größen und geringeres Risiko hin. Teams, die öfter deployen, beheben Probleme schneller und liefern Wert an Kunden früher.

Messstufen:

Elite: Mehrere Deployments pro Tag
High: Einmal pro Tag bis einmal pro Woche
Medium: Einmal pro Monat bis einmal alle sechs Monate
Low: Weniger als einmal alle sechs Monate

Wie man es verfolgt:

# Beispiel: Zählen von Deployments in den letzten 30 Tagen
# Mit Git-Tags oder Deployment-Logs
git log --since="30 days ago" --oneline | grep -i deploy | wc -l

# Oder Abfrage Ihres CI/CD-Systems
# Jenkins, GitLab CI, GitHub Actions, etc.

Beim Verfolgen von Deployments mit Git können Sie unseren GIT-Befehle-Cheatsheet für umfassende Git-Operationen zur Versionskontrolle und Deployment-Verfolgung verwenden.

Verbesserung der Deploymentshäufigkeit:

Implementieren Sie automatisierte CI/CD-Pipelines (siehe unseren GitHub Actions Cheatsheet für Beispiele zur CI/CD-Automatisierung)
Reduzieren Sie die Deployment-Batch-Größen
Praktizieren Sie trunk-basierte Entwicklung (vergleichen Sie mit dem Gitflow-Branching-Modell um verschiedene Branching-Strategien zu verstehen)
Automatisieren Sie Tests und Qualitätsprüfungen
Verwenden Sie Feature-Flags für sicherere Deployments

2. Lead Time for Changes

Definition: Die Zeit vom Commit des Codes in die Versionskontrolle bis er erfolgreich in der Produktion läuft.

Warum es wichtig ist: Kürzere Lead Times bedeuten schnellere Feedback-Schleifen, schnellere Fehlerbehebungen und eine reaktionsschnellere Lieferung. Diese Metrik spiegelt die Effizienz Ihrer gesamten Software-Lieferpipeline wider.

Messstufen:

Elite: Weniger als eine Stunde
High: Ein Tag bis eine Woche
Medium: Ein Monat bis sechs Monate
Low: Mehr als sechs Monate

Wie man es verfolgt:

# Berechnen Sie die Lead Time für einen bestimmten Commit
# Erhalten Sie den Commit-Zeitstempel
COMMIT_TIME=$(git log -1 --format=%ct <commit-hash>)

# Erhalten Sie den Deployment-Zeitstempel (von Ihrem Deployment-System)
DEPLOY_TIME=$(<deployment-timestamp>)

# Berechnen Sie die Differenz
LEAD_TIME=$((DEPLOY_TIME - COMMIT_TIME))

# Oder verwenden Sie Tools wie:
# - GitHub Actions API
# - GitLab CI/CD-Metriken
# - Jenkins-Build-Zeitstempel

Verbesserung der Lead Time:

Optimieren Sie die Geschwindigkeit der CI/CD-Pipeline
Parallelisieren Sie die Testausführung
Reduzieren Sie manuelle Genehmigungsschleusen
Implementieren Sie automatisierte Qualitätsprüfungen
Verwenden Sie Containerisierung für konsistente Umgebungen
Praktizieren Sie Continuous Integration

3. Change Failure Rate

Definition: Der Prozentsatz der Deployments, die zu einem Fehler in der Produktion führen und eine sofortige Behebung erfordern (Hotfix, Rollback oder Patch).

Warum es wichtig ist: Geringe Change-Failure-Raten deuten auf hohe Codequalität, effektive Tests und zuverlässige Deployment-Prozesse hin. Diese Metrik balanciert Geschwindigkeit mit Stabilität.

Messstufen:

Elite: 0-15 % Fehlerrate
High: 0-15 % Fehlerrate
Medium: 16-30 % Fehlerrate
Low: 16-45 % Fehlerrate

Wie man es verfolgt:

# Berechnen Sie die Fehlerrate im letzten Monat
TOTAL_DEPLOYS=$(count_deployments_last_month)
FAILED_DEPLOYS=$(count_failed_deployments_last_month)
FAILURE_RATE=$((FAILED_DEPLOYS * 100 / TOTAL_DEPLOYS))

# Verfolgen Sie mit:
# - Incident-Management-Systeme (PagerDuty, Opsgenie)
# - Monitoring-Alerts (Datadog, New Relic, Prometheus)
# - Rollback-Logs
# - Hotfix-Deployment-Aufzeichnungen

Verbesserung der Change-Failure-Rate:

Erhöhen Sie die Testabdeckung (Unit, Integration, E2E)
Implementieren Sie umfassendes Monitoring und Alerting
Verwenden Sie Canary-Deployments und Blue-Green-Deployments
Praktizieren Sie Chaos Engineering
Verbessern Sie Code-Review-Prozesse
Implementieren Sie automatisierte Rollback-Mechanismen

4. Time to Restore Service

Definition: Wie lange es dauert, den Service wiederherzustellen, wenn ein Service-Vorfall auftritt (z. B. ungeplante Ausfallzeit oder Servicebeeinträchtigung).

Warum es wichtig ist: Schnelle Wiederherstellungszeiten minimieren den Kundeneinfluss und Geschäftseinbußen. Diese Metrik spiegelt die Wirksamkeit der Vorfallsreaktion und die Systemresilienz wider.

Messstufen:

Elite: Weniger als eine Stunde
High: Weniger als ein Tag
Medium: Ein Tag bis eine Woche
Low: Eine Woche bis ein Monat

Wie man es verfolgt:

# Verfolgen Sie die Vorfallslösungszeit
INCIDENT_START=$(<alert-timestamp>)
INCIDENT_RESOLVED=$(<resolution-timestamp>)
RESTORE_TIME=$((INCIDENT_RESOLVED - INCIDENT_START))

# Verwenden Sie Incident-Management-Tools:
# - PagerDuty-Vorfallszeitlinien
# - Opsgenie-Lösungsverfolgung
# - Eigene Vorfallverfolgungssysteme
# - Monitoring-System-Alert-to-Resolution-Metriken

Verbesserung der Time to Restore:

Implementieren Sie umfassende Observabilität (Logs, Metriken, Traces)
Erstellen Sie Runbooks und Playbooks
Praktizieren Sie Vorfallsreaktionsübungen
Verwenden Sie automatisierte Rollback-Fähigkeiten
Verbessern Sie Monitoring und Alerting
Etablieren Sie On-Call-Rotation und Eskalationsverfahren
Dokumentieren Sie bekannte Probleme und Lösungen

DORA-Leistungsstufen

Teams werden basierend auf ihren Metriken in vier Leistungsstufen eingeteilt:

Elite-Performer

Deploymentshäufigkeit: Mehrere pro Tag
Lead Time: Weniger als eine Stunde
Change-Failure-Rate: 0-15 %
Time to Restore: Weniger als eine Stunde

Merkmale: Elite-Teams zeigen deutlich bessere Geschäftsergebnisse, einschließlich eines 50 % höheren Marktwachstums und einer 2,5-fach schnelleren Time-to-Market.

High-Performer

Deploymentshäufigkeit: Einmal pro Tag bis einmal pro Woche
Lead Time: Ein Tag bis eine Woche
Change-Failure-Rate: 0-15 %
Time to Restore: Weniger als ein Tag

Merkmale: High-Performer demonstrieren starke DevOps-Praktiken und liefern kontinuierlich effizient Wert.

Medium-Performer

Deploymentshäufigkeit: Einmal pro Monat bis einmal alle sechs Monate
Lead Time: Ein Monat bis sechs Monate
Change-Failure-Rate: 16-30 %
Time to Restore: Ein Tag bis eine Woche

Merkmale: Medium-Performer verbessern sich, haben aber erhebliche Optimierungsmöglichkeiten.

Low-Performer

Deploymentshäufigkeit: Weniger als einmal alle sechs Monate
Lead Time: Mehr als sechs Monate
Change-Failure-Rate: 16-45 %
Time to Restore: Eine Woche bis ein Monat

Merkmale: Low-Performer stehen vor erheblichen Herausforderungen bei der Software-Lieferung und benötigen grundlegende Prozessverbesserungen.

Implementierung von DORA-Metriken

Schritt 1: Festlegung der Basis-Metriken

Bevor Sie Verbesserungen vornehmen, müssen Sie wissen, wo Sie stehen:

#!/bin/bash
# dora_metrics_collector.sh
# Sammeln Sie grundlegende DORA-Metriken

# Deploymentshäufigkeit (letzte 30 Tage)
echo "=== Deploymentshäufigkeit ==="
DEPLOY_COUNT=$(git log --since="30 days ago" --oneline | wc -l)
echo "Deployments in den letzten 30 Tagen: $DEPLOY_COUNT"

# Lead Time (Durchschnitt der letzten 10 Commits)
echo "=== Lead Time for Changes ==="
# Dies erfordert die Integration mit Ihrem CI/CD-System
# Beispielkonzeptuelle Berechnung:
echo "Durchschnittliche Lead Time: [erfordert CI/CD-Integration]"

# Change-Failure-Rate
echo "=== Change-Failure-Rate ==="
# Dies erfordert die Vorfallverfolgung
echo "Fehlerrate: [erfordert Vorfall-System-Integration]"

# Time to Restore
echo "=== Time to Restore Service ==="
# Dies erfordert ein Incident-Management-System
echo "Durchschnittliche Wiederherstellungszeit: [erfordert Vorfall-System]"

Schritt 2: Auswahl der Messwerkzeuge

Deployment-Verfolgung:

Git-Tags und -Releases
CI/CD-Pipeline-Logs (Jenkins, GitLab CI, GitHub Actions, CircleCI)
Deployment-Automatisierungstools (Spinnaker, ArgoCD, Flux und andere GitOps-Tools)

Für ein praktisches Beispiel zur automatisierten Deployment-Verfolgung sehen Sie sich unsere Anleitung an Verwendung von Gitea Actions zum Deployen einer Hugo-Website auf AWS S3, die die Messung der Deploymentshäufigkeit in einem echten CI/CD-Workflow demonstriert.

Lead-Time-Verfolgung:

CI/CD-Pipeline-Zeitstempel
Zeitstempel des Versionskontrollsystems
Deployment-System-Logs

Fehlerraten-Verfolgung:

Incident-Management-Systeme (PagerDuty, Opsgenie, Jira)
Monitoring-Systeme (Datadog, New Relic, Prometheus)
Rollback-Logs

Wiederherstellungszeit-Verfolgung:

Incident-Management-Systeme
Monitoring-Alert-Zeitlinien
On-Call-Systeme

Schritt 3: Erstellen von Dashboards

Visualisieren Sie Ihre Metriken für die kontinuierliche Überwachung:

# Beispiel-Prometheus-Abfragen für DORA-Metriken
# Deploymentshäufigkeit
rate(deployments_total[30d])

# Lead Time (benötigt benutzerdefinierte Metriken)
histogram_quantile(0.95,
  rate(lead_time_seconds_bucket[1h])
)

# Change-Failure-Rate
rate(deployment_failures_total[30d]) /
rate(deployments_total[30d]) * 100

# Time to Restore
histogram_quantile(0.95,
  rate(incident_resolution_seconds_bucket[30d])
)

Schritt 4: Festlegung von Verbesserungszielen

Beginnen Sie mit erreichbaren Zielen basierend auf Ihrem aktuellen Level:

Low → Medium: Konzentrieren Sie sich auf Automatisierung und CI/CD-Grundlagen
Medium → High: Optimieren Sie Prozesse und reduzieren Sie Batch-Größen
High → Elite: Feinabstimmung und Beseitigung von Engpässen

Best Practices zur Verbesserung der DORA-Metriken

1. Beginnen Sie mit der Kultur

Die DORA-Forschung zeigt, dass die Kultur wichtiger ist als die Tools:

Fördern Sie die Zusammenarbeit zwischen Entwicklung und Betrieb
Ermutigen Sie Experimente und Lernen aus Fehlern
Reduzieren Sie Schuldzuweisungen und konzentrieren Sie sich auf systemische Verbesserungen
Teilen Sie Wissen und Dokumentation

2. Implementieren Sie Automatisierung

Automatisieren Sie Tests (Einheitstests, Integrationstests, End-to-End-Tests)
Automatisieren Sie Bereitstellungen (CI/CD-Pipelines)
Automatisieren Sie die Infrastrukturbereitstellung (IaC mit Terraform, Ansible)
Automatisieren Sie Überwachung und Alarmierung

3. Reduzieren Sie die Batch-Größen

Kleinere Änderungen sind einfacher:

Gründlich zu testen
Effektiv zu überprüfen
Sicher zu bereitzustellen
Bei Bedarf zurückzusetzen

4. Verbessern Sie die Tests

Erhöhen Sie die Testabdeckung
Implementieren Sie Testautomatisierung
Verwenden Sie testgetriebene Entwicklung (TDD)
Praktizieren Sie kontinuierliches Testen

5. Verbessern Sie die Überwachung

Implementieren Sie umfassende Observability
Verwenden Sie verteiltes Tracing
Richten Sie proaktive Alarmierung ein
Erstellen Sie Dashboards für wichtige Metriken

6. Praktizieren Sie kontinuierliches Lernen

Führen Sie Nachuntersuchungen von Vorfällen durch
Teilen Sie Erkenntnisse in Teams
Dokumentieren Sie Runbooks und Verfahren
Üben Sie Vorfallreaktionsübungen

Häufige Fallstricke und wie man sie vermeidet

1. Fokus auf Metriken statt auf Ergebnisse

Problem: Optimierung von Metriken isoliert ohne Berücksichtigung des Geschäftswerts.

Lösung: Verbinden Sie Metriken immer mit Geschäftsergebnissen. Fragen Sie “Warum verbessern wir diese Metrik?” und stellen Sie sicher, dass sie Kundenwert schafft.

2. Manipulation der Metriken

Problem: Teams blähen Zahlen künstlich auf (z. B. durch Bereitstellung leerer Commits).

Lösung: Konzentrieren Sie sich auf sinnvolle Bereitstellungen, die Wert schaffen. Qualität vor Quantität.

3. Vernachlässigung des Kontexts

Problem: Vergleich von Metriken in unterschiedlichen Kontexten (z. B. Webanwendungen vs. eingebettete Systeme).

Lösung: Verstehen Sie, dass unterschiedliche Systeme unterschiedliche Einschränkungen haben. Vergleichen Sie mit ähnlichen Systemen oder Ihrer eigenen historischen Leistung.

4. Nicht alle vier Metriken messen

Problem: Optimierung einer Metrik, während andere ignoriert werden (z. B. hohe Bereitstellungsfrequenz, aber hohe Ausfallrate).

Lösung: Balancieren Sie alle vier Metriken aus. Spitzenleistung erfordert Exzellenz in allen Bereichen.

5. Fehlende Tool-Integration

Problem: Manuelle Metrikensammlung führt zu unvollständigen oder ungenauen Daten.

Lösung: Integrieren Sie die Messung in Ihre bestehenden Tools und automatisieren Sie die Datenerfassung.

Fortgeschrittene Themen

DORA-Metriken und Platform Engineering

Platform-Engineering-Teams können die DORA-Metriken erheblich verbessern, indem sie:

Selbstbedienungs-Entwicklerplattformen bereitstellen
Die Bereitstellungsreibung reduzieren
Werkzeuge und Prozesse standardisieren
Schnellere Experimente ermöglichen

DORA-Metriken in Microservices

Die Messung von DORA-Metriken in Microservices-Architekturen erfordert:

Aggregation von Metriken über Dienste hinweg
Verständnis von Dienstabhängigkeiten
Verfolgung der Bereitstellungskoordination
Verwaltung verteilter Ausfallszenarien

DORA-Metriken und Cloud-Native

Cloud-native-Technologien können die Verbesserung der DORA-Metriken beschleunigen:

Kubernetes: Automatisierte Bereitstellungen und Rollbacks
Service Mesh: Bessere Observability und Fehlerbehandlung
Serverless: Vereinfachte Bereitstellungsprozesse
Container: Konsistente Umgebungen

Fazit

DORA-Metriken bieten einen datengetriebenen Rahmen zur Messung und Verbesserung der Software-Lieferleistung. Durch die Verfolgung und Optimierung dieser vier Schlüsselmetriken können Teams erreichen:

Schnellere Time-to-Market
Höhere Codequalität
Bessere Teamzufriedenheit
Verbesserte Geschäftsergebnisse

Denken Sie daran, dass diese Metriken ein Mittel zum Zweck sind - eine bessere Softwarelieferung, die Wert für Kunden schafft. Konzentrieren Sie sich auf kontinuierliche Verbesserung, kulturellen Wandel und die Balance aller vier Metriken, um Spitzenleistung zu erreichen.

Beginnen Sie heute mit der Messung Ihrer DORA-Metriken, legen Sie Grundwerte fest und beginnen Sie Ihre Reise zur DevOps-Exzellenz.

Erfolgsmessung

Verfolgen Sie Ihre Verbesserungen im Laufe der Zeit:

Grundlinie: Aktuelle Metriken festlegen
Vierteljährliche Überprüfungen: Fortschritt alle drei Monate bewerten
Zielsetzung: Realistische Verbesserungsziele setzen
Erfolge feiern: Verbesserungen und Erkenntnisse anerkennen
Kontinuierliche Verbesserung: Hören Sie nie auf zu optimieren

Nützliche Links

DORA Research Program
Accelerate State of DevOps Report
Google Cloud DevOps Metrics
DORA Metrics in Practice
Four Keys Project - Open-Source-Tool zur Messung von DORA-Metriken

Verwandte Artikel auf dieser Website