Google Cloud hat im Februar 2026 einen 60-seitigen Bericht veröffentlicht, der den Return on Investment KI-gestützter Softwareentwicklung in eine Formel überführt. Das hauseigene DORA-Team und die Beratungseinheit „delta" rechnen darin an einem Modellunternehmen vor, was die Einführung agentischer Werkzeuge im ersten Jahr kostet und einbringt.
Das DORA-Team, mittlerweile zu Google gehörend, gilt seit 2014 als die einflussreichste Forschungsstelle für die Vermessung von Softwareentwicklung. Aus seinen Studien stammen die vier zentralen Auslieferungs-Metriken rund um Lead Time, Deployment Frequency, Change Failure Rate und Recovery Time, die heute branchenübergreifend Standard sind. Der Bericht “The ROI of AI-assisted Software Development” erscheint als gemeinsame Arbeit mit der internen Beratungseinheit „delta", die Google-Cloud-Kunden bei der Einführung von KI begleitet.
Der Bericht ist in sieben Kapitel gegliedert. Er beginnt mit einer Zusammenfassung, baut einen Business Case auf, beschreibt die Marktspaltung bei der KI-Bewertung, führt durch die Berechnung des ROI mit Wertfaktoren, Kostenfaktoren und Beispielrechnungen, benennt fünf strukturelle Voraussetzungen für eine erfolgreiche Adoption, skizziert eine Investitions-Roadmap und schließt mit einer Anleitung zur Sicherung langfristiger Erträge. Im Anhang liefert er einen Beispiel-ROI-Rechner, dessen interaktive Version unter dora.dev/ai/roi/calculator öffentlich verfügbar ist.
KI als Verstärker, Code als Last
Die Aussage, dass KI als Verstärker wirkt, taucht im Bericht in vielen Variationen auf. Sie folgt aus der zentralen Beobachtung des 2025er DORA-Reports: Wer ein gut funktionierendes Engineering-System hat, multipliziert dessen Stärken durch KI. Wer ein dysfunktionales System hat, multipliziert die Dysfunktionen. „Without this foundation, AI creates localized pockets of productivity that are often lost in downstream chaos", schreiben die Autoren. Die Folge ist eine bemerkenswerte Umdeutung dessen, was als Code-Output zählt.
Mit Bezug auf das Standardwerk „Software Engineering at Google" zitiert der Bericht die Maxime, dass Code in der Lebenszeit eines Systems häufig „eine Last, kein Aktivposten" sei. Der Betrieb eines Systems verschlinge die Kosten seiner Erstellung um Größenordnungen. Mehr Code, ohne Aufsicht erzeugt, vergrößere den Verifikations-Aufwand und führe zu langfristiger technischer Schuld. Diese Umkehr ist programmatisch. Sie verschiebt das übliche KI-Versprechen vom „mehr Code, schneller" auf „weniger Engpass, durchgehend".
Eine bekannte These, jetzt in einer Geldgröße
Wer den Bericht parallel zum jüngsten Beitrag zum Team-Betriebssystem für Agentic CLI liest, findet einen unmittelbaren Bezugspunkt. Die These dort lautete, dass Werkzeuge ohne Methode Fehler ins Ergebnis verschieben, statt sie sichtbar zu machen. Die Stanford-Studie von Christopher Potts und Moritz Sudhof bezifferte den Anteil der unsichtbar gewordenen Fehler auf 88 Prozent in Dialogen mit ungeübten Anwendern. Der DORA-Bericht liefert die organisationsökonomische Seite dazu. Die unsichtbaren Fehler sind nicht nur ein Qualitätsproblem. Sie tauchen in den Auslieferungs-Metriken als gestiegene Change Failure Rate und längere Recovery Time auf, mit messbarem Umsatzeffekt.
Die fünf systemischen Schlüssel des Berichts (Vertrauen, interne Plattform, Daten-Ökosystem, Nutzerorientierung, automatisierte Schutzschienen) decken sich weitgehend mit den Säulen einer methodisch geführten Schulung. Eine schriftlich fixierte Haltung zu KI entspricht einer Repo-Verfassung. Eine als Produkt geführte interne Entwicklerplattform entspricht dem Bild der Tool-Zonen, in denen Werkzeuge nach Risiko sortiert sind. Die Nutzerorientierung entspricht dem Auftrag, jede Auslieferung gegen ein klares Ziel zu schneiden. Die Methode ist nicht das Ziel. Das Ziel ist der ROI. Aber ohne die Methode bleibt der ROI verstreut. Was vorher als Frage von Stil und Reviewkultur galt, taucht im DORA-Bericht als Variable im Geldmodell auf.
Was das für deutsche Teams heißt
Die Beispielzahlen des Berichts stammen aus einem US-Cloud-Native-Modell. Die im Rechner eingesetzte Jahresvergütung von 176.000 Dollar liegt am oberen Rand dessen, was eine deutsche Software-Fachkraft kostet, vor allem in regulierten Branchen mit Tarifbindung. Die Spreizung zwischen Greenfield- und Brownfield-Wirkung, die der Bericht mit 35 bis 40 Prozent gegen zehn Prozent angibt, trifft deutsche Anwenderlandschaften zudem härter. Hier ist mehr alterndes Bestandswissen verbaut als in den Vergleichswerten aus Mountain View. Ein Ergebnis aus dem Beispielrechner wird in Stuttgart oder Walldorf nicht eins zu eins eintreten.
Die strukturelle Aussage trägt dennoch, und sie lässt sich in einer Zahl bündeln: acht Monate. So lange dauert nach den Modellannahmen die Phase, in der mehr Geld in das System fließt als herauskommt. Wer in dieser Zeit die J-Kurve als Misserfolg liest und die Mittel zurückzieht, verspielt nach Lesart der Autoren den anschließenden Aufschwung. Wer in das Fundament investiert, also in Plattform, Daten, Verifikation, Vertrauen und Nutzerorientierung, nimmt die Kurve nach oben mit. Wer auf das nächste Modell wartet, findet im Text keine Bestätigung. Der Rest dieses Beitrags rekonstruiert die Rechnung im Detail, ordnet die widersprüchlichen Marktdaten ein und benennt die Vorbehalte, die der Bericht selbst formuliert.
Die J-Kurve und ihre drei Kräfte
Im Zentrum des finanziellen Modells steht eine Kurve in Form des Buchstabens J. Der Bericht nennt sie die „J-Curve of AI value realization" und beschreibt sie als eine empirisch beobachtete Verlaufsform für große Transformationsprojekte. In der Frühphase der Einführung sinkt die Produktivität, manchmal über Monate. Erst danach steigt sie wieder, um schließlich exponentiell zu wachsen. Drei Kräfte ziehen die Kurve zunächst nach unten.
Die erste Kraft ist die Lernkurve, also die Zeit, die Teams benötigen, um neue Schnittstellen, neue Arbeitsabläufe und neue Promptingstrategien zu beherrschen. Die zweite Kraft ist die Verifikationssteuer („verification tax"), also die Zeit, die Entwicklerinnen und Entwickler aufwenden, um KI-Output gegen Halluzinationen zu prüfen und gegen Sicherheits- und Architekturstandards zu verifizieren. Die dritte Kraft ist die Pipeline-Anpassung, weil schneller erzeugter Code an Test- und Freigabeengpässen aufläuft, die zuvor noch ausreichten. Der Bericht sieht in diesen drei Kräften nicht ein Versagen der Technologie, sondern ein Lehrgeld der Transformation. Wer ein Budget aufstellt und die J-Kurve nicht einplant, riskiere, in der Talsohle die Mittel zu kürzen und damit den späteren Anstieg zu verspielen.
Was die Einführung kostet
Wie hoch dieser Investitionsblock im Modell ausfällt, beziffert der Beispielrechner in expliziten Größen. Bei 500 technischen Mitarbeitenden, einer voll belasteten Jahresvergütung von 176.000 Dollar, einer angenommenen J-Kurven-Dauer von drei Monaten und einem Produktivitätseinbruch von 15 Prozent ergeben sich allein als Lehrgeld 3,3 Millionen Dollar. Hinzu kommen die direkten Werkzeug- und Schulungskosten. Im Beispielmodell werden 250 Dollar Lizenz pro Nutzerkonto und Jahr veranschlagt, dazu 80 Dollar zusätzliche Nutzungskosten (etwa für Token), 9.600 Dollar Schulung pro Person und 100.000 Dollar zusätzliche Infrastrukturkosten. Diese Summe addiert sich zu 5,065 Millionen Dollar. Zusammen mit der J-Kurve ergibt das eine Gesamtinvestition im ersten Jahr von 8,365 Millionen Dollar.
Was die Einführung einbringt
Auf der Wertseite arbeitet das Modell mit drei Posten. Der erste Posten ist die freigesetzte Personalkapazität, die der Bericht als „Headcount Reinvestment Capacity" bezeichnet. Sie entsteht, wenn Entwicklerinnen und Entwickler durch KI Zeit gewinnen, die sie in höherwertige Arbeit reinvestieren können. Bei 12,5 Prozent eingesparter Nettozeit pro Kopf entspricht das im Beispiel 11 Millionen Dollar. Der zweite Posten ist der zusätzliche Umsatz aus mehr ausgelieferten Features. Wenn ein Team 50 Features pro Jahr ausliefert, künftig aber 56, davon ein Drittel mit Umsatzwirkung und einer Wirkung von 0,5 Prozent auf einen Produktportfolio-Umsatz von 100 Millionen Dollar, kommen knapp 990.000 Dollar dazu. Der dritte Posten hat ein umgekehrtes Vorzeichen. Aus dem 2025er DORA-Report stammt der Befund, dass die Einführung von KI mit einer höheren Change Failure Rate korreliert. Im Modell führt das zu einer Erhöhung von 5 auf 6 Prozent fehlerhafter Auslieferungen, was bei vier Stunden Wiederherstellungszeit und 100.000 Dollar Ausfallkosten pro Stunde mit minus 344.000 Dollar zu Buche schlägt. Aufsummiert ergibt sich ein Gesamtwert von 11,646 Millionen Dollar im ersten Jahr.
Hinter der Dreierstruktur des Modells steht ein breiteres Wertgerüst, das der Bericht im Kapitel zur Wertberechnung mit fünf Säulen beschreibt. Kosteneffizienz, Produktivität, Developer Experience, User Experience und Geschäftswachstum. Je weiter man im Modell nach rechts geht, desto schwächer wird der unmittelbare Bezug zur KI im Engineering, desto stärker wird der finanzielle Hebel. Der Bericht macht in einer Grafik (Figure 4) sichtbar, was der 2025er DORA-Report empirisch gemessen hat. Die größte Wirkung der KI-Adoption findet sich auf der individuellen Effektivität, gefolgt von einer höheren Lieferinstabilität (mit umgekehrtem Vorzeichen), dann von organisatorischer Performance, sinnvoller Arbeit, Code-Qualität, Produkt-Performance, Lieferdurchsatz und Team-Performance. Burnout und Reibung verändern sich kaum. Die Streuung der Effekte ist breit, die Wirkung läuft systembedingt, nicht durch das Werkzeug selbst.
Eine eigene Passage widmet sich der Developer Experience, die der Bericht ausdrücklich nicht aus dem Modell ausschließt, obwohl er sie aus der Beispielrechnung herausnimmt. Der Grund ist Vorsicht. Der Zusammenhang zwischen einer KI-Einführung und der Bindung von Personal sei real, aber statistisch zu variabel, um ihn in eine Punktschätzung zu legen. Als qualitatives Argument bleibt er stark, weil der Ersatz einer Software-Fachkraft typischerweise das Eineinhalb- bis Zweifache des Jahresgehalts kostet. Wer eine bessere Arbeitsumgebung schafft, weil Routinearbeit an Agenten ausgelagert wird, senkt diese Wechselkosten. In der Sample-Berechnung des Berichts wird dieser Posten bewusst weggelassen, in der Argumentation aber als „mächtiger qualitativer Hebel" geführt.
Aus diesen beiden Seiten der Rechnung folgt eine ROI-Quote von 39 Prozent im ersten Jahr und eine Amortisation nach 0,7 Jahren, also etwa acht Monaten. Der Bericht ordnet die Größenordnung ein. Eine Amortisation zwischen sechs und neun Monaten gelte als Benchmark für agile Teams, zwischen zwölf und achtzehn Monaten für regulatorisch geprägte Großorganisationen. Für eine längere Perspektive verweisen die Autoren auf eine eigene Datenerhebung. Google-Cloud-Kunden hätten über drei Jahre eine durchschnittliche Rendite von 727 Prozent auf ihre KI-Investition gemeldet. Die Zahl stammt aus einer Veröffentlichung von Google Cloud selbst und ist im Bericht als Kundenmeldung gekennzeichnet, nicht als unabhängig validiertes Resultat.
Methodenhinweise im Eigentext
An mehreren Stellen weist der Bericht selbst auf die Grenzen der Berechnung hin. Im Hinweiskasten zur Methodik heißt es, die Kalkulationen seien „eine hochunsichere Schätzung, gedacht um ein Gespräch in Gang zu setzen, nicht als rigide mathematische Formel". Die Autoren zitieren die Statistiker-Maxime, alle Modelle seien falsch, manche aber nützlich. Wer im Rechner einzelne Annahmen verändert, sieht das Endergebnis sofort kippen. Eine konservative Variante senkt den Wert auf 80 Prozent und erhöht die Kosten auf 150 Prozent, eine optimistische geht in die andere Richtung. Der Spielraum ist breit. Die Autoren empfehlen explizit, mehrere Szenarien gleichzeitig durchzurechnen, statt einer einzelnen Punktschätzung zu vertrauen.
Die Marktspaltung
Eine längere Passage des Berichts widmet sich der Frage, warum bei nahezu universeller Einführung die finanziellen Resultate so weit auseinanderliegen. Drei Lager werden beschrieben. Eine optimistische Position beruft sich auf eine Google-Cloud-Erhebung, nach der 78 Prozent der befragten Führungskräfte einen Return aus mindestens einem generativen KI-Anwendungsfall berichteten, sowie auf 88 Prozent positive Rückmeldungen unter frühen Anwendern agentischer Systeme. Eine neutrale Position verweist auf den Stanford AI Index 2025, der die Erwartungen an die Belegschafts-Produktivität als „durchgängig gemischt" einordnet. Während die Adoption hoch sei, bleibe die strukturelle Transformation in den meisten Branchen selten und es ergäben sich überwiegend marginale Produktivitätsgewinne. Eine pessimistische Position zitiert Forschung aus dem MIT-NANDA-Projekt. Demnach scheitern interne Unternehmens-Implementierungen häufig, was Beschäftigte in eine „Schatten-KI-Wirtschaft" treibe, in der sie auf nicht autorisierte Verbraucheranwendungen ausweichen. Die hauptsächliche Hürde sei laut MIT-Befund weder das Budget noch die Technologie, sondern das organisatorische Design.
Eine bemerkenswerte Zahl steht etwas versteckt im Kapitel zur ROI-Modellierung. Eine Auswertung des Stanford-Forschungsprogramms zur Software-Engineering-Produktivität habe gezeigt, dass KI-Werkzeuge bei einfachen, auf der grünen Wiese gestarteten Aufgaben einen Produktivitätsgewinn von 35 bis 40 Prozent erzeugten. Bei komplexem, alterndem Bestandscode liege die Wirkung dagegen oft bei zehn Prozent oder darunter. Die Autoren des Berichts verwenden diese Spreizung, um die Auswahl von Anwendungsfällen zu rechtfertigen. Wer KI primär in Greenfield-Szenarien einsetze, sehe schneller Wirkung. Wer sie auf Brownfield-Migrationen anwende, brauche stärkere Vorarbeit am Engineering-System.
Fünf strukturelle Voraussetzungen
Im Kapitel „Build the organizational foundation for AI adoption" benennt der Bericht fünf systemische Schlüssel, die ein Unternehmen aus den verstreuten lokalen Produktivitätszuwächsen herausführen sollen. Die erste Voraussetzung ist Vertrauen, technisch umgesetzt als „clear and communicated AI stance". Gemeint ist eine schriftlich fixierte Haltung der Organisation zu KI, die Erwartungen, Grenzen und Reviewpflichten festlegt. Die zweite Voraussetzung ist eine interne Entwicklerplattform (IDP), die als Produkt behandelt wird und Reibung im Umgang mit Werkzeugen, Pipelines und Architekturmustern minimiert. In der agentischen Ära fungiere die IDP als „Risikominderer und Kontextlieferant für Agenten". Die dritte Voraussetzung ist ein KI-zugängliches Daten-Ökosystem, weil Agenten nur so gut sind wie die Daten, auf die sie zugreifen. Die vierte Voraussetzung ist eine kompromisslose Nutzerorientierung, die die durch Werkzeuge gewonnene Geschwindigkeit auf reale Probleme richtet, statt Pull-Requests zu zählen. Die fünfte Voraussetzung sind automatisierte Verifikations-Schienen („Guardrails"), die als Bremsen wirken und es dem Engineering-System erlauben, sicher schneller zu fahren.
Eine prägnante Formel des Berichts bündelt die These: „Wir messen KI nicht an dem Code, den sie schreibt, sondern an den Engpässen, die sie freiräumt." Die Aussage steht im Kapitel zum Geschäftsfall. Sie verschiebt das übliche Versprechen, KI ersetze Entwicklerstellen, in eine andere Logik. ROI sei kein Maß dafür, wie viele Stellen abgebaut werden können. ROI sei ein Maß dafür, wie viel latentes menschliches Kreativitätspotenzial freigesetzt werde, indem systemische Routinearbeit an autonome Agenten ausgelagert werde.
Empfehlung gegen Stellenstreichung
Konsequent rät der Bericht von einer Kostensenkungsstrategie auf der Personalseite ab. Wer Produktivitätsgewinne in Stellenstreichungen ummünze, beschädige die Moral, vermindere die Lernbereitschaft und erzeuge Anreize, sich gegen Prozessverbesserungen zu sperren. Die Autoren empfehlen stattdessen, freigesetzte Kapazität als Reinvestition in Innovation zu rahmen. Die so gesparten Kosten seien Kosten, die durch ausgebliebene Neueinstellungen vermieden werden, nicht Kosten, die durch Entlassungen frei werden. Diese Lesart ist im Modell auch deshalb angelegt, weil die Wechselkosten für Personal in Software-Berufen typischerweise das Eineinhalb- bis Zweifache des Jahresgehalts betragen.
Der Begriff „verification tax" zieht sich als roter Faden durch den Text. Im Kapitel über zusätzliche und indirekte Kosten beschreibt der Bericht, wie eine niedrige Vertrauensbasis die J-Kurve vertieft. Wenn jeder Codeblock zweimal gegengelesen werde, bevor er in die Pipeline gehe, lösten sich die Produktivitätsgewinne auf. Vertrauen sei deshalb keine weiche Kategorie. Es sei eine harte finanzielle Variable. Es zu erzeugen verlange ein System, das Verifikation belohne, statt rohe Code-Menge.
Experimentfrequenz als Finanzgröße
Eine eigenständige Passage des Berichts argumentiert, dass die Frequenz von Experimenten ein finanzieller Indikator sei, kein bloßer Engineering-Wert. Der Argumentationsgang stützt sich auf das Konzept der Optionalität aus der Finanzwelt. Eine Option sei eine risikoarme Investition, die das Recht eröffne, später eine größere Investition zu tätigen, ohne sie zu müssen. Ein Prototyp oder ein A/B-Test sei eine solche Option. KI senke die Vorlaufkosten dieser Option, indem sie die Zeit für Code-Erstellung drastisch verkürze. Wer mehr Optionen halte, müsse weniger früh auf eine einzige Hypothese setzen.
Die finanzielle Lesart fügt der Methodik eine Dimension hinzu, die sich von reiner Geschwindigkeit unterscheidet. Es geht nicht um die Frage, ob ein Team mehr Code in der gleichen Zeit ausliefert. Es geht um die Frage, wie viele Hypothesen ein Team in der gleichen Zeit durch echte Nutzerinnen und Nutzer prüfen kann, bevor es Ressourcen in eine Skalierung investiert. Hohe Experimentfrequenz, schreibt der Bericht, sei ein Frühindikator dafür, dass die Organisation die KI absorbiert habe und nicht in falsche Features investiere.
Drei Vorbehalte
Drei Vorbehalte verdienen eine eigene Anmerkung. Erstens stammt der Bericht aus dem Hause Google. Er enthält Verweise auf Google-Cloud-Werkzeuge und Beratungsdienste, sein Beispielrechner endet mit einer Kontaktoption zur „delta"-Praxis. Die methodische Solidität der Argumente bleibt davon unberührt. Der Marketingrahmen ist aber zu erkennen.
Zweitens beschränkt der Rechner sich auf das erste Jahr. Die hohen Mehrjahres-Renditen von 727 Prozent stammen aus einer separaten Quelle, die der Bericht selbst als Kundenmeldung kennzeichnet. Drittens bleiben die zentralen Eingangsgrößen, also der Anteil eingesparter Zeit, die Erfolgsquote zusätzlicher Features und die Umsatzwirkung pro Feature, Schätzungen, deren Bandbreite der Bericht offen ausweist. Die Autoren machen aus dieser Unsicherheit kein Geheimnis. Sie betonen mehrfach, dass der Rechner ein Gesprächsöffner sei, kein Bilanzinstrument.
Reife als finanzielle Variable
Trotz dieser Vorbehalte bietet der Bericht etwas, das in der bisherigen Diskussion über KI-Werkzeuge fehlte. Er übersetzt die Aussage, dass das Fundament wichtiger sei als das Modell, in eine Geldgröße. Solange die Diskussion über agentische Werkzeuge auf den Vergleich von Modellen oder die Geschwindigkeit einzelner Aufgaben reduziert blieb, war die organisatorische Reife eine Aussage über Stil und Reviewkultur. Im DORA-Bericht wird sie zu einer Variable im finanziellen Modell. Eine konservative Annahme über die Reife der internen Plattform senkt den Gesamtwert von 11,6 auf rund 9 Millionen Dollar. Eine optimistische Annahme hebt ihn um den entsprechenden Betrag. Reife ist hier kein Sentiment. Reife ist ein Faktor.
Eine zweite, im Bericht eher beiläufig behandelte Beobachtung verdient Aufmerksamkeit. Die Inferenzkosten für die fortschrittlichsten Modelle seien zwischen November 2022 und Oktober 2024 um den Faktor 280 gefallen. Die Kosten der Modellabfrage näherten sich Null. Die echten Kosten verschöben sich auf die Governance, also auf Verifikation, Workflows und Qualifizierung. Wer in diesen drei Bereichen vorbereitet sei, wer ein Plattformteam habe, eine Reviewkultur und eine ehrliche Lehrgeld-Planung, sehe in Jahr zwei und drei den exponentiellen Wertzuwachs, von dem die Autoren sprechen. Wer es nicht sei, bleibe in der Talsohle.
Diese Verschiebung erklärt einen zweiten Befund des Berichts. Die Frage, welches Modell ein Team einsetzt, wird im Bericht zwar erwähnt, aber konsequent in eine Nebenrolle gerückt. Die zentrale Variable ist nicht das Modell. Sie ist die Kompetenz, das Modell in einen Arbeitsablauf einzubetten, der Verifikation belohnt und Risiko begrenzt. Was im Jahr 2024 noch als technische Frage galt, ist 2026 eine Organisationsfrage. Genau diese Verschiebung will der Bericht in einer Zahl sichtbar machen.
Eine vom Bericht selbst stammende Zwischenbilanz fasst die Logik nüchtern zusammen: „Der Pfad zum ROI ist eine Sequenz des Aufbaus von Kompetenzen, kein Wettrennen um das neueste Modell oder das neueste Werkzeug." An dieser Aussage endet der Text. Sie liest sich nach 60 Seiten Methodik fast unscheinbar. In der Sache bezeichnet sie eine Kehrtwende. Der Wettbewerb um die schnellste Modellgeneration verliert die Rolle, die ihm 2023 und 2024 zugeschrieben wurde. An seine Stelle tritt der Wettbewerb um die reifste Engineering-Organisation. Welche der beiden Disziplinen ein Unternehmen besser beherrscht, ist eine Frage, die sich nicht im Lizenzvertrag entscheidet, sondern in der internen Plattform, in den Reviewroutinen und in der Bereitschaft, drei Monate Lehrgeld zu zahlen, ohne die Mittel vorzeitig zu kürzen.