Wer Innovation messen will, braucht erst ein System of Work

Innovation ist kein Bauchgefühl. Trotzdem wird sie in den meisten Unternehmen genau so bewertet: subjektiv in Team-Reviews, anekdotisch in Statusrunden, retrospektiv im Jahresreport. Wer den Anteil von Innovationsarbeit gegenüber dem operativen Tagesgeschäft messbar machen will, scheitert selten an der Methodik. Er scheitert daran, dass die Arbeit selbst in Silos verteilt ist.

Das eigentliche Problem

Atlassian beschreibt mit dem Begriff "System of Work" eine simple Beobachtung: Arbeit, die in verschiedenen Tools liegt, lässt sich weder konsolidieren noch steuern. Microsoft Planner für Marketingaufgaben, Outlook-Flags im Support, Excel-Listen in der Produktentwicklung, ein eigenes Tool im Vertrieb. Jede Insel funktioniert für sich. Keine Insel liefert die Daten, die ein Geschäftsführer braucht, um zu wissen, wie viel seines Unternehmens an der Zukunft arbeitet und wie viel den Bestand verwaltet.

Solange diese Silos bestehen, ist jede Aussage zur Innovationsfähigkeit eine Schätzung. Ein Innovation Score auf Basis fragmentierter Datenquellen ist kein Steuerungsinstrument, sondern ein Stimmungsbild. Genau deshalb ist ein zentrales Aufgabenmanagement in Jira die Voraussetzung, nicht das Ergebnis dieser Diskussion.

Ein konkretes Beispiel

Ein Industriekunde wollte die Verteilung zwischen Innovation, Hybridarbeit und Business as Usual über alle Teams hinweg sichtbar machen. Die technische Voraussetzung war bereits gegeben: alle Projekte laufen in Jira. Die Formel ist simpel: Anteil der Aufgaben in der Kategorie "Innovation" an der Gesamtzahl aller Aufgaben, dargestellt als Trend über Zeit und im Teamvergleich in Power BI.

Das Problem war die Klassifizierung. Ein Pflichtfeld bei der Ticketerstellung scheiterte an der Praxis: Wer schnell ein Ticket anlegt, kennt die Kategorie häufig noch nicht. Die Datenqualität sank auf ein Niveau, bei dem der Score keine verlässlichen Aussagen mehr lieferte.

Die erste Lösung war kontraintuitiv und wirksam: Das Pflichtfeld gehört nicht an die Ticketerstellung, sondern an den Übergang in den Status "Done". An diesem Punkt ist die Arbeit verstanden, die Kategorie inhaltlich tragfähig und der Anlageprozess bleibt frei. Umgesetzt wurde das mit einem Validator im Workflow, ergänzt um die strukturelle Trennung eines eigenen Innovation Backlogs vom operativen Backlog.

Die zweite Stufe geht weiter. Statt die Teams überhaupt zur manuellen Klassifizierung zu zwingen, übernimmt ein KI-Agent diese Aufgabe.

Klassifizierung durch einen KI-Agenten

Der Agent liest Titel, Beschreibung und Kontext jedes Tickets und ordnet es anhand eines vordefinierten Regelwerks einer Kategorie zu: Innovation, Hybrid oder Business as Usual. Bei hoher Konfidenz klassifiziert er direkt. Liegt die Konfidenz unterhalb eines definierten Schwellenwerts, fragt er automatisch beim Bearbeiter oder Reporter nach.

Das klingt aufwändiger als ein Dropdown-Feld. In der Praxis bedeutet es weniger Reibung für die Teams, weil der Großteil der Klassifizierung passiert, ohne dass jemand eingreifen muss. Die Rückfragen kommen gezielt, nicht pauschal.

Das Vorgehen hat einen weiteren Effekt, der oft unterschätzt wird: Es verhindert, dass Goodhart's Law greift. Dahinter steckt die Beobachtung, dass eine Kennzahl aufhört, eine verlässliche Kennzahl zu sein, sobald sie zur Zielgröße wird. Klassifizieren Teams ihre eigenen Tickets, richten sie die Einordnung unbewusst an der erwünschten Zahl aus. Ein regelbasierter Agent kennt keine Zielgröße. Er klassifiziert nach Inhalt, nicht nach Erwartung.

Entscheidend ist das richtige Verständnis des Ergebnisses: Der Innovation Score ist ein Indikator, kein Exaktwert. Eine gewisse Ungenauigkeit ist systemimmanent und akzeptiert. Ein Score von 23 Prozent bedeutet nicht, dass exakt 23 Prozent der Kapazität in Innovation fließen. Er bedeutet, dass die Richtung stimmt oder eben nicht.

Eine Orientierung, wo der Score überhaupt liegen sollte, bieten etablierte Allokationsrahmen. Tech-Konzerne wie Google und Intel arbeiten seit Jahren mit der 70-20-10-Heuristik: 70 Prozent Kerngeschäft, 20 Prozent angrenzende Bereiche, 10 Prozent transformative Projekte. Ein Mittelständler in einem stabilen Markt wird andere Werte sinnvoll finden, aber das Verhältnis bietet eine Diskussionsgrundlage, die ohne externen Anker fehlt.

Ein Innovation Backlog, das über mehrere Wochen anschwillt, während operative Arbeit Vorrang bekommt, ist ein klares Signal zur Umpriorisierung. Kein Report kann das ersetzen, aber kein Team sieht es ohne zentrales System.

Reaktionszeit statt Jahresrückblick

Der wirtschaftliche Effekt entsteht nicht durch die Zahl selbst, sondern durch die Geschwindigkeit, mit der sie eine Drift sichtbar macht. Verschiebt sich der Innovationsanteil eines Bereichs binnen vier Wochen von 25 auf 10 Prozent, weil eine Welle operativer Tickets durchläuft, ist das sofort sichtbar. Ohne diese Sicht fällt der gleiche Effekt erst im Jahresreport auf. Bis dahin sind drei Quartale vergangen.

Damit verkürzt sich die Korrekturschleife auf strategische Verschiebungen von Monaten auf Wochen. Strategiebudgets versickern nicht stillschweigend, Change-Initiativen werden nicht durch operativen Druck verdrängt, und Bereichsleitungen haben ein belastbares Argument für ihre Priorisierungen.

Was vor dem Agenten stehen muss

Der KI-Agent setzt das Regelwerk nicht selbst. Er wendet es an. Bevor er produktiv klassifiziert, müssen drei Fragen beantwortet sein:

Welche Kategorien gelten, und wie sind sie trennscharf definiert? "Innovation" und "Hybrid" überlappen sonst systematisch.
Welche Projekte und Issue-Typen fließen in den Score? Nur Epics, alle Tickets oder eine bestimmte Hierarchieebene?
Welcher Schwellenwert löst eine Rückfrage aus? Zu niedrig führt zu konstantem Nachfragen, zu hoch produziert stille Fehlklassifizierungen.

Ohne diese Vorarbeit klassifiziert der Agent konsistent, aber konsistent falsch.

Erst das System, dann der Score

Die Idee hinter dem System of Work ist richtig: Arbeit braucht eine gemeinsame Schicht, sonst lässt sich nichts steuern. Der KI-Agent macht Klassifizierung skalierbar und nimmt den Teams die manuelle Last ab. Aber er setzt voraus, dass die Arbeit überhaupt zentral liegt. Wer Aufgaben in Planner, Outlook und Jira parallel verwaltet, bekommt durch den Agenten keinen besseren Score. Er bekommt einen präziseren Blick auf einen unvollständigen Datensatz.

Innovation sichtbar machen beginnt mit dem Aufgabensystem. Der Score ist die Folge.

Wer einen Innovation Score sinnvoll einsetzen will, beginnt nicht beim Score, sondern bei der Aufgabenlandschaft. Ein Process Impact Check macht sichtbar, welche Arbeit heute außerhalb des zentralen Systems läuft und welche Klassifizierungslogik darauf tragfähig wäre: sprechen Sie uns gerne an.

David Amenda David Amenda ist Head of System Operations & Services bei HanseVision und verantwortet den Aufbau skalierbarer Service- und Plattformstrukturen im Umfeld moderner Collaboration- und ITSM-Lösungen. Zudem ist er Leitung Competence Center Atlassian. Seit 2016 im Unternehmen verbindet er technologische Expertise mit prozessualem Business-Verständnis und unternehmerischem Denken. Sein Schwerpunkt liegt auf der Entwicklung ganzheitlicher Service-Modelle – von der strategischen Konzeption über die organisatorische Verankerung bis zur operativen Umsetzung. Dabei steht für ihn nicht das Tool im Vordergrund, sondern die nachhaltige Strukturierung von Service-, Projekt- und Wissensmanagementprozessen. Sein Anspruch: Technologie so einzusetzen, dass Organisationen messbar effizienter, transparenter und resilienter werden. Alle Artikel des Autors