Software Due Diligence

Neuauflage der KI Software Due Diligence im Zeitalter von LLMs und generativer KI

LLM-Integration in Unternehmenssoftware erhöht zwar die Bewertung, birgt aber neue Risiken (Abhängigkeit, Nicht-Determinismus), die einer Untersuchung bedürfen.

Neuauflage der KI Software Due Diligence im Zeitalter von LLMs und generativer KI
11:18

In den letzten Jahren haben die Fähigkeiten, die Verfügbarkeit und die Akzeptanz künstlicher Intelligenz (KI) Produkte und Märkte stark verändert. Die Integration von KI-Funktionen in Software oder softwaregesteuerte Produkte ist für Wachstum, Rentabilität und Unternehmensbewertungen unverzichtbar geworden. Dieser Druck veranlasst Unternehmen jedoch dazu, KI einzuführen, ohne das erforderliche Fachwissen aufzubauen oder die Organisation auf die Besonderheiten der KI-Forschung und -Entwicklung (F&E) sowie der Wartung vorzubereiten. 

Das Ergebnis sind KI-Softwareprodukte, die von der Organisation nicht vollständig entwickelt oder verstanden werden, was neue Risiken (Software, die wie eine Black Box funktioniert) für das Unternehmen und damit für potenzielle Investoren mit sich bringt. Insbesondere bei M&A- und Private-Equity-Transaktionen muss sich die Software-Due-Diligence-Prüfung von LLM- und GenAI-gesteuerten Produkten rasch weiterentwickeln, um diesen noch recht neuen und einzigartigen Technologierisiken gerecht zu werden.

Die traditionelle Software-Due-Diligence konzentriert sich auf die Codequalität und -architektur, automatisierte F&E-Prozesse, die Fähigkeiten der Mitarbeiter/Teams und die Skalierbarkeit des Teams und der Software sowie deren Dokumentation. In Teil 5 der Blogreihe zum Thema "Software Due Diligence: zu der Schlüssel zu erfolgreichen M&A-Deals" untersuchen wir, wie eine Due Diligence für KI-basierte Software durchgeführt werden sollte. Wir konzentrieren uns dabei auf Technologiebereiche (z. B. den KI-Stack und KI-Praktiken), die zusätzliche Aufmerksamkeit, Fachwissen und Tools erfordern.

Mit unseren Erkenntnissen möchten wir Investoren auf die zusätzlichen Risiken aufmerksam machen, die mit der Entwicklung und Nutzung von KI-Funktionen in softwarebasierten Unternehmen verbunden sind. KI-Funktionen treiben zwar zweifellos die Unternehmensbewertung in die Höhe, man sollte sich jedoch bewusst sein, dass sie auch das potenzielle Risiko erhöhen.

LLM-basierte vs. proprietäre ML-Modelle: Drei Formen der KI-Integration – und warum sie für Due Diligence entscheidend sind

Bevor man in die KI-bezogene Software-Due-Diligence eintaucht, lohnt sich ein Blick auf die unterschiedlichen Muster, wie künstliche Intelligenz heute in Softwareprodukte integriert wird. Nicht jede „KI-gestützte“ Lösung funktioniert gleich – und diese Unterschiede haben erhebliche Auswirkungen auf Bewertung, Risikoeinschätzung und Skalierbarkeit.

Grundsätzlich lassen sich drei Hauptkategorien unterscheiden:


A. Proprietäre ML-Modelle – maßgeschneiderte Intelligenz

Diese Kategorie umfasst Produkte und Services, die auf intern entwickelten, speziell trainierten Machine-Learning-Modellen basieren. Typische Merkmale sind:

  • Entwicklung für spezifische Anwendungsfälle (z. B. Betrugserkennung, Churn-Prediction, Qualitätskontrolle)
  • Interne Entwicklung mit domänenspezifischen Datenpipelines
  • Deterministisches Verhalten – gleiche Eingaben führen zu gleichen Ergebnissen
  • Volle Kontrolle über geistiges Eigentum und Daten

Fazit: Proprietäre ML-Systeme sind technisch anspruchsvoll und kostenintensiv im Betrieb, bieten jedoch langfristige Verteidigungsfähigkeit durch eigenes IP, Datenbesitz und Differenzierung.


B. LLM-/GenAI-basierte Produkte –
KI als Service

Hier integrieren Unternehmen externe Large Language Models (LLMs) über APIs von Anbietern wie OpenAI, Anthropic oder Google Gemini. Charakteristische Merkmale wären:

  • Integration über Prompt Engineering oder Retrieval-Augmented-Generation-(RAG)-Architekturen
  • Häufige Einsatzfelder: Textzusammenfassungen, Chatbots oder Dokumentenanalyse
  • Schnelle Produktentwicklung möglich, aber mit Abhängigkeiten von externen Anbietern und deren Preismodellen

Fazit: Ideal für schnelle Innovation und Prototyping, jedoch mit klaren Risiken hinsichtlich Abhängigkeit, Compliance und Datenschutz – aufgrund begrenzter Kontrolle über Modellverhalten und Datenverarbeitung.


C. Feinjustierte Foundation Models –
der Mittelweg

Diese Modelle werden nicht von Grund auf neu entwickelt, aber auch nicht einfach über eine Standard-API konsumiert. Stattdessen handelt es sich um weitertrainierte Versionen bestehender Foundation Models (LLMs/GenAI), die mit proprietären Daten für spezifische Anwendungsfälle angepasst werden. Beispiele:

  • BERT-Modelle, feinjustiert für die Klassifikation juristischer Klauseln
  • T5-Modelle zur Zusammenfassung klinischer Notizen
  • LLaMA-Modelle für markenkonsistentes Kunden-Support-Feedback
  • GPT-ähnliche Modelle, die an interne Content-Richtlinien angepasst wurden

Fazit: Diese Herangehensweise kombiniert Flexibilität und Anpassung mit höherem technischem Aufwand und kontinuierlichem Modellmanagement.


Warum diese Unterscheidung für Due Diligence wichtig ist

Für Investoren und Technologieprüfer ist das Verständnis der jeweiligen Integrationsstrategie zentral.

  • LLM-basierte Produkte (B & C) bringen höhere Abhängigkeiten, geringere Vorhersagbarkeit und stärkere regulatorische Risiken mit sich, da sie auf externe Anbieter und nicht-deterministische Modelle setzen.
  • Proprietäre ML-Produkte (A) erfordern mehr Entwicklungs- und Wartungsaufwand, bieten aber deutlich stärkeren Schutz des geistigen Eigentums, Datenhoheit und Kontrolle.

Diese Unterschiede verlangen unterschiedliche Perspektiven in der Due Diligence – sowohl bei der Bewertung der technischen Robustheit als auch bei der Einschätzung des langfristigen Unternehmenswerts.


Die Rolle von LLMs/GenAI im Produkt verstehen

Der erste Schritt jeder Due Diligence bei LLM-/GenAI-basierten Produkten besteht darin, zu bewerten, wie zentral die KI-Komponenten für den Kernnutzen des Produkts sind.
Es macht einen großen Unterschied, ob ein generatives Modell lediglich Blog-Zusammenfassungen erstellt oder ob ein gesamter Workflow oder ein Produkt auf RAG-Architektur basiert.

Zentrale Fragen zur Bewertung:

  • Ist KI essenzieller Bestandteil der Produktfunktion oder nur eine Erweiterung?
  • Nutzt das Produkt lizenzierte APIs?
  • Wie groß ist die Abhängigkeit von einem einzelnen Anbieter (Vendor Lock-in)?
  • Wie wirkt sich das Preismodell auf Skalierbarkeit und Wachstum aus (z. B. bei 10-facher Nutzersteigerung)?
  • Welche Latenz entsteht und wie beeinflusst sie die User Experience?
  • Wie wird verhindert, dass Nutzer- oder Kundendaten zum Training der genutzten LLMs verwendet werden?
  • Erfüllt die KI-Infrastruktur die Wachstumsanforderungen bei selbst gehosteten Modellen?

Die Beantwortung dieser Fragen zeigt, ob die KI-Funktion ein strategisches Differenzierungsmerkmal oder lediglich eine austauschbare Implementierungsdetails ist.


Beobachtbarkeit und Fall-Back-Management

Large Language Models (LLMs) und generative KI sind inhärent nicht-deterministisch – identische Eingaben können unterschiedliche Ausgaben liefern.
Dieses probabilistische Verhalten führt zu betrieblichen und regulatorischen Risiken, die klassische QA-Frameworks nicht vollständig abdecken.

Due Diligence sollte daher die folgenden Aspekte prüfen:

  • Output-Monitoring: Werden Modellantworten protokolliert, klassifiziert und regelmäßig auf Genauigkeit und Policy-Compliance überprüft?
  • Halluzinationserkennung: Erkennt oder markiert das System fehlerhafte oder unsichere Ausgaben?
  • Prompt-Management: Sind Prompts, Templates und Testfälle versioniert, peer-reviewed und benchmarked?
  • Modellversionierung: Wie werden LLM-Updates validiert, und existieren Regressionstests zur Erkennung von Qualitätsdrift?
  • Fallback-Mechanismen: Gibt es Eskalationspfade bei unsicheren oder unzulässigen Ausgaben – z. B. menschliche Überprüfung oder alternative Modelle?

In regulierten Branchen wie Finanzen, Recht, Gesundheitswesen oder Verteidigung gelten hier besonders hohe Anforderungen an Nachweisbarkeit, Dokumentation und Resilienz.


Teamkompetenzen

LLM-basierte Software erfordert spezialisierte Expertise, die über klassische ML- oder DevOps-Rollen hinausgeht. Ein nachhaltiges KI-Team zeichnet sich durch Kompetenzen in folgenden Bereichen aus:

  • Prompt Engineering und RAG-Architekturen
  • Modellevaluation und Benchmark-Design
  • Daten-Governance und Observability-Tools

Relevante Due-Diligence-Fragen wären:

  • Nutzt das Team Best Practices in Prompt-Design, Versionierung und Verhaltensüberwachung?
  • Ist das Know-how auf wenige Schlüsselpersonen konzentriert?
  • Wie viel der Entwicklung erfolgt intern, wie viel wird ausgelagert?
  • Gibt es Strategien zur Wissenssicherung und Nachfolgeplanung?

Gerade bei frühen Start-ups ist Know-how-Abhängigkeit ein zentraler operativer Risikofaktor.


Sicherheit und Missbrauchsprävention

KI-Systeme erweitern die Angriffsfläche deutlich über klassische Software-Sicherheitsrisiken hinaus. Due Diligence sollte prüfen, wie gut ein Unternehmen gegen neue Bedrohungen gewappnet ist, z. B.:

  • Prompt-Injection-Angriffe oder manipulative Eingaben zur Umgehung von Schutzmechanismen
  • Erkennung von Missbrauch und policy-widriger Inhaltserzeugung
  • Externe Schutzmechanismen, etwa Inhaltsfilter, Nutzungslimits oder Safety-Layer der API-Anbieter

Ein starkes Sicherheitskonzept kombiniert präventive Kontrollen, aktive Überwachung und klar definierte Reaktionsprozesse auf KI-spezifische Vorfälle.


Ethik, Bias und gesell-schaftliche Verantwortung

Moderne KI-Due-Diligence umfasst nicht nur Leistungsfähigkeit, sondern auch ethische Verantwortung. Regulierungsbehörden und Investoren erwarten zunehmend eine proaktive Governance in Bezug auf Fairness, Transparenz und Nachvollziehbarkeit.

Zu prüfende Punkte wären:

  • Wurden Bias- oder Fairness-Audits für die Kernmodelle durchgeführt?
  • Erfolgen Tests auf toxisches Verhalten und Richtlinienkonformität vor der Produktivsetzung?
  • Gibt es menschliche Kontrolle („Human-in-the-loop“) bei sensiblen Anwendungsfällen?
  • Wird transparent kommuniziert, wenn KI-Systeme Entscheidungen oder Inhalte beeinflussen?

Ein Mangel an diesen Governance-Strukturen kann erhebliche Reputations- und Regulierungsrisiken nach sich ziehen – selbst bei technisch leistungsfähigen Systemen.


Fazit: KI-Due-Diligence zukunftssicher gestalten

Generative KI verwischt die Grenze zwischen deterministischem Code und probabilistischem Denken. Diese Entwicklung verlangt eine neue Art der Software-Due-Diligence – eine, die technische Tiefe, regulatorisches Verständnis und ethisches Bewusstsein kombiniert.

Für Investoren geht es nicht nur darum, Risiken zu identifizieren, sondern vor allem, wertschöpfende Fähigkeiten zu erkennen: Datenherkunft, reife MLOps-Strukturen, erklärbares Modellverhalten und glaubwürdige Governance.

Sorgfältig ausgeführte KI-Due-Diligence ist damit weit mehr als Risikomanagement – sie ist die Grundlage für vertrauensvolle Investitionen, verantwortungsvolle Innovation und nachhaltige Wettbewerbsvorteile in einer KI-getriebenen Wirtschaft.

Jetzt handeln: KI-Kompetenz gezielt in Ihre Transaktionsprüfung integrieren

Ob Tech-Akquisition oder Investition in ein datenbasiertes Geschäftsmodell – wenn KI eine Rolle spielt, brauchen Sie neue Kriterien, neue Methoden und Partner mit praktischer Erfahrung.

👉 Cape of Good Code kombiniert fundierte Technologieanalyse mit KI-spezifischer Expertise – und liefert innerhalb kürzester Zeit klare Einschätzungen zur Tragfähigkeit, Skalierbarkeit und Nachhaltigkeit Ihrer Zieltechnologie.

📞 Vereinbaren Sie ein unverbindliches Erstgespräch oder fordern Sie direkt unsere KI Software Due Diligence an.

Links

[0] Photo by Solen Feyissa

Similar posts