Künstliche Intelligenz und ihre Daten

Zitiervorschlag: Levien/Wildegger, LRZ 2023, Rn. 822, [●], www.lrz.legal/2023Rn822.

Permanente Kurz-URL: LRZ.legal/2023Rn822

Der Aufsatz beleuchtet die Rolle von Künstlicher Intelligenz (KI) in der Arbeit von Unternehmensjuristen. Er zeigt auf, wie KI die Effizienz steigert, indem sie umfangreiche Daten für die Sachverhaltsaufklärung und -analyse verarbeitet. Der Beitrag definiert Schlüsselbegriffe wie Machine Learning, Deep Learning sowie Natural Language Processing, und betont die Notwendigkeit von qualitativ hochwertigen Trainingsdaten für effektive KI-Anwendungen. Es wird aufgezeigt, dass KI das Potenzial hat, repetitive juristische Tätigkeiten zu übernehmen und Fehlerquellen zu reduzieren, sofern eine solide Datenbasis vorhanden ist. Der Beitrag ist zugleich ein Aufruf zur Schaffung von Mindeststandards für Trainingsdaten, um das volle Potenzial der KI im juristischen Bereich zu entfalten.

Inhaltsverzeichnis

1. Einführung

Der Alltag von Unternehmensjuristen ist geprägt durch eine ganze Reihe von nicht juristischen Tätigkeiten. Insbesondere dann, wenn es um die Sachverhaltsaufklärung geht, muss eine Vielzahl von Daten gesammelt, aufbereitet, ausgewertet und verfügbar gehalten werden. Diese Tätigkeiten kosten viel Zeit; sie müssen klassischerweise manuell erledigt werden und stehen letztlich vor der eigentlichen juristischen Arbeit. Genau an dieser Stelle bietet Künstliche Intelligenz (KI) große Chancen. Diese Technologie ist besonders gut geeignet, um riesige Datenmengen in kürzester Zeit auszuwerten. Die Auswertung erfordert aber – zumindest aktuell noch – ein Training der KI mit einer ausreichenden Menge geeigneter Daten. Es lohnt daher, sich auch im juristischen Diskurs genauer mit den Daten und dem Training von KI zu beschäftigen. Denn allzu oft wird KI nur als Schlagwort benutzt, mit dem Aufmerksamkeit erzeugt und Kompetenz sowie Fortschrittlichkeit präsentiert werden kann. Die zugrundeliegenden Daten und das Training der KI mit diesen Daten rücken für Verwender oft erst dann in das Bewusstsein, wenn mit Entwicklern KI-basierter (Legal Tech-) Lösungen über konkrete Einsatzszenarien gesprochen wird.

Rn822

Ziel dieses Artikels ist es, aus juristischer Perspektive einen Überblick über die gängigen KI-Begriffe zu geben und die Aufmerksamkeit auf die benötigten Daten für eine KI-Lösung zu lenken. Ein konkretes Praxisbeispiel aus dem Bereich Rechtsberatung für Open Source Software (OSS) soll dabei die Bedeutung von kuratierten Daten beim Einsatz von KI veranschaulichen.

Rn823

2. Begriffsdefinitionen

Wir alle haben die Schlagworte KI, Machine Learning, Deep Learning, NLP oder auch LLM sicher schon einmal gehört. Diese Begriffe werden je nach Kontext aber inflationär verwendet, und es wird nicht immer trennscharf zwischen ihnen unterschieden. Daher wagen wir den Versuch einer kompakten und bewusst einfach gehaltenen Begriffsklärung und Einordnung.

Rn824

Zwar gibt es nach wie vor keine allgemeingültige Definition für den Begriff „Künstliche Intelligenz“ (KI), doch geht es letztlich um Software, die nicht „klassisch“ regelbasiert arbeitet. Eine KI wird mit riesigen Datenmengen trainiert, die sie generalisiert. Hierdurch ist es der KI möglich, auch für unbekannte, neue Situationen eigenständig Entscheidungen zu treffen.¹ Durch die datenbasierte Arbeitsweise kann KI Probleme lösen, ohne dass ein Mensch im Rahmen der Softwareentwicklung die Lösung bereits vorgegeben hat.² Ähnlich lautet der aktuelle Vorschlag des Europäischen Parlaments aus Juni 2023 im Gesetzgebungsverfahren des KI-VO-E, in dem es heißt: „[Ein KI-System ist] ein maschinengestütztes System, das so konzipiert ist, dass es mit unterschiedlichem Grad an Autonomie operieren kann und das für explizite oder implizite Ziele Ergebnisse wie Vorhersagen, Empfehlungen oder Entscheidungen hervorbringen kann, die das physische oder virtuelle Umfeld beeinflussen.“ ³

Rn825

Mit dem Begriff „Natural Language Processing“ (NLP) wird die Verarbeitung natürlicher Sprache durch den Computer beschrieben. Dabei kann aus technischer Sicht zwischen regelbasierten sowie machine learning basiertem NLP unterschieden werden, wobei machine learning basiertes NLP mit großen Datenmengen lernt.⁴

Rn826

Beim „Machine learning“ (ML) wird mit Hilfe von Trainingsdaten ein Modell erstellt, das möglichst zuverlässige statistische Vorhersagen treffen kann, wenn der ML-Anwendung andere Daten als die Trainingsdaten zur Verfügung gestellt werden.⁵

Rn827

„Large Language Models“ (LLMs) sind Modelle, die mit dem Ziel, Elemente des Textes selbst vorherzusagen, mit großen Datenmengen in Form von Texten „vortrainiert“ werden (Pretraining).⁶

Rn828

„Neuronale Netze“ simulieren die Funktionsweise des menschlichen Gehirns, welches aus mehreren Milliarden Neuronen besteht, die über komplexe Strukturen miteinander verbunden sind und so Informationen aufnehmen und verarbeiten können.⁷

Rn829

Beim „Deep Learning“ (DL) wird mit „tiefen“ neuronalen Netzen, also technischen, softwarebasierten Netzen, die aus sehr vielen Schichten bestehen, gearbeitet.⁸ Von Schicht zu Schicht lernt die KI immer komplexere Strukturen.⁹ Dabei benötigt die KI mit steigender Komplexität immer mehr Trainingsdaten.¹⁰

Rn830

3. Problemstellung: Erfordernis von Trainingsdaten für die KI

Während die vorangestellten Definitionen klar vor Augen führen, dass es für eine wirksame KI immer erst eines Trainings mit großen Datenmengen bedarf, ist die Erwartungshaltung an KI in der Praxis eine andere: Unmittelbar nach Eingabe soll die KI die Lösung für ein spezifisches Problem geben – idealerweise ohne Aufwand wie zum Beispiel Trainingszeit. Es ist gut denkbar, dass KI in der Zukunft auch genau das leisten können wird. Aktuell muss die KI jedoch erst noch befähigt werden, qualitativ gutes Wissen aufzubauen, um daraus mit eigener Transferleistung rechtssichere Ergebnisse zu schaffen.

Rn831

3.1. Entwicklung von automatisierten KI-Lösungen

Aus unserer Sicht wird aktuell, wenn der Begriff KI verwendet wird, oft eher von regelbasierter Automatisierung gesprochen. Automatisierte Lösungen haben in einigen Bereichen bereits erhebliche Erleichterungen und schnellere Rechtsprüfungen ermöglicht, wie z.B. bei flightright. Die Ausweitung auf weitere und komplexere Einsatzgebiete scheiterte in der Vergangenheit vor allem daran, dass das Recht stark durch auslegungsbedürftige Rechtsbegriffe sowie Ermessenspielräume geprägt ist.¹¹ Wie unbestimmte Rechtsbegriffe auszulegen und Ermessensspielräume auszufüllen sind, lernen Juristen in der Ausbildung unter Heranziehung juristischer Kommentare und der Rechtsprechung. Sie nutzen dabei also natürliche, nicht maschinenlesbare Sprache, was für Softwaretools – im Gegensatz zur Prüfung einfacher Baumstrukturen – lange Zeit so nicht möglich war. Technische Fortschritte der letzten Jahre haben aber die Entwicklung von NLP, insbesondere LLM, möglich gemacht, die bereits beachtliche Ergebnisse im Bereich der Sprachinterpretation und -verarbeitung erzielen; so können LLM inzwischen auf einem riesigen Textkorpus (oft aus dem Internet) vortrainiert werden.¹² Mit dieser Entwicklung ergeben sich erhebliche Chancen, Tätigkeiten im Rechtsbereich effizienter zu gestalten und dabei immer komplexer werdende rechtliche Prüfungen von einer KI durchführen zu lassen.

Rn832

3.2. Training mit (kuratierten) Daten

Kritiker weisen darauf zwar hin, dass die KI noch viel zu oft falsche Ergebnisse ausgibt, weshalb sie nur sehr eingeschränkt im Rahmen einer zuverlässigen Rechtsberatung einsetzbar sei. Doch wird dabei verkannt, dass die Ursache von Fehlern oder Halluzinationen oft darin liegt, dass die KI nicht die benötigten Informationen zur Verfügung hatte oder falsche Informationen verwendet hat.

Rn833

Der sinnvolle Einsatz von KI erfordert (noch) ein Training mit kuratierten Daten. Durch den Zugriff auf eine Datenbank mit bereinigten und verifizierten Daten lässt sich der statistische Ansatz der LLM um einen wissensbasierten Ansatz¹³ ergänzen. Für gute KI-Lösungen braucht es demnach vor allem eins: korrekte (Trainings-) Daten. Deutlich wird das am Beispiel des autonomen Fahrens. Hier wird zunächst eine Vielzahl an Bildern menschlich ausgewertet und dann in einer Datenbank aufbereitet. Nur so ist es der KI im Rahmen der Fahrzeugsensorik möglich, ein Objekt nicht nur zu detektieren, sondern korrekt zu interpretieren, z.B. als Kind, Hund oder Baum.

Rn834

3.3. Arbeitsfelder für KI

Im Arbeitsalltag von Juristen bietet KI dort besonders große Chancen, wo Juristen mit vielen Daten konfrontiert sind, z.B. im Bereich Mergers & Acquisitions. Hier sind ML-Lösungen in der juristischen Praxis bereits angekommen. Die diversen Anbieter der Softwaretools bieten ihren Kunden u.a. die Möglichkeit, große Mengen von Daten im Data Room gezielt nach Begriffen zu durchsuchen und prüfungsrelevante Umfänge zu identifizieren. So wird das Finden von relevanten Prüfungsthemen (wie zum Beispiel: „In welchen Verträgen wurde eine unbeschränkte Haftung vereinbart?“) deutlich vereinfacht.

Rn835

Ein anderes, weniger bekanntes, aber zunehmend relevantes Rechtsgebiet, in dem Juristen mit großen Datenmengen konfrontiert sind, ist die Rechtsberatung im Bereich Open Source Software (OSS). Das Open Source-Recht ist besonders stark technisch geprägt und Juristen daher oft initial fremd. Hier zeigt sich, wie KI-basierte Ansätze Juristen helfen können, Urheberrechtsverletzungen zu vermeiden.

Rn836

4. Praxisbeispiel: KI als juristischer Helfer im Open Source-Recht

Die Bedeutung von OSS in der Softwareentwicklung nimmt seit Jahren stetig zu. OSS ist u.a. dadurch gekennzeichnet, dass der Quellcode allgemein zugänglich ist und z.B. verwendet oder verändert werden kann. Diese Allgemeinverfügbarkeit macht OSS für Softwareentwickler so beliebt, und es gibt heute kaum noch Software bzw. elektronische Geräte, die keine OSS-Bestandteile enthalten. Die Nutzung von OSS ist jedoch kein rechtsfreier Raum; wer OSS verwendet, muss sich an die vorgegebenen Lizenzbedingungen halten. Ein Verstoß gegen Lizenzpflichten birgt die Gefahr

der Strafbarkeit nach § 106 UrhG,
von verschuldensunabhängigen Auskunftsansprüchen, §§ 101, 101a UrhG,
von verschuldensunabhängigen Rückruf-, Vernichtungs- und Herausgabeansprüchen, § 98 UrhG,
von verschuldensunabhängigen Beseitigungs- und Unterlassungsansprüchen, § 97 Abs. 1 UrhG und
eines verschuldensabhängigen Schadensersatzanspruchs nach § 97 Abs. 2 UrhG.

Rn837

Darüber hinaus kann eine unzureichende Compliance-Organisation dann, wenn ein betriebsbezogener Rechtsverstoß vorliegt, eine Haftung des Unternehmens bzw. des Managements auslösen (§§ 30, 130 OWiG).

Rn838

Ein guter OSS Compliance-Prozess ist demnach unabdingbar für Nutzer, insbesondere in Unternehmen. Typischerweise bereitet jedoch die Menge an eingesetzter OSS mit ihren Verschachtelungen und damit schon die Sachverhaltserfassung und -aufbereitung erhebliche praktische Schwierigkeiten.

Rn839

4.1. Das Problem der Daten im Open Source Compliance-Prozess

Bevor mit der juristischen Prüfung überhaupt begonnen werden kann, müssen die Lizenzinformationen für jede Software-Komponente und ihre Unterkomponenten – das können bei einer OSS hunderte sein, oftmals sogar mehr – identifiziert und geeignet zusammengestellt werden. Hierzu wird der Source Code der OSS-Komponenten in zeit- und kostenintensiven Prozessen technisch gescannt. Im Idealfall wird vor dem Scannen von den Softwareentwicklern eine sog. „cleared code base“ geschaffen. Dabei handelt es sich um eine Zusammenstellung der OSS-Komponenten, die tatsächlich in der weitergegebenen Software enthalten sind. Andernfalls besteht das Risiko, dass nach dem Scan auch noch Lizenzen von Software-Komponenten juristisch aufwändig geprüft werden, obwohl sie in dem fertigen Softwareprodukt nicht enthalten sind.¹⁴

Rn840

Ist der Source Code gescannt, muss das Scanergebnis in der Regel manuell bearbeitet (kuratiert) werden, wenn z.B. Implausibilitäten auffallen oder prüfungsrelevante Informationen sich als falsch herausstellen. Häufig fehlen auch relevante OSS-Lizenzinformationen, z.B. solche über einzelne Software-Unterkomponenten. Dann müssen OSS-Lizenzinformationen recherchiert werden, was zeitintensiv und risikobehaftet ist. Grundlegende Probleme bei der Daten- und Sachverhaltsaufbereitung ergeben sich dabei zum einen daraus, dass Mitarbeitenden (Juristen ebenso wie Nicht-Juristen) initial die spezifischen Fachkenntnisse fehlen, welche Lizenzinformationen gesucht werden müssen und woher diese bezogen werden könnten. Darüber hinaus müssen Rechtsabteilungen feststellen, ob die vorgelegten Informationen korrekt und vollständig sind.

Rn841

Wegen dieser Schwierigkeiten versuchen sich Unternehmen in der Praxis zu exkulpieren, indem der Lieferant vertraglich eine Haftungsübernahme erklären und zusichern muss, dass die Software „frei von Rechten Dritter“ ist oder dass durch einen OSS Compliance-Prozess gewährleistet ist, dass sämtliche Lizenzpflichten eingehalten werden. Doch solche Zusicherungen sind nicht ausreichend, um den Prüfungs- und Erkundigungspflichten gerecht zu werden, welche die Rechtsprechung dem Lizenznehmer auferlegt.¹⁵ Es genügt gerade nicht, sich auf die Zusicherung des Lieferanten zu verlassen.¹⁶ Wer OSS nutzt, muss sich eigenständig versichern, dass er zur Nutzung des urheberrechtlich geschützten Werkes berechtigt ist.¹⁷

Rn842

Unternehmen werden daher für jede von ihnen verwendete Software (inkl. der von Dritten lizenzierten Software) mit einer enormen Masse an Daten konfrontiert, die sie recherchieren und kuratieren müssen, um sicherzustellen, dass die OSS-Lizenzbedingungen eingehalten werden. Dies alles in einem manuellen Prozess sicherzustellen, ist zeit- und kostenaufwändig und im Zweifel ein Haftungsrisiko bei Qualitätsmängeln im Rahmen der Datenkuratierung. Da die Stärke von KI gerade das schnelle, effiziente und umfassende Durchsuchen von großen Informationsmengen im Hinblick auf bestimmte Muster oder Unregelmäßigkeiten ist,¹⁸ kommt man kaum umhin, die Lösung des Problems in dem Einsatz von KI zu suchen.

Rn843

4.2. KI als Lösung des Problems und die Bedeutung von Trainingsdaten

Das Zielbild lässt sich in einem Satz beschreiben: Eine KI erledigt die Open Source Compliance (insbesondere die Datenkuratierung) vollständig autonom. Sie findet die sachverhaltsrelevanten (Lizenz-) Informationen (z.B. in vertrauenswürdigen Datenbanken), stellt sie geeignet zusammen, übernimmt die juristische Prüfung und übermittelt das Ergebnis an den Nutzer der OSS-Komponenten.

Rn844

Zumindest aktuell scheint es eine solche one-fits-all Softwarelösung noch nicht zu geben. Es ist jedoch möglich, KI entsprechend zu befähigen. Der Schlüssel dazu ist das Vorhandensein eines einheitlichen Standards kuratierter Daten. Das erfordert, dass sich Juristen darauf verständigen, welche OSS-Lizenzinformationen erfasst werden müssen, um eine vollständige juristische Prüfung de lege artis durchführen zu können. Wenn wir über KI und ihre Daten sprechen, ist daher aus unserer Sicht das Schaffen eines vertrauenswürdigen und anerkannten Daten-Standards ein Katalysator für die Nutzung von KI-basierten Lösungen. Erfreulich ist, dass es dafür bereits Ansätze gibt. Wir finden Ansätze für eine Kuratierungsdatenbank umgesetzt - und das sei auch nur exemplarisch genannt – bei clearly defined¹⁹ oder OSSelot²⁰. Insbesondere OSSelot überzeugt unserer Ansicht nach durch die Vertrauenswürdigkeit der Datenqualität aufgrund eines einheitlich und konsequent umgesetzten Reviewregimes. Datenkuratierung nach einheitlichen Standards erleichtert die Einführung von weitreichenden KI-basierten Funktionen.

Rn845

4.3. Haftung bei Einsatz von KI

Zu berücksichtigen ist, dass KI letztlich eine Wahrscheinlichkeitsrechnung bzw. Ähnlichkeitssuche durchführt. D.h., wenn die KI eine Datenbank nach Daten durchsucht, um z.B. lückenhafte Scanergebnisse oder OSS-Lizenzinformationen zu vervollständigen, fragt sie, welche der in der Datenbank hinterlegten Lizenzinformationen am wahrscheinlichsten die im Scanergebnis fehlenden sind.

Rn846

Gerade in Bezug auf eine mögliche Haftung bei KI-Lösungen besteht die Schwierigkeit darin, nachzuvollziehen, wie und wo es zu einem Fehler kam. In der sog. Explainable AI wird aktuell erforscht, wie KI-Systeme ihre Entscheidung dem Benutzer erklären können, so dass sich auch klären lässt, wieso die KI gerade zu diesem Ergebnis kam. ²¹

Rn847

Es ist bereits jetzt möglich, bei neuronalen Netzen kleinere (Zwischen-) Knoten einzubauen. Hierdurch kann die Fehlerquelle zumindest auf einen kleineren Bereich eingegrenzt werden. Eine andere Möglichkeit ist die Methode des decision trees. Hier erstellt die KI aus Daten einen Entscheidungsbaum. Innerhalb dieses Entscheidungsbaums ist nachvollziehbar, aufgrund welchen Inputparameters die KI zu welchem Ergebnis kam – oder bildlich gesprochen, welchem Ast die KI den jeweiligen Input zugeordnet hat. Damit kann auch nachvollzogen werden, wo die Fehlerursache zu verorten ist.

Rn848

Doch klar ist, dass die KI – wie der Jurist auch – nur dann fehlerfrei arbeiten kann, wenn die Eingangsinformationen korrekt sind. Die für Juristen entscheidende Frage ist, ob bei Verwendung der KI bzw. der zugrunde gelegten Datenquelle der erforderliche Sorgfaltsmaßstab eingehalten wird. Absicherung kann erreicht werden, wenn

die Datenquelle, z.B. eine OSS-Datenbank, einen strengen Maßstab anlegt, welche Lizenzinformationen nach den jeweiligen OSS-Lizenzbedingungen verpflichtend anzugeben sind,
ein Prüfmechanismus implementiert ist, der sicherstellt, dass die eingestellten Lizenzinformationen, bevor diese in der Datenbank veröffentlicht werden, korrekt sind, und
manuelle Stichproben durchgeführt werden.

Rn849

5. Fazit

KI bietet viele Chancen, insbesondere im juristischen Tätigkeitsbereich. Sie kann vor allem bei zeitintensiven, repetitiven und weniger juristisch geprägten Tätigkeiten entlasten, und das ermüdungsfrei und unter Vermeidung von menschlichen Fehlern. Um das zu tun, braucht es eine valide und vertrauenswürdige Datenbasis. Im Diskurs über KI–basierte Methoden sollten wir den Fokus daher auf die Trainingsdaten und das Schaffen von Mindeststandards bei Daten legen, um schneller zu mehr KI–basierten Funktionen zu gelangen. Denn die einer KI zugrundeliegenden Daten sind der Schlüssel für den Erfolg KI–basierter Lösungen.

Rn850