Künstliche Intelligenz und Large Language Models in der Rechtsprechung

Zitiervorschlag: Mielke/Wolff, LRZ 2023, Rn. 560, [●], www.lrz.legal/2023Rn560.

Permanente Kurz-URL: LRZ.legal/2023Rn560

In jüngster Zeit wird vermehrt über den Einsatz von Large Language Models wie ChatGPT in der Rechtsprechung nachgedacht. Der vorliegende Beitrag erläutert mögliche und bereits praktizierte Einsatzbeispiele dieser und anderer KI-Anwendungen und hinterfragt deren Potenzial in der Justiz.

Inhaltsverzeichnis

1. Einführung

Seit längerem wird über den Einsatz von Künstlicher Intelligenz (KI) in der Rechtsprechung nachgedacht, über die möglichen Anwendungsfälle, über rechtliche Implikationen, bis hin zur Frage, ob und inwiefern dies rechtspolitisch gewollt und ethisch verantwortbar ist. Erste Beispiele zur Unterstützung der Richter:innen sind bereits verwirklicht und tragen Frauennamen wie FRAUKE und OLGA. Die Entwicklung von ChatGPT hat diese Überlegungen forciert. Nachfolgend gehen wir zunächst allgemein auf das Konzept Künstlicher Intelligenz und seine Varianten ein (unter 2.), erläutern ChatGPT als bekannte Anwendung großer Sprachmodelle (unter 3.), bevor wir die Nutzung von KI im Rechtswesen (unter 4.) und die aktuelle Diskussion um die Potentiale von Large Language Models wie ChatGPT in der Justiz thematisieren (unter 5.). Ergänzend folgt ein kurzer Blick auf die anwaltliche Perspektive zu diesem Thema (unter 6.).¹

Rn560

2. Was ist KI?

Der (englische) Begriff artificial intelligence (AI) geht auf John McCarthy zurück, der ihn 1955 in einem Förderantrag für eine 1956 stattfindende Konferenz erstmals verwendete und wie folgt umschrieb: „For the present purpose the artificial intelligence problem is taken to be that of making a machine behave in ways that would be called intelligent if a human were so behaving.“²

Rn561

Auch wenn es keine einheitliche Definition von KI gibt, erfolgt häufig eine Unterscheidung zwischen den sog. logik- und wissensbasierten Expertensystemen, oftmals als „klassische“ oder „good old-fashioned AI“ (GOFAI) bezeichnet, und den Verfahren des maschinellen Lernens einschließlich deep learning mit Hilfe neuronaler Netze.³

Rn562

Abzugrenzen ist KI von dem Begriff Legal Tech. Nicht alles, was zu Legal Tech zu zählen ist, ist auch KI. Umgekehrt ist der Einsatz von KI im Rechtswesen als Teilgebiet von Legal Tech anzusehen. Unter Legal Tech fällt beispielsweise die reine Automatisierung ohne den Einsatz von Methoden der KI oder die Nutzung anderer digitaler Möglichkeiten, z.B. zur Strukturierung des Parteivortrags.⁴ Da weder der Begriff Legal Tech noch der Begriff KI einheitlich definiert sind, ist die Auseinandersetzung mit diesen Konzepten mitunter schwierig.

Rn563

2.1. Wissensbasierte Systeme

In den 1960er / 1970er Jahre standen in der KI-Forschung logikbasierte Expertensysteme, die mit explizitem formalisiertem Wissen aufgebaut wurden, im Vordergrund. In solchen Systemen wird u.a. über Regeln menschliches Wissen (Zusammenhänge in der Welt) für Computer verständlich dargestellt (Wissensbasis). Neben der Wissenserwerbskomponente für Aufbau und Verbesserung der Wissensbasis besteht eine Problemlösungs- und eine Erklärungskomponente.⁵ Die Systeme benötigen manuell eingegebenes Wissen sowie Wenn-dann-Regeln, die für eine Anfrage automatisiert genutzt und kombiniert werden. Da es sich als schwierig herausgestellt hat, größere Wissensbasen widerspruchsfrei zu erweitern, hat sich auch die Skalierbarkeit solcher Systeme als enttäuschend erwiesen. Ende der 1980er setzte daher der (zweite) KI-Winter ein.^⁶ Beachten sollte man dabei, dass praktisch jedes Computerprogramm über einfache Formen von Wissen verfügt, wenn z.B. Regeln implementiert sind, bei denen auf der Basis einer Werteabfrage eine Entscheidung in die eine oder andere Richtung erfolgt (Steuerung des Kontrollflusses eines Programms). Dies ist nicht als KI zu werten.

Rn564

2.2. Maschinelles Lernen, Deep Learning

Maschinelles Lernen ist der Oberbegriff für die „künstliche“ Generierung von „Wissen“ aus Erfahrung: Ein System lernt aus Beispielen und kann sie nach Beendigung der Lernphase verallgemeinern. Das heißt, es werden nicht Beispiele auswendig gelernt, sondern das System „erkennt“ Muster und Gesetzmäßigkeiten in den Lerndaten. Deep Learning (deutsch: mehrschichtiges Lernen, tiefes Lernenoder tiefgehendes Lernen) bezeichnet eine Methode des maschinellen Lernens, die große künstliche neuronale Netze (KNN) mit zahlreichen Zwischenschichten (englisch hidden layers) einsetzt und dadurch eine umfangreiche innere Struktur herausbildet (siehe auch unten).⁷ Gegenüber den schon länger untersuchten Formen neuronaler Netzwerke zeichnen sich die Deep Learning-Verfahren durch größere Komplexität und neue Aufbauvarianten aus. Diese Verfahren zeigen vor allem Erfolge bei der Objekterkennung in Bildern sowie im Bereich der automatischen Sprachverarbeitung (maschinelle Übersetzung, Textgenerierung). Letzteres ist für das textlastige Rechtswesen naturgemäß besonders relevant.⁸

Rn565

Eine Herausforderung ist, dass für ein erfolgreiches Training sehr große Datenmengen erforderlich sind. Ändert sich die Datengrundlage, ist zudem erneutes bzw. weiteres Training notwendig. Probleme stellen die Nachvollziehbarkeit, die gerade für den juristischen Kontext nachteilig ist, sowie Verzerrungen in den Daten (data bias⁹) dar, die zu fehlerhaften Ergebnissen führen können. Daneben besteht eine Anfälligkeit für Falschberechnungen: „Künstliche Intelligenzen machen die absurdesten Klassifikationsfehler. Wenn man mit diesen Fehlern weiterrechnet, entsteht noch mehr Unsinn.“¹⁰

Rn566

3. Was ist ChatGPT?

Seit Veröffentlichung des KI-ChatBots ChatGPT durch OpenAI Ende November 2022 hat die gesellschaftliche Debatte zur Leistungsfähigkeit dieses Systems und „intelligenter“ Systeme im Allgemeinen dramatisch an Fahrt aufgenommen. Was zuvor vor allem in Fachkreisen diskutiert wurde – das Sprachmodell GPT 3, auf dem ChatGPT beruht, wurde bereits Mitte 2020 veröffentlicht¹¹ – hat nun einen breiten gesellschaftlichen Diskurs angefacht, der neben den hier betrachteten Fragen des Rechtswesens viele weitere gesellschaftliche Bereiche berührt wie z.B. Fragen der Arbeitsmarktentwicklung¹² oder Fragen des Bildungssystems und des Hochschulwesens¹³. Zahlreiche führende KI-Forscher (u.a. die Turing-Preisträger Geoffrey Hinton und Joshua Bengio) und IT-Unternehmer (u.a. Sam Altman, OpenAI, Bill Gates, Microsoft) haben kürzlich einen öffentlichen Appell unterzeichnet, in dem dazu aufgerufen wird, Gefahren durch KI ernst zu nehmen.¹⁴ Dies hat am 12.6.2023 UN-Generalsekretär Guterres zum Anlass genommen, auf die Risiken von KI hinzuweisen und eine internationale Regulierungsbehörde nach dem Vorbild der Internationalen Atomenergie-Organisation (IAEO) zu fordern.¹⁵

Rn567

3.1. Entwicklung künstlicher neuronaler Netze seit fast 80 Jahren

Künstliche neuronale Netze entstehen bereits seit knapp achtzig Jahren, sie sind damit ähnlich alt wie die moderne Informationstechnik. Auch die jüngsten Entwicklungen (GPT, ChatGPT) sind als eher evolutionär zu werten, da sie auf Konzepten zur strukturellen Weiterentwicklung künstlicher neuronaler Netze aus den 1990er Jahren sowie auf verbesserten Rechenmöglichkeiten der Hardware (GPUs, Parallelisierung) aufbauen: Bekannte Weiterentwicklungen der Architekturen künstlicher neuronaler Netze umfassen Convolutional Neural Networks (CNN, Faltungsnetzwerke), Recurrent Neural Networks (RNN, rekurrente neuronale Netze) und Long Short-Term Memory-Netze (LSTM, Netze mit lokalem Speicher bzw. „Gedächtnis“, um z.B. sprachliche Abhängigkeiten über große Distanzen verarbeiten zu können) ¹⁶.

Rn568

3.2. Vom Deep Learning zu den heutigen großen Sprachmodellen (Large Language Models, LLM)

Aufbauend auf der Entstehung der Deep Learning-Verfahren, die in den 1990er Jahren begann, setzt seit etwa zehn Jahren die Entwicklung der aktuellen großen Sprachmodelle ein. Diese erfolgte grob in den folgenden Schritten:

Mit dem Konzept der Worteinbettungen (word embeddings) ist es gelungen, den inhaltlichen bzw. semantischen Kontext von Wörtern in ihrem konkreten Textumfeld besser zu erfassen und für das maschinelle Lernen einzusetzen.¹⁷
Die Transformer-Architektur, die konzeptuell ein Zusammenspiel zwischen einer Kodierungs- und einer Dekodierungseinheit vorsieht,¹⁸ hat sich als besonders geeignet für die Verarbeitung sprachlicher Daten herausgestellt.
Mit der Idee eines „Aufmerksamkeits-Mechanismus“ („attention is all you need“)¹⁹ konnte zusammen mit der Transformer-Architektur das zugrundeliegende Netzwerkkonzept vereinfacht und damit die Skalierbarkeit deutlich verbessert werden.
Erst auf dieser Basis wurden Modelle möglich, die mit praktisch jedem verfügbaren Text vortrainiert (pretrained) werden konnten; letztlich ein äußerst leistungsfähiges Verfahren des nicht-überwachten maschinellen Lernens (unsupervised machine learning), das für das Vortraining im Verhältnis zur verarbeiteten Datenmenge vergleichsweise wenig menschliches Wissen und menschliche Intervention benötigt. Durch die extrem große Menge an vortrainiertem Material können derartige Sprachmodelle sinnvolle Antworten auf eine breite Vielfalt von Fragestellungen liefern, ohne gezielt nachtrainiert zu werden („zero-shot learning“).²⁰
Weitere Trainingsläufe kalibrieren das Modell nach der Methode des bestärkenden Lernens (reinforcement learning²¹). Dabei erfolgen anfangs Bewertungen durch Menschen, während in späteren Phasen das System sich durch ein Belohnungsmodell selbst optimiert.
Da die verwendete Menge an Trainingstext deutlich schneller wächst als neuer von Menschen geschriebener Text hinzukommt, wird bereits eine Datenkrise für die kommenden Jahre vorhergesagt.²² lassen sich die Modelle allerdings mit selbsterzeugtem Text weitertrainieren („Textinzest“²³).

Rn569

Auch wenn sich die aktuelle Diskussion auf ChatGPT mit seiner leicht zugänglichen Dialogfunktion (Chatbot) konzentriert, ist darauf hinzuweisen, dass in den letzten Jahren eine große Vielfalt vergleichbarer Modelle mit unterschiedlichen Schwerpunkten und Eigenschaften entwickelt wurde. Praktisch alle großen Tech-Konzerne beteiligen sich daran, es gibt zudem mittelständische Unternehmen, u.a. in Deutschland, die auf diesem Gebiet erfolgreich arbeiten, z.B. der Übersetzungsdienst DeepL (deepl.com/de/translator). Zudem liegen Modelle vor, die offen verfügbar sind und nach dem open source-Prinzip entwickelt werden.²⁴

Rn570

3.3. Wesentliche Merkmale der aktuellen großen Sprachmodelle

LLMs beruhen auf statistischen Verfahren; die Trainingsergebnisse lassen sich nicht ohne weiteres erklären; es erfolgt keine explizite Wissensrepräsentation.²⁵ Die bekannteste Modellserie GPT (generative pretrained transformer – vortrainiertes generatives Transformermodell) wird von der US-Firma OpenAI entwickelt, an der mittlerweile Microsoft maßgeblich beteiligt ist.²⁶ Die derzeit größten Trainingsläufe erfolgten mit substanziellen Teilen des World Wide Web und seinen Inhalten (z.B. Wikipedia) sowie mit den verfügbaren Sammlungen elektronischer Texte.²⁷ Für die neuesten Varianten (GPT-4 mit einer erneuten Größensteigerung auf mehrere Billionen Knoten im Modell) wurden Informationen zum Training allerdings nicht mehr offengelegt.²⁸

Rn571

Die Trainingszyklen der aktuellen großen Modelle sind lang (bis zu sechs Monate) und kostspielig, die Kosten für einzelne Trainingsläufe können mehrere Millionen Euro betragen; der Betrieb des Systems soll pro Tag mehrere 100.000 Euro kosten.²⁹ Bei der Vorbereitung der Modelle auf den Dialog mit Menschen und den dabei auftretenden Fragestellungen bzw. bei der Nachbearbeitung der Trainingsergebnisse kommt in erheblichem Umfang menschliches Wissen zum Einsatz.³⁰ Verfahren, die aktuellen sehr großen Transformer-Modelle mit kleinen Datenbeständen nachzutrainieren, stehen noch am Anfang.³¹ Sie bieten aber interessante Perspektiven, allgemein trainierte Modelle auf bestimmte Wissensfelder oder Dokumenttypen anzupassen.

Rn572

Die Modelle haben kein explizites Wissensmodell; sie wissen nichts und sie verstehen nichts. Sie sind aber in der Lage, plausible und sprachlich korrekte Texte zu produzieren, weil es ihnen gelingt, für zunehmend lange Texte die wahrscheinlichsten oder besten Nachfolger eines Wortes vorherzusagen bzw. auszuwählen. Es treten vielfältige Arten von Fehlern auf: Die Modelle „halluzinieren“, d.h. sie erfinden Fakten wie z.B. nicht existente wissenschaftliche Quellen oder sie reproduzieren Texte, mit denen sie trainiert wurden (oder auch die Eingaben (Prompts)), in nahezu identischer Form („regurgitation“ – „Auskotzen“). Beides wirft datenschutz- und urheberrechtliche Fragen auf. Aktuelle Studien legen nahe, dass komplexe Aufgaben (z.B. das Multiplizieren von Zahlen) nur dann von großen Sprachmodellen wie ChatGPT gelöst werden können, wenn die richtigen Antworten Teil des Trainingsmaterials gewesen sind. Mit anderen Worten: Eine Möglichkeit zum eigenständigen „Nachdenken“ (reasoning) haben die Modelle nicht. Dies beschränkt ihre Möglichkeiten grundsätzlich.³²

Rn573

Weitere Beispiele für die Anwendung aktueller großer Sprachmodelle können Systeme sein, die komplexe Arbeitsprozesse automatisieren (Workflow Automatisation). Neben der automatisierten Generierung von Texten könnte für unterschiedliche Arten von Tätigkeiten Unterstützung bei eher repetitiven Arbeitsformen entstehen.

Rn574

4. Künstliche Intelligenz im Rechtswesen

Nachdem im juristischen Kontext – entsprechend der allgemeinen Entwicklung zur künstlichen Intelligenz – zunächst logik- und wissensbasierte Expertensysteme im Fokus der Aufmerksamkeit standen (vgl. etwa das Projekt LEX aus den 1980er Jahren³³), die an den oben genannten Problemen scheiterten, setzt man nunmehr vor allem auf den Einsatz von Methoden des maschinellen Lernens.

Rn575

Die Analyse großer Datenmengen ist dabei ein wichtiges praktisches Einsatzfeld, etwa in Wirtschaftsstrafsachen, wenn große Datenbestände beschlagnahmt werden und eine computerunterstützte Auswertung erfolgen soll. Solche Systeme sind bereits im Einsatz, z.B. bei der Zentralen Staatsanwaltschaft zur Verfolgung von Wirtschaftsstrafsachen und Korruption in Wien. Sie können u.a. verschiedene Dokumenttypen, wie Rechnungen, Protokolle von Vorstandsitzungen etc. erkennen und ausfiltern oder verschiedene Schreibweisen des Datums, der Kontonummer oder des Firmennamens vereinheitlichen, nachdem sie vorher mit Methoden des maschinellen Lernens darauf trainiert wurden.³⁴

Rn576

Maschinelle Lernverfahren kommen auch bei den Programmen OLGA³⁵ und FRAUKE³⁶ zum Einsatz. Mit OLGA werden beim OLG Stuttgart die angefochtenen erstinstanzlichen Urteile sowie Berufungsbegründungen und -erwiderungen der anhängigen Dieselverfahren im Hinblick auf die Parameter analysiert, nach denen die entscheidenden Richter Fallgruppen bilden (z.B. Motortyp, Abgasnorm, Rückrufbetroffenheit). So können die Verfahren sortiert werden, um gleich gelagerte Fälle gemeinsam bearbeiten zu können.³⁷ FRAUKE, das am Amtsgericht Frankfurt a.M. zur Bewältigung der Verfahren zu den Fluggastrechten entwickelt wurde, extrahiert aus den Schriftsätzen automatisch relevante Falldaten (Start- und Zielflughafen, Flugentfernung), um lästige copy- und paste-Arbeiten zu vermeiden. Die Analyse erfolgt dabei aufgrund eines vortrainierten Basismodells und einer weiteren Anpassung an den speziellen Sprachgebrauch in diesen Verfahren. Bei beiden Systemen kommen Methoden des maschinellen Trainings zur Extraktion von Entitäten mittels der Watson-Technologie der Firma IBM zum Einsatz, also Verfahren, die zur KI gezählt werden können.³⁸ FRAUKE schlägt zudem regelbasiert passende Urteilsbausteine vor, nachdem die Richter ihre Entscheidung aufgrund des vorliegenden Sachverhalts getroffen haben (z.B. Klageabweisung aufgrund schlechter Wetterbedingungen). Nach der oben genannten Unterscheidung handelt es sich insofern aber nicht um KI, sondern um eine einfache regel- bzw. algorithmenbasierte Anwendung.

Rn577

Das Grundlagenpapier der Präsidentinnen und Präsidenten der Oberlandesgerichte, des Kammergerichts, des Bayerischen Obersten Landesgerichts und des Bundesgerichtshofs „Einsatz von KI und algorithmischen Systemen in der Justiz“ von 2022 listet im Anhang neben OLGA und FRAUKE alle Vorhaben der Justiz auf diesem Gebiet auf, etwa auch ein Pilotprojekt am LG Ingolstadt, das ebenfalls eine bessere Aufbereitung von Massenverfahren zum Ziel hat.³⁹ Aufgrund der Abgrenzungsschwierigkeiten zwischen „einfachen“ algorithmischen Systemen und KI-Systemen hat die Arbeitsgruppe bewusst entschieden, sich nicht auf KI-Anwendungen zu beschränken, sondern alle algorithmischen Systeme zu erfassen, die der Richterassistenz dienen.⁴⁰

Rn578

Ein an der Universität zu Köln unter der Leitung der Strafrechtlerin Frauke Rostalski durchgeführtes Projekt will mit Methoden des maschinellen Lernens strafzumessungsrelevante Informationen aus Urteilen ermitteln. Das Ziel ist, eine Datenbank mit den extrahierten Strafzumessungserwägungen und der jeweiligen Strafhöhe aufzubauen, um dadurch zur Transparenz hinsichtlich der bundesweit von den verschiedenen Gerichten verhängten Strafen beizutragen.⁴¹ Hintergrund ist ein seit Jahren beobachteter regionaler Unterschied in den Strafen bei vergleichbaren Fällen.⁴²

Rn579

Ein weiteres viel diskutiertes Einsatzgebiet von KI im juristischen Kontext ist der Bereich der Predictive Analytics. Dabei werden historische Daten herangezogen, um zukünftige Ereignisse vorherzusagen. Denkbar erscheinen Systeme zur Entscheidungsvorhersage oder zur Risikobewertung, z.B. Informationssysteme, die Fälle nach bestimmten Eigenschaften, der Rechtsprechung eines bestimmten Spruchkörpers oder zur Kriminalitätsprognose, etwa der Betrugswahrscheinlichkeit von Versicherungsfällen, auswerten. Ein Beispiel, das zur Vorhersage des Rückfallrisikos von Straftätern in den USA dient, ist das umstrittene Programm COMPAS.⁴³ Soweit Algorithmen dazu dienen sollen, Vorhersagen dazu zu machen, mit welcher Wahrscheinlichkeit eine bestimmte Gerichtsentscheidung zu erwarten ist, wird damit lediglich das Ergebnis einer richterlichen Entscheidung vorhergesagt, ohne die Argumentation in irgendeiner Form nachzuzeichnen. Solche Entscheidungsvorhersagesysteme stecken noch in den Kinderschuhen.⁴⁴ Ob sie jemals in der Breite möglich sind, ist fraglich – nicht nur aufgrund des Datenmangels im juristischen Kontext, da vergleichsweise wenige und fast nur obergerichtliche Entscheidungen veröffentlicht werden.⁴⁵ Um hier eine größere Datenbasis zu erhalten, wären Anonymisierungstools notwendig, die ebenfalls Gegenstand der Forschung zum Einsatz von KI im juristischen Kontext sind.⁴⁶

Rn580

Relativ klar ist nach derzeitiger Lage, dass ein Richterautomat, Entscheidungsroboter oder Robo-Richter, der eigenständig Gesetze auslegt, Sachverhalte subsumiert und Entscheidungen wertender Art trifft, technisch in weiter Ferne liegt, auch wenn er Gegenstand zahlreicher wissenschaftlicher Beiträge ist.⁴⁷ So hat sich beispielsweise ein von den wissenschaftlichen Diensten des Deutschen Bundestages⁴⁸ aufgelistetes angebliches Projekt in Estland, wonach bei Streitwerten von bis zu 7.000 Euro ohne menschliche Mitwirkung eine künstliche Intelligenz die Entscheidung träfe, als Falschmeldung herausgestellt: Auf Nachfrage teilte das estnische Justizministerium mit, dass es lediglich darum geht, ob Informations- und Kommunikationstechnologien zur Unterstützung der richterlichen Tätigkeit nutzbar gemacht werden können, dass die Entscheidung im Streitfall aber weiterhin ein Mensch trifft.⁴⁹

Rn581

5. Einsatz von ChatGPT im Rechtswesen

Seit der Veröffentlichung von ChatGPT durch OpenAI Ende 2022 stellen viele sich die Frage, ob sich durch die neuen Möglichkeiten von Sprachmodellen wie ChatGPT nunmehr eine Entwicklung zumindest in technischer Hinsicht in Richtung Robo-Richter abzeichnet. Dazu gibt es eine breite Diskussion. So hatte der Rechtsauschuss des Landtags Nordrhein-Westfalen am 22.3.2023 den Einsatz von ChatGPT im Justizbereich auf der Tagesordnung. Am 13.6.2023 erfolgte dazu eine Anhörung von Sachverständigen. Der entsprechende Bericht zur Sitzung des Rechtsausschusses sowie die vorbereitenden Stellungnahmen der Sachverständigen sind veröffentlicht.⁵⁰

Rn582

Übereinstimmend gehen die Stellungnahmen zunächst davon aus, dass ein den Richter ersetzender Einsatz von ChatGPT schon aus verfassungsrechtlichen Gründen nicht möglich ist.⁵¹ Lediglich als Assistenzsystem kämen LLMs wie ChatGPT bei gleichzeitiger Sicherstellung der richterlichen Unabhängigkeit in Frage.⁵² Die Stellungnahme des EDV-Gerichtstags hält es dabei sogar für unzulässig, „dass ein Richter oder eine Richterin ChatGPT eine für die Entscheidung eines Rechtsstreits relevante Rechtsfrage stellt und die Antwort dann in eine Entscheidung einfließen lässt.“ Die Berücksichtigung einer solchen Antwort berge, „auch wenn sie kritisch hinterfragt wird, die Gefahr einer unerwünschten Beeinflussung des Richters“.⁵³ Im Bericht des Ministeriums der Justiz des Landes Nordrhein-Westfalen vom 20.3.2023 an den Präsidenten des Landtags zum Tagesordnungspunkt „Einsatz von ChatGPT im Justizbereich“ heißt es ebenfalls unter Hinweis auf Intransparenz und mangelnde Nachvollziehbarkeit solcher Systeme: „Vor diesem Hintergrund lehnt das Ministerium der Justiz die Anwendung von ChatGPT im Justizdienst insgesamt ab“.⁵⁴

Rn583

5.1. Mögliche Einsatzszenarien

Als mögliche Einsatzszenarien werden von den Sachverständigen, die im Rechtsausschuss des Landtags Nordrhein-Westfalen angehört wurden, verschiedene Anwendungsgebiete genannt. Ein wichtiger Aspekt bezieht sich auf die große Stärke solcher Modelle, nämlich die Textgenerierung. Einsatzmöglichkeiten werden im Verfassen einfacher Schreiben gesehen wie Ladungen, Fristverlängerungen, Anforderungen von Akten, Streitwertfestsetzungen⁵⁵ oder Hilfe bei der Umsetzung richterlicher Verfügungen in Texte durch die Geschäftsstellen⁵⁶. Die Nutzung von ChatGPT für komplexere Dokumente, also Beschluss- und Urteilsentwürfe, wird aufgrund der Unzuverlässigkeit von Modellen wie ChatGPT (zumindest derzeit) abgelehnt.⁵⁷ Betont wird zudem, dass ChatGPT keine Suchmaschine ist und deshalb als Recherchewerkzeug ausscheidet.⁵⁸

Rn584

Denkbar erscheint den Sachverständigen, ChatGPT als Assistenz einzusetzen, etwa zur sprachlichen Glättung von Schreiben, die durch eine Zusammenstellung von Textbausteinen entstanden sind,⁵⁹ oder zum Verfassen von Texten aus Daten in strukturierter Form, beispielsweise im Bereich des Strafrechts bei Ladendiebstählen, geringfügiger Betäubungsmittel-Kriminalität oder einfachen Verkehrsdelikten⁶⁰.

Rn585

Ein sinnvoller Anwendungsbereich wird weiterhin in der Erschließung von Daten/Akten und Beweismitteln gesehen.⁶¹ Konkret wird an die Visualisierung von Sachverhalten⁶², die Extrahierung von Metadaten⁶³, die automatische Klassifizierung nach Dokumenttypen und automatisiert geordnete Akten⁶⁴, die tabellarische Aufarbeitung von Dokumentinhalten⁶⁵, das Erkennen von Zusammenhängen und das Erstellen von Textvergleichen⁶⁶ gedacht. Vorstellbar erscheint auch die Hilfestellung bei der Berechnung von Prozesskostenhilfe oder des Schmerzensgelds, ebenso ein automatisierter Fristenkalender.⁶⁷ Erwähnt wird immer wieder die Nutzung zur Anonymisierung⁶⁸ von Texten, die z.T. dem Bereich der einfachen Assistenzaufgaben zugeordnet wird.⁶⁹ Im Einzelnen wird allerdings nicht deutlich, ob diese funktionalen Zuschreibungen von ChatGPT auch tatsächlich erfüllt werden können.

Rn586

Ein weiterer Aspekt betrifft die Verbesserung der Barrierefreiheit bei der Justiz, etwa durch eine automatisierte Beschreibung von Bildern, die Generierung von Texten in einfacher Sprache oder die Übertragung des gesprochenen Worts in Gebärdensprache.⁷⁰ Auch könnte ChatGPT als Grundlage intelligenter Chatbots⁷¹ dienen. Projekte zur Entwicklung von Chatbots (ohne Nutzung von ChatGPT) bestehen bereits, z.B. zur Unterstützung der Rechtsantragsstelle.⁷²

Rn587

Ein interessanter Ansatz ist die geäußerte Vorstellung, Sprachmodelle zur Verringerung menschlicher Rationalitätsschwächen, wie kognitiver Verzerrungen und Denkfehler, einzusetzen oder auch als Risikoprognosewerkzeug⁷³. Möglich erscheint hier eine Unterstützung, indem ähnliche Urteile ausgegeben werden oder – ähnlich der Vorstellung des Projekts zur Erstellung einer Datenbank zur Strafzumessung – Vergleichsfälle zum Strafmaß. Dadurch könnten die Richter ihre juristische Argumentation mit denen der Vergleichsfälle abgleichen und so ggf. auf neue Argumente kommen oder die Entscheidung noch einmal überdenken.⁷⁴

Rn588

5.2. Gefahren / Herausforderungen beim Einsatz von Sprachmodellen wie ChatGPT

Zunächst wird von den Sachverständigen betont, dass datenschutzrechtliche Bedenken⁷⁵ einem direkten Einsatz von ChatGPT, etwa durch die Eingabe konkreter Verfahrensdaten, entgegenstehen. Zwar sei es zumindest bei der kostenpflichtigen Nutzung von ChatGPT möglich, die Verwendung der Eingaben für das weitere Training zu untersagen; es würde aber dennoch eine Datenverarbeitung von personenbezogenen Justizdaten durch OpenAI erfolgen, was nicht zulässig sei.⁷⁶ Die Nutzung für die hoheitliche Entscheidungsfindung sei zudem nach den Nutzungsbedingungen von ChatGPT in sensiblen Bereichen, z.B. im Strafrecht, sowie generell für die Rechtsberatung untersagt.⁷⁷

Rn589

Als Gefahren werden neben der Unzuverlässigkeit hinsichtlich der inhaltlichen Richtigkeit die mangelnde Nachvollziehbarkeit sowie die Intransparenz identifiziert,⁷⁸ wobei dies teilweise als unproblematisch angesehen wird, da ohnehin eine Überprüfung auf Richtigkeit erfolgen müsse.⁷⁹

Rn590

Auch die Abhängigkeit der Qualität und Nutzbarkeit eines generierten Textes von den Systemeingaben erscheint als Herausforderung. Da die Fähigkeit zur Erstellung guter Systemeingaben, der „Prompts“, zeitaufwendig ist und Erfahrung erfordert, sei es Richter:innen und Rechtspfleger:innen derzeit nicht zuzumuten, „Experten in der Prompt-basierten Bedienung von generativen Sprachmodellen zu werden, um die Vorteile dieser Technologie nutzen zu können“.⁸⁰ Sinnvoller sei es, dass für gängige Aufgaben eine „auf die Rechtspraxis zugeschnittene Software“ die Interaktion mit dem Sprachmodell übernehme, wie etwas das Produkt CoCounsel der amerikanischen Firma Casetext.⁸¹

Rn591

Von allen Sachverständigen wird der Automation Bias als Problempunkt herauskristallisiert, also die Befürchtung, dass die Anwender zu großes Vertrauen in die Ergebnisse des Systems haben und falsche Informationen als richtig akzeptieren könnten.⁸² Zur Eindämmung dieses Phänomens wird vorgeschlagen, die generierten Ausgaben ausdrücklich als „Assistenz“, „Unterstützung“ oder „unterstützende Information“ zu kennzeichnen; hilfreich könne auch ein spezielles Training mit dem System sein, das (absichtlich) eingebaute Fehler enthält.⁸³

Rn592

Die Hoffnung zur Vermeidung der Gefahren durch die Nutzung von ChatGPT liegt auf dem Aufbau eines Justiz-LLM.⁸⁴ Dadurch würden die datenschutzrechtlichen Probleme entschärft⁸⁵, zudem hätte man die Kontrolle über die Trainingsdaten, so dass Urheberrechtsverletzungen ebenso wie diskriminierende Inhalte in den Daten verhindert werden könnten.⁸⁶ Da bislang ChatGPT nicht auf die Anwendung des Rechts hin optimiert sei⁸⁷, könnte durch ein Finetuning auf das deutsche Recht⁸⁸ ein deutlich leistungsfähigeres customized large language model⁸⁹ entstehen. Zum einen könnte dies durch eine Beteiligung der Fachdatenbanken wie beck-online oder juris erfolgen oder durch den Aufbau eines justizeigenen LLM, vgl. auch das auf dem 2. Digitalgipfel am 25.5.2023 beschlossene Forschungsprojekt von Bayern und Nordrhein-Westfalen („Generatives Sprachmodell der Justiz“).⁹⁰

Rn593

5.3. Nutzen von ChatGPT in den vorgeschlagenen Einsatzszenarien

Hinsichtlich des möglichen Einsatzes von ChatGPT in den verschiedenen Szenarien stellt sich die Frage, wie hoch der Nutzen einzuschätzen ist. So wird von den Sachverständigen des Landtags Nordrhein-Westfalen die Frage aufgeworfen, inwieweit der Einsatz bei der Textgenerierung Vorteile gegenüber der heute üblichen Verwendung von Mustertexten oder Textbausteinen habe.⁹¹ Dies erscheint zumindest für Standardtexte in der Tat fraglich. Lediglich bei der Umsetzung von individuellen richterlichen Verfügungen durch die Geschäftsstellen oder bei der Textverbesserung ist hier ein Vorteil zu erwarten.

Rn594

Auch bei der Überführung strukturierter Daten in Text, etwa zur automatisierten Erstellung von Strafbefehlsanträgen durch die Staatsanwaltschaft, stellt sich die Frage nach dem Vorteil gegenüber einer regelbasierten Überführung der strukturierten Daten, wie Tatzeit, Tatort, Wert des gestohlenen Diebesgutes etc., die sich ebenfalls relativ einfach realisieren ließe. So bedarf es auch nach Biallaß einer genaueren wissenschaftlichen und praktischen Erprobung, in welchen Bereichen der Einsatz von LLM und in welchen Bereichen der Einsatz von regelbasierten Systemen und intelligenten Abfragemasken sinnvoller ist.⁹²

Rn595

Beim Einsatz von Sprachmodellen wie ChatGPT ist generell zu fragen, wie groß der Nutzen ist, wenn aufgrund der bekannten und modellbedingten inhaltlichen Unzuverlässigkeit jeweils eine genaue Überprüfung durch die handelnden Akteure notwendig ist. So führt Nink im Hinblick auf die Frage, ob im Kernbereich der richterlichen Tätigkeit ChatGPT von Nutzen ist, aus: „Insbesondere mit Blick auf eine mögliche Zeitersparnis und das Erfordernis der Nachprüfung der Quellen, aber auch der Antworten insgesamt, dürfte dies im Ergebnis zu verneinen sein.“⁹³

Rn596

In diesem Zusammenhang zitiert Grabmair den Informatiker Richard Socher, dass geeignete Nutzungsszenarien dann gegeben seien, wenn „es eine lange Zeit bräuchte um ein Artefakt zu erschaffen, jedoch sehr wenig Zeit um seine Korrektheit zu verifizieren“.⁹⁴

Rn597

6. Exkurs: Nutzung großer KI-Modelle bei Anwält:innen

Auch aus der Perspektive der Anwält:innen ist der Einsatz großer Sprachmodelle schnell aufgegriffen worden: Erste Legal Tech-Startups wie Justin-Legal⁹⁵ nutzen ChatGPT im Rahmen einer KI-basierten „Mandanten-Anamnese“, bei der potenzielle Klägerinnen oder Kläger auf einer browserbasierten Anwendung im Web strukturierte Angaben zu ihrem Fall machen können (insoweit dem elektronischen Basisdokument⁹⁶ nicht unähnlich). Die Firma JUPUS GmbH bietet einen Anwalts-Chatbot auf der Basis von GPT-4 an, mit dem die Mandantenakquise unterstützt werden kann.⁹⁷

Rn598

Für die aktive Nutzung von KI-ChatBots durch Anwält:innen hat der Anwalt und KI-Experte Tom Braegelmann Empfehlungen publiziert⁹⁸ und ist zu diesem Thema als Dozent etwa für Online-Schulungen aktiv.⁹⁹ Auch in der wissenschaftliche Literatur werden entsprechende Empfehlungen für ein erfolgreiches prompt engineering durch Anwält:innen entwickelt.¹⁰⁰ Dabei werden sehr konkrete Formulierungsempfehlungen für den Dialog mit Systemen wie ChatGPT gegeben, insbesondere zur sprachlichen und inhaltlichen Gestaltung der Prompts bzw. zu den unterschiedlichen denkbaren Aufgaben, Fragen und Recherchetypen.

Rn599

Die New Technologies Commission der European Bar Association hat im Juni 2023 Richtlinien und Empfehlungen zum Einsatz von KI-Werkzeugen durch Anwält:innen veröffentlicht.¹⁰¹ Die insgesamt sieben Empfehlungen sind recht allgemein gehalten: Sie empfehlen die Erarbeitung eines soliden Verständnisses für generative KI, das Anerkennen der Grenzen und des Kontextbezugs der Technologie, die Befolgung der geltenden Regeln für den Umgang mit KI, die Nutzung als Ergänzung eigener Rechtsexpertise, ohne sich zu sehr darauf zu verlassen, den Schutz des Verhältnisses zwischen Anwalt und Mandant, die Sicherung von Datenschutz und Privatheit sowie die Forderung nach Transparenz und Verantwortlichkeit z.B. in der Kommunikation mit Mandanten und der Aufklärung über die Nutzung von KI-Systemen.

Rn600

7. Fazit und Ausblick

Der Begriff KI wird nach wie vor sehr heterogen verwendet, und es findet nicht selten und gleichzeitig unzutreffend eine Gleichstellung von Automatisierung mit KI statt. Das erschwert die Kommunikation und führt zu Fehlvorstellungen. Auch angesichts der Möglichkeiten großer Sprachmodelle wie ChatGPT ist man von einer KI, die Richter:innen ersetzen könnte, technisch wie rechtlich weit entfernt. Es ist eine Utopie, zu meinen, dass KI-Entwicklungen schnell substanzielle Hilfe bei der richterlichen Arbeit ermöglichen könnten. Dies gelang bislang nur in kleineren Pilotprojekten mit eingeschränktem Anwendungsbereich und einer sehr hohen Anzahl vergleichsweise einfacher und ähnlich strukturierter Fälle (Dieselverfahren, Fluggastrechte).

Rn601

Der Einsatz von KI-Systemen hat dennoch erhebliches Potential zur Optimierung der Arbeit im Rechtswesen im Allgemeinen und der Justiz im Besonderen; allerdings ist die Entwicklung aufwändig. In diesem Zusammenhang können auch große Sprachmodelle mit ihren vielfältigen, sich sukzessive entwickelnden Anwendungsmöglichkeiten Verwendung finden. Neben der Generierung von Texten werden weitere Funktionalitäten, etwa die Befragung des Aktenbestands eines Prozesses, dann verfügbar werden, wenn es gelingt, solche Modelle entsprechend nachzutrainieren. Auch die Generierung von Anschreiben oder die Erstellung von Zusammenfassungen größere Textbestände erscheinen machbar.¹⁰²

Rn602