Claude im deutschen Recht: Wo das Modell brilliert, wo es scheitert – und warum die Marktarchitektur gerade neu verhandelt wird

In der Welt des maschinellen Lernens gibt es kaum ein Anwendungsfeld, das so hohe Anforderungen an semantische Präzision und logische Kohärenz stellt wie die Rechtswissenschaft. Während OpenAI mit GPT-5.5 am 23. April 2026 ein Modell vorgelegt hat, das auf Harveys eigenem BigLaw Bench mit 91,7 Prozent eine neue Bestmarke gesetzt hat, hat sich die Modellfamilie Claude von Anthropic eine Sonderstellung erarbeitet, die besonders für die Legal-Tech-Community von Interesse ist – auch wenn diese Sonderstellung in einem direkten Vergleich von Tom’s Guide gerade erst eindrucksvoll bestätigt wurde: Claude Opus 4.7 gewann dort sieben von sieben Kategorien gegen GPT-5.5, vor allem weil das OpenAI-Modell zwar schneller arbeitet, aber deutlich anfälliger dafür ist, lieber zu halluzinieren als Wissensgrenzen zuzugeben.

Die Frage, ob eine KI die subtilen Nuancen des deutschen Zivilrechts oder die monumentale Komplexität internationaler Schiedsverfahren erfassen kann, ist längst keine rein akademische mehr – sie steht im Zentrum einer technologischen Transformation der juristischen Arbeit, die im April 2026 eine neue Dynamik gewonnen hat. Dieser Beitrag beleuchtet, welche technischen Eigenschaften Claude aus juristischer Perspektive auszeichnen, warum die Marktarchitektur zwischen Modellanbietern und Legal-Tech-Plattformen gerade neu sortiert wird – und wo das Modell im deutschen Rechtsraum dennoch an regulatorische und methodische Grenzen stößt.

1. Constitutional AI: Vorhersehbarkeit als Rechtswert

Ein entscheidender Vorteil, den Claude gegenüber anderen Large Language Models (LLMs) ins Feld führt, liegt in seinem Trainingsansatz: der sogenannten Constitutional AI. Während klassische Modelle primär durch menschliches Feedback – das sogenannte Reinforcement Learning from Human Feedback (RLHF) – auf gewünschtes Verhalten kalibriert werden, folgt Claude einer internen, vordefinierten Verfassung. Diese besteht aus einem Satz von Prinzipien, anhand derer das Modell sein eigenes Verhalten bewertet und korrigiert, bevor es eine Antwort ausgibt.

Für Juristinnen und Juristen ist dieser Unterschied von eminenter Bedeutung. Denn Constitutional AI verspricht eine höhere Vorhersehbarkeit und ethische Stabilität des Modells – Eigenschaften, die im rechtlichen Kontext keine bloßen Komfortmerkmale sind, sondern unmittelbar die Frage der berufsethischen Haftung berühren. Wer eine KI zur Vorbereitung von Schriftsätzen, zur Recherche von Rechtsprechung oder zur Prüfung von Vertragsentwürfen einsetzt, muss sich auf konsistente, nachvollziehbare Ergebnisse verlassen können.

In der Praxis äußert sich dieser Ansatz vor allem in zwei Eigenschaften: Erstens neigt Claude dazu, Wissenslücken offen zu kommunizieren, anstatt – wie in der Branche gefürchtet – Präzedenzfälle oder Aktenzeichen frei zu erfinden. Die Reduktion solcher Halluzinationen ist im rechtlichen Kontext nicht nur ein technisches Feature, sondern eine Grundvoraussetzung für den verantwortungsvollen Einsatz. Zweitens weist das Modell eine geringere Neigung zu aggressiven oder inkohärenten Ausreißern auf, was bei komplexen Rechtsfragen – etwa der Auslegung unbestimmter Rechtsbegriffe – zu verlässlicheren Ergebnissen führt. Genau dieser Unterschied ist es, der in vergleichenden Tests zwischen Claude Opus 4.7 und GPT-5.5 immer wieder den Ausschlag gibt: Geschwindigkeit ist die eine Sache, juristische Belastbarkeit eine andere.

2. Das Kontextfenster: Aktenberge ohne Mehraufwand – mit einem Caveat

Ein weiteres technisches Alleinstellungsmerkmal war lange das massive Kontextfenster. In der juristischen Praxis begegnen einem regelmäßig Aktenberge, die den Umfang herkömmlicher KI-Kapazitäten sprengen. Claude ermöglicht es, hunderte Seiten Verträge, Gutachten und Urteile in einem einzigen Verarbeitungsvorgang zu analysieren.

Diese Fähigkeit zur sogenannten Single-Pass-Analyse ist ein Wendepunkt für Aufgaben wie die Due Diligence im M&A-Bereich oder das Contract Lifecycle Management. Wo andere Modelle den roten Faden bei langen Dokumenten verloren, behielt Claude lange Zeit nahezu konkurrenzlos den Überblick über komplexe Querverweise innerhalb umfangreicher Dokumentenpakete. Das reduziert den Bedarf an aufwendigen RAG-Architekturen (Retrieval-Augmented Generation), da relevante Informationen oft direkt im Arbeitsgedächtnis des Modells gehalten werden können.

Der Caveat: GPT-5.5 hat in dieser Disziplin spektakulär aufgeholt. Auf dem MRCR-v2-Benchmark bei Kontextlängen zwischen 512K und 1M Tokens ist OpenAI von 36,6 Prozent (GPT-5.4) auf 74,0 Prozent gesprungen – mehr als eine Verdoppelung. Bei 128K bis 256K Tokens liegt GPT-5.5 mit 87,5 Prozent deutlich vor Claude (59,2 Prozent). Für reine Long-Context-Retrieval-Aufgaben ist Claudes Vorsprung damit erstmals nicht mehr selbstverständlich. Wo es jedoch nicht nur um Speicherung, sondern um juristisches Reasoning über lange Texte geht – also um die Fähigkeit, in einem 400-seitigen Vertragspaket Widersprüche zu identifizieren und sauber zu argumentieren –, hält Claude die Spitzenposition.

Für die anwaltliche Tätigkeit bedeutet das konkret: Statt Vertragsinhalte manuell zusammenzuführen oder durch mehrere Abfragen zu segmentieren, kann ein vollständiges Vertragswerk – einschließlich aller Anhänge, Sideagreements und Korrespondenz – in einem Durchlauf auf Widersprüche, Regelungslücken oder Haftungsrisiken geprüft werden. Dieser Effizienzgewinn ist nicht trivial.

3. Die Marktarchitektur sortiert sich neu

Wer sich die Legal-Tech-Landschaft vor wenigen Monaten ansah, fand eine vergleichsweise saubere Arbeitsteilung vor: Frontier-Modelle wie Claude oder GPT lieferten die Reasoning-Engine, spezialisierte Wrapper wie Harvey AI oder Legora veredelten diese Modelle für die juristische Anwendung, und etablierte Anbieter wie Thomson Reuters oder LexisNexis brachten kuratierte Rechtsinhalte ein. Drei Entwicklungen der vergangenen Wochen haben diese Architektur erschüttert.

a) Harvey gibt sein eigenes Modell auf

Im März 2026 hat Harvey 200 Millionen US-Dollar zu einer Bewertung von 11 Milliarden US-Dollar von GIC und Sequoia eingesammelt. Was in den Pressemitteilungen weniger prominent stand: Harvey hat sein hauseigenes, vertikal trainiertes Legal-Modell aufgegeben. Der Grund ist instruktiv. Frontier-Reasoning-Modelle von Anthropic, OpenAI, Google und xAI haben Harveys eigenes Modell auf dem firmeneigenen BigLaw Bench überholt. Die Konsequenz: Harvey hat einen „Model Selector“ gebaut, mit dem Kanzleien Aufgaben dynamisch an Claude, Gemini oder GPT routen können, und positioniert sich nun nicht mehr über Modellqualität, sondern über agentische Workflows, Enterprise-Integration und kuratierte Rechtsinhalte – inklusive einer strategischen Allianz mit LexisNexis, die Statuten, Case Law und Shepard’s-Citations direkt in die Plattform einbettet.

Mit anderen Worten: Harvey hat öffentlich konzediert, dass die Differenzierung am Modell-Layer nicht mehr trägt. Der Wert sitzt eine Schicht höher – im Workflow, in den Inhalten, in der Implementierung. Das ist sowohl eine strategische Niederlage als auch eine kluge Selbsterneuerung.

b) Freshfields geht direkt zu Anthropic

Am 23. April 2026 kündigten Freshfields und Anthropic eine mehrjährige Kooperation an. Claude wird firmenweit über alle 33 Büros und 5.700 Mitarbeitende ausgerollt – über die proprietäre KI-Plattform der Kanzlei, mit Co-Development-Programm und Early Access auf zukünftige Anthropic-Modelle. Innerhalb von sechs Wochen, so Freshfields, sei die Claude-Nutzung um rund 500 Prozent gestiegen. Es ist die zweite strategische KI-Partnerschaft der Kanzlei nach dem Google-Deal aus dem Jahr 2025.

Die Kooperation ist deshalb relevant, weil sie eine alte These herausfordert: dass eine Großkanzlei nie direkt zum Modellanbieter gehen würde, weil sie die domänenspezifische Veredelung – Fine-Tuning, Halluzinationsabwehr, juristische Evaluations-Loops – nicht selbst leisten könne. Freshfields baut nun genau diese Veredelung intern auf, über das eigene Innovationslabor und ein Co-Development-Programm mit Anthropic. Aus Branchenkreisen wird die Entscheidung dennoch kritisch kommentiert. Der Vorwurf: Freshfields habe damit eine Infrastrukturentscheidung getroffen, die als Produktentscheidung verkauft werde. Anwaltskanzleien seien aber keine Infrastrukturunternehmen. Anbieter wie Harvey und Legora existierten nicht aus reiner Margenlogik, sondern weil zwischen einem Frontier-Modell und einem belastbaren Due-Diligence-Output erhebliche domänenspezifische Arbeit liege – Aufgaben, auf die Anthropic ausdrücklich nicht primär fokussiert ist. Hinzu komme ein Wartungsproblem: Modelle würden regelmäßig deprecated; wer direkt auf der API baue, trage die Migrationslast jedes Modellwechsels selbst, während die Wrapper-Anbieter genau diese Last für ihre Kunden absorbierten.

Ob Freshfields aus diesem Aufwand ein nachhaltiger Wettbewerbsvorteil entsteht – ein proprietäres System, zugeschnitten auf die eigenen Mandatsstrukturen – oder ob die Kanzlei in achtzehn Monaten Lehrgeld für Lektionen zahlt, die Harvey vor zwei Jahren bereits gelernt hat, ist die offene Frage. Bemerkenswert ist immerhin, dass Freshfields nicht ausschließlich auf den Direktweg setzt: Die Kanzlei ist gleichzeitig Early Tester der neuen, vollständig auf Anthropic-Technologie aufgebauten Generation von Thomson Reuters‘ CoCounsel Legal mit nativ eingebettetem Westlaw und Practical Law. Die Wrapper-Schicht bleibt also bewusst parallel offen.

c) GPT-5.5 verschiebt die Modell-Hierarchie

Am gleichen Tag wie die Freshfields-Ankündigung – dem 23. April 2026 – veröffentlichte OpenAI GPT-5.5. Auf Harveys eigenem BigLaw Bench erreicht das neue Modell 91,7 Prozent und löst damit GPT-5.4 (91,0 Prozent) als bestbewertetes Modell ab. Niko Grupen, Head of Applied Research bei Harvey, attestiert GPT-5.5 messbare Fortschritte in juristischem Reasoning, organisatorischer Struktur und Audience Calibration.

Das Bild ist allerdings nuanciert. GPT-5.5 dominiert auf agentischen und Long-Context-Benchmarks (Terminal-Bench 2.0, MRCR v2, FrontierMath), Claude Opus 4.7 hält dagegen die Spitze auf SWE-bench Pro, SWE-bench Verified, HLE ohne Tools sowie auf MCP-Atlas zur Tool-Orchestrierung. In direkten Anwendungsvergleichen liegt Claude weiterhin vorne, vor allem in Aufgaben, bei denen das Modell Wissensgrenzen erkennen muss, statt souverän zu halluzinieren – jener Eigenschaft also, die im juristischen Kontext über Glaubwürdigkeit oder Haftungsfall entscheidet. Auch der Anstieg auf Harveys BigLaw Bench fällt mit 0,7 Prozent zwischen GPT-5.4 und GPT-5.5 deutlich kleiner aus als bei den Vorgängergenerationen, was die Vermutung nährt, dass die Modellverbesserungen am oberen Ende des Leistungsspektrums an Tempo verlieren. Was das in Summe bedeutet: Die Vorstellung, ein Modell sei pauschal das beste juristische Werkzeug, ist endgültig überholt. Auch Harveys Strategie, nicht mehr selbst das beste Modell bauen zu wollen, sondern flexibel auf das jeweils beste verfügbare Modell zu routen, gewinnt damit weiter Plausibilität.

Was das in Summe bedeutet: operative versus autoritative KI

Die Differenzierung, auf die sich der Markt einpendelt, ist strukturell. Sie verläuft zwischen operativer KI auf der einen und autoritativer KI auf der anderen Seite. Anthropics agentische Plattform Cowork und vergleichbare Modell-direkt-Angebote adressieren die operative Schicht juristischer Arbeit hervorragend: interne Dokumente strukturieren, Workflows automatisieren, Standardverträge prüfen, Compliance-Checklisten abarbeiten. Genau dort, wo es um autoritativeRechtsarbeit geht – die Recherche ungelöster Rechtsfragen, die Entwicklung neuartiger Argumente, die Validierung anhand aktueller Gerichtsurteile, die Erstellung belastbarer anwaltlicher Stellungnahmen – braucht es weiterhin Zugang zu kuratierten autoritativen Datenbanken, Qualitätssicherungsarchitekturen und berufsrechtlich verantwortete Supervision.

Der Unterschied zur Lage von vor wenigen Monaten: Diese autoritative Schicht wird nicht mehr zwingend von einem klassischen Legal-Tech-Wrapper bereitgestellt. Sie kann auch innerhalb einer Großkanzlei aufgebaut werden (Freshfields-Modell), oder von einem hybriden Anbieter wie Harvey, der Frontier-Modelle mit kuratierten Inhalten kombiniert, oder durch reanimierte Wrapper-Plattformen wie das auf Anthropic-Technologie neu aufgesetzte CoCounsel Legal. Anthropic selbst hat diese Multi-Layer-Logik akzeptiert und Partnerschaften mit Harvey, LegalZoom, Intapp, Thomson Reuters und Freshfields geschlossen. Die Botschaft: keine vollständige Substitution bestehender Anbieter, sondern Koexistenz innerhalb eines arbeitsteiligen Ökosystems, in dem das Unternehmen als Modell-Layer-Lieferant zugleich von mehreren Schichten oberhalb profitiert.

4. Regulatorische Schranken: DSGVO, Berufsgeheimnis und die Cloud-Frage

Trotz seiner technischen Stärken ist der Einsatz von Claude im deutschen Rechtsraum nicht frei von Hürden. Ein zentraler Kritikpunkt betrifft die geographische und regulatorische Herkunft des Modells. Als US-amerikanisches Unternehmen steht Anthropic vor den strengen Anforderungen der Datenschutz-Grundverordnung (DSGVO) sowie den besonderen Pflichten des deutschen Berufsgeheimnisses gemäß § 43a BRAO.

Die Übermittlung sensibler Mandantendaten in eine Cloud-Infrastruktur bleibt für viele Kanzleien ein unkalkulierbares Risiko, solange keine flächendeckend verfügbaren, lokal gehosteten Instanzen existieren. Das Problem ist mehrdimensional: Zum einen stellt jede Verarbeitung personenbezogener Daten außerhalb des EWR grundsätzlich einen erlaubnispflichtigen Datentransfer dar, der eines angemessenen Schutzniveaus im Sinne der Art. 44 ff. DSGVO bedarf. Zum anderen kollidiert die Übermittlung mandatsbezogener Informationen an Dritte – also auch an einen KI-Anbieter – potenziell mit der anwaltlichen Verschwiegenheitspflicht, deren Verletzung straf- und berufsrechtliche Konsequenzen nach sich ziehen kann.

Hinzu kommt der sogenannte CLOUD Act, der US-amerikanischen Behörden unter bestimmten Voraussetzungen Zugriff auf Daten ermöglicht, die von US-Unternehmen gespeichert werden – unabhängig vom physischen Serverstandort. Dieser Umstand allein reicht für viele Kanzleien aus, um den KI-Einsatz auf sensiblen Mandaten grundsätzlich auszuschließen.

Bezeichnenderweise hat die Freshfields-Ankündigung explizit hervorgehoben, Claude werde über die proprietäre Plattform der Kanzlei in einer sicheren und compliancekonformen Weise bereitgestellt – ein Sprachgebrauch, der zeigt, wie sehr Datenschutzarchitektur und Compliance-Layer inzwischen zum Kern des Wertversprechens jedes ernsthaften Enterprise-Deployments gehören. Für mittelständische Kanzleien ohne eigenes Innovationslabor bleibt das Problem jedoch bestehen. Lösungsansätze wie dedizierte On-Premises-Deployments oder europäische Cloud-Anbieter mit nachgewiesener DSGVO-Konformität werden diskutiert, sind aber noch nicht flächendeckend etabliert.

5. Die methodische Hürde: Gutachtenstil trifft auf Common-Law-Training

Neben den regulatorischen Herausforderungen darf auch die spezifische Ausbildung des Modells nicht unterschätzt werden. Zwar beherrscht Claude Deutsch auf exzellentem Niveau – sprachlich ist das Modell zweifelsfrei hochbegabt. Die eigentliche Schwierigkeit liegt jedoch tiefer: Die Logik des kontinentaleuropäischen Rechtssystems unterscheidet sich fundamental vom anglo-amerikanischen Case Law, das den Schwerpunkt der Trainingsdaten dominiert.

Das deutsche Recht ist hochgradig abstrakt und folgt einer strengen deduktiven Methodik. Prüfungsaufbau, Gutachtenstil und die korrekte Subsumtionstechnik – also das systematische Unterordnen eines Sachverhalts unter den abstrakten Tatbestand einer Norm – sind handwerkliche Kernfähigkeiten, die im juristischen Studium über Jahre eingeübt werden. Ein KI-Modell mag den Wortlaut des BGB kennen und einschlägige Urteile des BGH abrufen können; die präzise Anwendung der Gutachtenmethodik ist jedoch eine Hürde, an der Sprachmodelle ohne spezifisches Fine-Tuning oder ausgeklügeltes Prompt-Engineering noch regelmäßig scheitern.

Konkret bedeutet das: Claude kann in vielen Fällen die rechtlich relevanten Aspekte eines Sachverhalts identifizieren und die einschlägigen Normen benennen. Die strukturierte Aufbereitung im klassischen deutschen Prüfungsschema – mit sauberer Obersatz-Definition-Subsumtion-Ergebnis-Folge – gelingt jedoch nur dann zuverlässig, wenn das Modell entsprechend angeleitet wird. Für juristische Ausbildungszwecke oder die Erstellung mandatsbezogener Analysen bedeutet das: Prompt Engineering ist keine optionale Kompetenz, sondern eine Grundvoraussetzung für belastbare Ergebnisse. Genau das ist übrigens einer der Gründe, warum Großkanzleien wie Freshfields nun „Prompt Engineers, AI Product Managers und Evaluation Specialists“ einstellen müssen – Rollen, in deren Talentmarkt Großkanzleien bisher nicht im Wettbewerb mit reinen Tech-Unternehmen standen.

6. Fazit: Ein leistungsstarkes Werkzeug – kein Ersatz für juristisches Urteil

Zusammenfassend lässt sich sagen, dass Claude derzeit zu den fähigsten verfügbaren Werkzeugen gehört, wenn es darum geht, als digitaler wissenschaftlicher Mitarbeiter in der juristischen Arbeit zu unterstützen. Die Kombination aus Constitutional AI und einem leistungsfähigen Kontextfenster macht das Modell zu einem ernstzunehmenden Instrument für die Analyse und Strukturierung von Rechtsdaten – insbesondere für Aufgaben, bei denen es auf Vollständigkeit, Konsistenz und die Verarbeitung großer Dokumentenmengen ankommt. Die Leistungsdaten der jüngsten Modellgenerationen zeigen aber auch, dass die Differenzierung zwischen einzelnen Frontier-Modellen sich an den Spitzenwerten zunehmend verflacht und die spannenderen Wettbewerbsfragen eine Schicht höher entschieden werden – im Workflow, in den Inhalten, in der Implementierung.

Gleichzeitig zeigen die regulatorischen Schranken der DSGVO und des anwaltlichen Berufsgeheimnisses sowie die methodischen Besonderheiten des deutschen Rechtssystems, dass der Einsatz von Claude einer sorgfältigen Prüfung bedarf. Die Verantwortung für die finale rechtliche Würdigung – und die Haftung für das Ergebnis – bleibt untrennbar mit dem menschlichen Juristen verbunden.

Für Entwicklerinnen und Entwickler im Bereich Legal Tech liegt die Herausforderung damit weniger in der Modellauswahl als in der Frage, welche Schicht des Stacks man überhaupt besetzen will – und ob man bereit ist, mit jeder Modellgeneration die Wartungslast neu zu tragen. Datenschutzkonforme Infrastrukturen, die das Berufsgeheimnis wahren, und spezialisierte Feinabstimmungen, die das Modell mit der Methodik des kontinentaleuropäischen Rechts vertraut machen, bleiben dabei die zentralen Engpässe. Das Potenzial ist vorhanden – es muss nur rechtskonform gehoben werden.

Über die Autoren:
Erik Schiefele (Erik.schiefele@ml-tech.org) ist ehrenamtlich als Research Writer bei MLTech tätig und studiert Rechtswissenschaften an der Ludwig-Maximilians-Universität München.

Luis Hettrich (luis.hettrich@ml-tech.org) ist ehrenamtlich als Vorstand bei MLTech tätig und studiert Rechtswissenschaften an der Ludwig-Maximilians-Universität München.

Über den Redakteur
Luis Hettrich (luis.hettrich@ml-tech.org) ist ehrenamtlich als Vorstand bei MLTech tätig und studiert Rechtswissenschaften an der Ludwig-Maximilians-Universität München.

Allgemeine Anregungen oder Anfragen zum Blog gerne an: blog@ml-tech.org.