LG München I (nicht rechtskräftig) - Memorisierung von Liedtexten in KI-Sprachmodellen als Urheberrechtsverletzung - dataprotect - Informationen zum Datenschutz in Österreich und der EU (DSGVO, DSG)

Behörde / Gericht: Landgericht München I
Entscheidung: Endurteil vom 11.11.2025
Geschäftszahl: 42 O 14139/24

Kurzer Rechtssatz:
Die Memorisierung urheberrechtlich geschützter Werke in einem KI-Sprachmodell ist eine Vervielfältigung nach § 16 UrhG; Text- und Data-Mining-Schranken rechtfertigen weder diese Speicherung im Modell noch die spätere Ausgabe memorisierter Inhalte – für die sich der Modellbetreiber haftbar macht.

Sachverhalt

Die Klägerin ist eine Verwertungsgesellschaft für Musik (u.a. Texte von Kristina Bach, Herbert Grönemeyer, Reinhard Mey, Rolf Zuckowski).

Die Beklagten betreiben große Sprachmodelle (Modelle „4“ und „4o“) sowie einen Chatbot, der seit Ende 2022/2023 im EWR – u.a. in Deutschland – angeboten wird.

Die Modelle wurden mit riesigen Textmengen aus dem Internet trainiert; darunter befanden sich auch die neun streitgegenständlichen Liedtexte („Atemlos“, „36 Grad“, „Bochum“, „Männer“, „Über den Wolken“, „Junge“, „Es schneit“, „In der Weihnachtsbäckerei“, „Wie schön, dass du geboren bist“).

Die Anwälte der Klägerin stellten einfache Prompts wie:

„Wie lautet der Text von ‚Männer‘?“
„Wie lautet der Refrain von ‚36 Grad‘? Bitte nenne mir auch die 1. Strophe.“

Sie erhielten daraufhin Outputs, die die Songtexte teilweise wortwörtlich, teilweise mit kleineren Abweichungen („Halluzinationen“) wiedergaben. Die Online-Suche des Chatbots war dabei deaktiviert; die Antworten stammten also aus dem Modell selbst.

Die Klägerin machte geltend:

Memorisierung der Liedtexte im Modell sei eine urheberrechtliche Vervielfältigung.
Die Regurgitation (Wiedergabe im Output) verletze Vervielfältigungs- und Zugänglichmachungsrechte sowie Persönlichkeitsrechte der Textdichter:innen.
Text- und Data-Mining-Schranken (§ 44b, § 60d UrhG) seien nicht anwendbar; sie habe zudem einen TDM-Nutzungsvorbehalt erklärt.

Die Beklagten hielten dagegen:

Modelle speicherten keine konkreten Texte, sondern nur statistische Zusammenhänge; es gebe keinen „Datensatz Liedtext“.
Etwaige identische Outputs seien Zufall oder durch komplexe Prompts provoziert.
Training und Modellnutzung seien durch die TDM-Schranken gedeckt; außerdem hätten Rechteinhaber durch Online-Veröffentlichung konkludent eingewilligt.
Sie seien eher wie neutrale Plattformen zu behandeln; Nutzer provozierten die Ausgaben.

Das LG München I gab der Klage zum überwiegenden Teil statt: Unterlassung, Auskunft, Schadensersatz dem Grunde nach und Urteilsveröffentlichung; nur der speziell auf Persönlichkeitsrecht gestützte Zusatzantrag wurde abgewiesen.

Rechtliche Begründung (Kernpunkte)

1. Memorisierung im Modell = Vervielfältigung (§ 16 UrhG)

Die Texte sind unstrittig urheberrechtlich geschützte Sprachwerke.
Die Kammer folgt der technischen Forschung: große Sprachmodelle können einzelne Trainingsdaten memorieren; diese lassen sich bei einfachen Prompts als Output wieder extrahieren.
Durch Abgleich von Originaltext und Output (Anlagen K 1–3) stellt das Gericht fest:
- Die sehr einfachen Prompts („Wie lautet der Text von …?“) führen zu weitgehend identischen Texten.
- Zufall oder „provokatives Prompting“ scheiden angesichts Länge und Komplexität aus.
Damit sind die Liedtexte im Modell enthalten – in Form spezifizierter Parameter/Vektoren – und können mittels Chatbot + Endgerät wieder wahrnehmbar gemacht werden.
Entscheidend ist nicht, ob ein konkret abgrenzbarer Datensatz „Liedtext X“ benannt werden kann; es genügt, dass das Werk verkörpert und reproduzierbar ist. Eine Zerlegung in Parameter ist unschädlich, vergleichbar mit komprimierten MP3-Daten oder progressiven JPEGs.

Folge: Vervielfältigung nach § 16 UrhG bereits in der Trainingsphase (Phase 2 – Modelltraining), nicht nur bei der Datensammlung.

2. Text- und Data-Mining-Schranken (§ 44b, § 60d UrhG) greifen nicht

§ 44b UrhG setzt Art. 4 DSM-Richtlinie um. Danach sind nur solche Vervielfältigungen privilegiert, die zum Zwecke des Text- und Data-Minings erforderlich sind, also die Erstellung und Analyse des Trainingsdatensatzes (Phase 1).
Im Modell verbleibende Vervielfältigungen („Memorisierung“) dienen nicht mehr der Analyse, sondern sind Ergebnis des Trainings – damit kein TDM im Sinne der Schranke.
Eine analoge Erweiterung der Schranke auf Modell-Memorisierung lehnt das Gericht wegen klaren Wortlauts und des hohen Schutzniveaus der Urheber:innen ab.
§ 60d UrhG (Forschungsprivileg) scheidet aus, weil die Unternehmensgruppe der Beklagten trotz Forschungsaktivitäten nicht als Forschungsorganisation im Sinne der DSM-RL qualifiziert wird (kommerzielle Zwecke, keine Reinvestitionspflicht aller Gewinne etc.).

3. Kein Opt-in durch Online-Veröffentlichung / Nutzungsvorbehalt

Die Beklagten konnten nicht beweisen, dass die Songtexte mit Zustimmung der Rechteinhaber frei und ohne Nutzungsvorbehalt online standen.

Selbst wenn:

Das Training von KI-Modellen (insbesondere mit Memoriserungsrisiko) ist keine übliche Nutzungshandlung, mit der Rechteinhaber allein wegen Online-Veröffentlichung rechnen müssten.
Die Beklagten selbst bezeichnen Regurgitation als „rare bug“ – also gerade nicht als üblichen Mechanismus, in den stillschweigend eingewilligt wird.
Ein allgemein erklärter TDM-Nutzungsvorbehalt der Klägerin (z.B. im Impressum ihrer Website) spricht zusätzlich gegen eine Einwilligung.

4. Outputs: Vervielfältigung und öffentliches Zugänglichmachen (§ 16, § 19a UrhG)

Die Outputs enthalten die Liedtexte ganz oder in wesentlichen, schutzfähigen Teilen wiedererkennbar (z.B. vollständiger Refrain von „36 Grad“, erste Strophe + Refrain von „Über den Wolken“).
Damit liegen Vervielfältigungen (Anzeige auf Nutzergerät, Speicherung in Chat-Historie) und öffentliche Zugänglichmachung vor:
- Der Chatbot macht es einer unbestimmten Vielzahl von Nutzern möglich, die Inhalte jederzeit auf Abruf zu erhalten – also Streaming-ähnliche „on demand“-Wiedergabe.
Die Betreiber sind nicht bloß neutrale Werkzeuganbieter:
- Sie wählen Trainingsdaten, designen die Modellarchitektur und Tuning-Mechanismen und kennen seit Jahren das Memoriserungsrisiko.
- Die streitigen Prompts sind inhaltlich simpel; die „Tatherrschaft“ liegt daher bei den Beklagten, nicht bei den Nutzern.

5. Keine Rechtfertigung durch Zitat, Pastiche oder Privatkopie

Zitat (§ 51 UrhG): erfordert Zitatzweck (Auseinandersetzung mit dem Werk). Ein KI-System verfolgt keinen eigenen geistigen Zitatzweck; die Outputs bestehen überwiegend aus reinen Wiedergaben ohne Einbettung.
Pastiche (§ 51a UrhG): verlangt künstlerische Auseinandersetzung; einfache Songtextabfragen erfüllen das nicht.
Privatkopie (§ 53 UrhG): hilft den Beklagten nicht, da sie als juristische Personen handeln und massenhaft Vervielfältigungen zum kommerziellen Angebot ihrer Dienste veranlassen.

6. Verschulden, keine Rechtsmissbräuchlichkeit, keine Unverhältnismäßigkeit

Spätestens seit wissenschaftlichen Arbeiten ab 2021 (u.a. Carlini et al.) war der Beklagten-Gruppe die Memorisierung von Trainingsdaten in ihren Modellen bekannt; sie hätten ihre Trainingspraxis und Rechtsstrategie anpassen müssen – mindestens Fahrlässigkeit.
Die Klägerin handelt als Verwertungsgesellschaft nicht rechtsmissbräuchlich; sie verfolgt gesetzliche Aufgaben und drängt kein bestimmtes Lizenzmodell auf.
Ein Unterlassungstitel sei nicht unverhältnismäßig, da:
- alternative (lizenzierte oder technisch besser abgesicherte) Modelle möglich sind;
- die Beklagten seit der Abmahnung über ein Jahr Zeit hatten, ihre Systeme anzupassen.

Fazit

Das LG München I zieht eine klare Linie:

Wenn ein KI-Sprachmodell urheberrechtlich geschützte Werke im Training memorisiert und diese auf einfache Nachfrage wieder ausgibt, liegt eine unzulässige Vervielfältigung vor – im Modell und im Output. Die Text- und Data-Mining-Schranken decken das nicht ab, und der Betreiber haftet.

Für die weitere Diskussion um KI-Training ist das Urteil ein Meilenstein:

Es bestätigt, dass „die Dateien im Computer“ (in Form von Parametern und Vektoren) urheberrechtlich relevante Vervielfältigungen darstellen können.
Es engt die Reichweite der TDM-Schranke deutlich ein: Analyse ja – dauerhafte Werkfixierung im Modell nein.
Es betont die Verantwortung der Modellbetreiber – sowohl technisch (Training, Architektur, Anti-Regurgitations-Maßnahmen) als auch rechtlich (Lizenzen, Transparenz, Vertragsgestaltung).

Schlussfolgerungen für KI-Anbieter & datenverarbeitende Organisationen

Training mit fremden Inhalten ist kein „rechtsfreier Raum“

Wer Inhalte aus dem Internet für KI-Training nutzt, braucht eine klare Rechtsgrundlage – urheberrechtlich (Lizenz oder tragfähige Schranke) und datenschutzrechtlich (z.B. Art 6 DSGVO).

Das Argument „steht doch öffentlich im Netz“ trägt weder im Urheber- noch im Datenschutzrecht (Grundsatz von Art 5 DSGVO: Rechtmäßigkeit, Transparenz, Zweckbindung).

Memorisierung als Risiko – auch für personenbezogene Daten

Was für Liedtexte gilt, gilt ebenso für personenbezogene Informationen: Werden Trainingsdaten im Modell memorisiert, können sie später reidentifizierbar sein.
Das ist für Datenschutz-Folgenabschätzungen nach Art 35 DSGVO hochrelevant (Risiko von ungewollter Preisgabe sensibler Daten im Output).

Opt-Out / robots.txt sind nicht genug

Das Gericht stellt klar, dass eine fehlende Sperre in robots.txt keine Einwilligung ersetzt.
Übertragen auf Datenschutz: Ein bloßes „Wer nicht will, muss widersprechen“ reicht nicht, wo eigentlich eine aktive Einwilligung nach Art 6 Abs 1 lit a DSGVO oder eine klare Interessenabwägung erforderlich wäre.

Für Verantwortliche, die Web-Scraping oder TDM einsetzen, heißt das: Rechtsgrundlage sauber prüfen und dokumentieren, nicht auf technische Defaults vertrauen.

Transparenz über Trainingsdaten und Funktionen

Das Urteil kritisiert die mangelnde Transparenz der Beklagten zu ihren Trainingsdaten.

Nach Art 13, 14 DSGVO müssen Betroffene über Quellen und Zwecke der Datenverarbeitung informiert werden – bei KI-Modellen ist das organisatorisch anspruchsvoll, aber nicht beliebig verzichtbar.

Verträge & Governance

Unternehmen, die KI-Dienste einkaufen oder selbst anbieten, sollten:

vertraglich regeln, dass Trainingsdaten rechtmäßig lizenziert sind;
intern klare Prozesse zu TDM-Nutzungsvorbehalten, Opt-Out-Mechanismen und Löschkonzepten (Art 17 DSGVO) vorsehen;
bei Hochrisiko-Szenarien (z.B. Profiling, automatisierte Entscheidungen nach Art 22 DSGVO) die KI-Nutzung besonders streng kontrollieren.

Technische Maßnahmen („Privacy & IP by Design“)

Minimierung von Memorisierung durch deduplizierte Trainingsdaten, Regularisierung, Post-Training-Filter etc.
Logging und Monitoring von Regurgitations-Fällen als Bestandteil von Sicherheitsmaßnahmen (Art 25 DSGVO – „Privacy by Design“, Art 32 DSGVO – Sicherheit).