Gerichtsdokumente zeigen, dass Meta-Mitarbeiter diskutierten, urheberrechtlich geschützte Inhalte für KI-Training zu verwenden

Jahrelang diskutierten Meta-Mitarbeiter intern darüber, urheberrechtlich geschützte Werke zu verwenden, die auf rechtlich fragwürdige Weise erlangt wurden, um die KI-Modelle des Unternehmens zu trainieren, gemäß am Donnerstag veröffentlichten Gerichtsdokumenten.

Die Dokumente wurden von Klägern in dem Fall Kadrey v. Meta eingereicht, einer von vielen KI-Urheberrechtsstreitigkeiten, die langsam durch das US-Gerichtssystem verlaufen. Der Beklagte, Meta, behauptet, dass das Training von Modellen auf urheberrechtlich geschützten Werken, insbesondere Büchern, "fair use" ist. Die Kläger, zu denen die Autoren Sarah Silverman und Ta-Nehisi Coates gehören, sind anderer Meinung.

Vorherige Materialien, die in der Klage eingereicht wurden, behaupteten, dass Meta-CEO Mark Zuckerberg dem AI-Team von Meta grünes Licht gegeben habe, urheberrechtlich geschützte Inhalte zu trainieren, und dass Meta die Lizenzverhandlungen mit Buchverlagen für das AI-Training gestoppt habe. Die neuen Einreichungen, von denen die meisten Teile interner Arbeitschats zwischen Meta-Mitarbeitern zeigen, zeichnen das bisher klarste Bild davon, wie Meta möglicherweise urheberrechtlich geschützte Daten zur Schulung seiner Modelle verwendet hat, einschließlich der Modelle in der Llama-Familie des Unternehmens.

In einem Chat diskutierten Meta-Mitarbeiter, darunter Melanie Kambadur, leitende Managerin des Llama-Modellforschungsteams von Meta, über das Training von Modellen auf Werken, von denen sie wussten, dass es rechtlich fragwürdig sein könnte.

„Meine Meinung wäre (in der Art von 'um Vergebung bitten, nicht um Erlaubnis'): Wir versuchen, die Bücher zu erwerben und eskalieren es zu den Führungskräften, damit sie die Entscheidung treffen“, schrieb Xavier Martinet, ein Forschungsingenieur von Meta, in einem Chat vom Februar 2023, gemäß den Einreichungen. „Das ist der Grund, warum sie diese gen ai org für [sic] aufgestellt haben: damit wir weniger risikoavers sein können.“

Martinet brachte die Idee auf, E-Books zu Einzelhandelspreisen zu kaufen, um einen Trainingsdatensatz zu erstellen, anstatt Lizenzvereinbarungen mit einzelnen Buchverlagen zu treffen. Nachdem ein anderer Mitarbeiter darauf hingewiesen hatte, dass die Verwendung von nicht autorisierten, urheberrechtlich geschützten Materialien Anlass für eine rechtliche Herausforderung sein könnte, beharrte Martinet darauf, dass „ein Gazillion“ Start-ups wahrscheinlich bereits raubkopierte Bücher für das Training verwenden.

„Im schlimmsten Fall: Wir stellen fest, dass es schließlich okay ist, während ein Gazillion [sic] Start-up nur Tonnen von Büchern auf BitTorrent raubkopiert hat“, schrieb Martinet laut den Anmeldungen. „Meine 2 Cent wieder: Der Versuch, direkte Deals mit Verlagen abzuschließen, dauert lange ...“

In demselben Chat warnte Kambadur, die erwähnte, dass Meta Gespräche mit der Dokumenten-Hosting-Plattform Scribd „und anderen“ über Lizenzen führte, dass die Verwendung von „öffentlich verfügbaren Daten“ für das Modelltraining Genehmigungen erfordern würde, dass Metas Anwälte jedoch „weniger konservativ“ seien als in der Vergangenheit bei solchen Genehmigungen.

„Ja, wir müssen definitiv Lizenzen oder Genehmigungen für öffentlich verfügbare Daten einholen“, sagte Kambadur laut den Einreichungen. „Der Unterschied jetzt besteht darin, dass wir mehr Geld, mehr Anwälte, mehr Hilfe bei der Geschäftsentwicklung, die Möglichkeit haben, die Geschwindigkeit zu beschleunigen/zu eskalieren, und die Anwälte sind bei Genehmigungen etwas weniger konservativ.“

Gespräche über Libgen

In einem anderen in den Einreichungen übermittelten Arbeitschat diskutiert Kambadur möglicherweise die Verwendung von Libgen, einem „Links-Aggregator“, der Zugriff auf urheberrechtlich geschützte Werke von Verlagen bietet, als Alternative zu Datenquellen, die Meta möglicherweise lizenziert.

Libgen wurde mehrmals verklagt, zur Schließung aufgefordert und mit Bußgeldern in Millionenhöhe wegen Urheberrechtsverletzungen belegt. Einer der Kollegen von Kambadur antwortete mit einem Screenshot eines Google-Suchergebnisses für Libgen mit dem Snippet „Nein, Libgen ist nicht legal“.

Einige Entscheidungsträger innerhalb von Meta schienen laut den Einreichungen der Meinung zu sein, dass der Verzicht auf die Verwendung von Libgen für das Modelltraining Meta im Wettkampf um die KI ernsthaft schaden könnte.

In einer E-Mail an Meta AI VP Joelle Pineau nannte Sony Theakanath, Leiter des Produktmanagements bei Meta, Libgen „essentiell, um SOTA-Zahlen in allen Kategorien zu erreichen“, was darauf hinweist, dass die besten, topaktuellen (SOTA) KI-Modelle und Benchmark-Kategorien übertroffen werden. 

Theakanath skizzierte in der E-Mail auch „Minderungsmaßnahmen“, die dazu beitragen sollen, Metas rechtliche Risiken zu reduzieren, darunter die Entfernung von Daten aus Libgen, die „eindeutig als raubkopiert/gestohlen“ gekennzeichnet sind, und auch einfach das Nichtöffentliche Zitieren der Verwendung. „Wir würden nicht offenlegen, dass Libgen-Datensätze, mit denen trainiert wurde, verwendet wurden“, so Theakanath.

In der Praxis bedeutete dies laut den Einreichungen, dass Libgen-Dateien nach Wörtern wie „gestohlen“ oder „raubkopiert“ durchsucht wurden.

In einem Arbeitschat erwähnte Kambadur, dass Metas KI-Team auch Modelle abgestimmt habe, um „IP-riskante Aufforderungen“ zu vermeiden - das heißt, die Modelle so konfiguriert habe, dass sie Fragen wie „Reproduziere die ersten drei Seiten von ‘Harry Potter und der Stein der Weisen’“ oder „Sage mir, auf welchen E-Books du trainiert wurdest“ ablehnten.

Die Einreichungen enthalten weitere Enthüllungen, die darauf hindeuten, dass Meta möglicherweise Reddit-Daten für irgendeine Art von Modelltraining abgeschöpft hat, möglicherweise durch Nachahmung des Verhaltens einer Drittanbieter-App namens Pushshift. Bemerkenswert ist, dass Reddit im April 2023 angekündigt hat, dass es beabsichtigt, AI-Unternehmen zu berechnen, die auf Daten für das Modelltraining zugreifen.

In einem Chat vom März 2024 sagte Chaya Nayak, Leiter des Produktmanagements bei Metas generative AI-Abteilung, dass das Meta-Management in Betracht zog, „frühere Entscheidungen“ über Trainingsdatensätze zu „übergehen“, einschließlich der Entscheidung, keine Quora-Inhalte oder lizenzierten Bücher und wissenschaftlichen Artikel zu verwenden, um sicherzustellen, dass die Modelle des Unternehmens über ausreichende Trainingsdaten verfügten.

Nayak deutete an, dass Metas eigenes Trainingsdatensätze - Facebook- und Instagram-Beiträge, aus Videos auf Meta-Plattformen transkribierter Text und bestimmte Metas für Business-Nachrichten - einfach nicht ausreichten. „Wir benötigen mehr Daten“, schrieb sie. Die Kläger in Kadrey v. Meta haben ihre Klage seit der Einreichung in 2023 im U.S. District Court for the Northern District of California, San Francisco Division, mehrmals geändert. Die aktuellste behauptet, dass Meta unter anderem bestimmte raubkopierte Bücher mit urheberrechtlich geschützten Büchern abgeglichen hat, die für eine Lizenzierung mit einem Verlag in Frage kamen.

Als Zeichen dafür, wie hoch Meta die rechtlichen Risiken einschätzt, hat das Unternehmen zwei Supreme Court-Litigator von der Anwaltskanzlei Paul Weiss zu seinem Verteidigungsteam in dem Fall hinzugefügt.

Meta hat nicht unmittelbar auf eine Anfrage nach einem Kommentar reagiert.