Vor ein paar Tagen, Google hat anscheinend eine Warnung an OpenAI herausgegeben, wonach es ihnen nicht gestattet ist, ihre Modelle mit YouTube-Daten zu trainieren. Aber was bedeuten „öffentlich verfügbare“ Trainingsdaten für KI-Unternehmen?
Kürzlich wurde gezeigt, dass Die New York Times berichteten, dass OpenAI, Meta und Google alle bestimmte Regeln beim Training ihrer KI-Modelle ignoriert haben. Dies wirft erhebliche Fragen über die Natur „öffentlich verfügbarer“ Daten auf.
Wenn KI-Unternehmen nach ihren Trainingsdaten gefragt werden, geben sie oft vage Antworten über die Verwendung „öffentlich verfügbarer Daten“. In einem Interview mit The Wall Street JournalMira Murati, Chief Technology Officer von OpenAI, äußerte sich unsicher, ob zum Trainieren ihrer Modelle Daten von YouTube oder anderen sozialen Plattformen verwendet wurden. Sie erklärte: „Ich werde nicht näher auf die Details der verwendeten Daten eingehen, aber es waren öffentlich verfügbare Daten oder lizenzierte Daten.“
Wenn die Verwendung öffentlich verfügbarer Daten so selbstverständlich ist, warum sind KI-Unternehmen dann so ausweichend? Bereits im November 2023 trat Ed Newton-Rex, der das Audioteam von Stability AI leitete, zurück und argumentierte, dass das Training generativer KI-Modelle an urheberrechtlich geschützten Werken unter der Ausnahmeregelung „Fair Use“ nicht gerechtfertigt sei. Er glaubt, dass die Werke der Urheber unter den von KI-Modellen generierten duplikativen Inhalten leiden.
Verlage wie die New York Times haben Nutzungsbedingungen, die es KI-Unternehmen ausdrücklich verbieten, ihre Inhalte für Trainingsmodelle zu verwenden. Die Durchsetzung dieser Bedingungen ohne Bundesgesetze zur KI ist jedoch eine Herausforderung. Die New York Times hat sich dieser Herausforderung gestellt, indem sie im Dezember eine Klage gegen OpenAI eingereicht hat. Damit hat sie sich anderen Autoren und Comedians angeschlossen, die den KI-Riesen wegen Urheberrechtsverletzung verklagt haben.
OpenAI behauptet, nichts falsch gemacht zu haben und betont, dass sie öffentlich zugängliche und lizenzierte Inhalte verwenden. Ed Newton-Rex erklärte gegenüber Axios dass der Begriff „öffentlich verfügbar“ oft für Verwirrung sorgt, da er nicht unbedingt die Erlaubnis des Erstellers impliziert, sondern eher, dass der Inhalt nicht illegal erworben wurde.
Einem aktuellen NYT Artikel, große KI-Player wie OpenAI, Google und Meta sparen bei der Datenerfassung. Im Jahr 2016 enthüllten Dokumente einer Sammelklage, dass Metas Team darüber diskutierte, den App-Verkehr von Snapchat-Nutzern und später auch von YouTube- und Amazon-Nutzern abzufangen und so Zugriff auf vertrauliche Daten wie Benutzernamen, Passwörter und App-Aktivitäten zu erhalten. In jüngster Zeit erwogen Meta-Mitarbeiter, trotz des Risikos von Klagen urheberrechtlich geschützte Daten zu verwenden, um den langwierigen Prozess der Lizenzbeschaffung zu vermeiden.
Da die verfügbaren Daten im Internet immer knapper werden, versuchen KI-Unternehmen, große Datensätze zu sichern, entweder durch umfangreiche Lizenzverträge oder weniger ethische Methoden. Die Urheber wehren sich, oft durch Klagen, aber der Weg ist steinig. Im Februar wies ein Bundesrichter die meisten Klagen wegen Urheberrechtsverletzungen von Autoren wie Ta-Nehisi Coates und Sarah Silverman ab und schuf damit einen schwierigen Präzedenzfall für Kreative, die rechtlichen Schutz für ihre Werke suchen.
In den kommenden Monaten und Jahren werden wir wahrscheinlich richtungsweisende Fälle und Gesetze erleben, die die Art und Weise beeinflussen werden, wie Urheber ihre Werke teilen und wie KI-Unternehmen ihre Daten erfassen.