数日前、 グーグル OpenAI に対して、YouTube データでモデルをトレーニングすることは許可されていないという警告を出したようです。しかし、「公開されている」トレーニング データは AI 企業にとって何を意味するのでしょうか?
最近では、 ニューヨークタイムズ OpenAI、Meta、Google はいずれも AI モデルのトレーニングにおいて特定のルールを無視していると報告されています。これにより、「公開されている」データの性質について重大な疑問が生じます。
AI企業がトレーニングデータについて質問されると、「公開されているデータ」を使用するという曖昧な回答をすることが多い。例えば、 ウォールストリートジャーナルOpenAIの最高技術責任者ミラ・ムラティ氏は、YouTubeや他のソーシャルプラットフォームのデータがモデルのトレーニングに使用されたかどうかについて不確実性を示した。同氏は「使用されたデータの詳細については触れないが、公開されているデータかライセンスされたデータだった」と述べた。
公開されているデータの使用が簡単なのに、なぜ AI 企業はこうも回避的なのか。2023 年 XNUMX 月、Stability AI のオーディオ チームを率いた Ed Newton-Rex 氏は、著作権で保護された作品に対して「フェアユース」の例外規定に基づいて生成 AI モデルをトレーニングすることは正当化されないと主張して辞任した。同氏は、クリエイターの作品は AI モデルによって生成される重複コンテンツによって損なわれると考えている。
ニューヨークタイムズのような出版社は、AI企業が自社のコンテンツをモデルのトレーニングに使用することを明示的に禁止する利用規約を定めている。しかし、連邦AI法なしにこれらの規約を施行するのは困難だ。ニューヨークタイムズは、AIの巨人を著作権侵害で訴えた他の作家やコメディアンに加わり、12月にOpenAIを相手取って訴訟を起こすことでこの課題に取り組んでいる。
OpenAIは、公開されライセンスされたコンテンツを使用していることを強調し、何も悪いことはしていないと主張している。エド・ニュートン・レックスは次のように説明した。 Axios 「公開されている」という用語は、必ずしも作成者の許可を意味するのではなく、コンテンツが違法に取得されていないことを意味するため、人々を混乱させることが多いです。
最近によると、 NYTの記事一方で、OpenAI、Google、Meta などの大手 AI 企業はデータ収集に手抜きをしています。2016 年に集団訴訟の文書で、Meta のチームが Snapchat ユーザー、その後 YouTube と Amazon ユーザーからのアプリ トラフィックを傍受し、ユーザー名、パスワード、アプリ アクティビティなどの機密データにアクセスすることを検討していたことが明らかになりました。最近では、Meta の従業員は、訴訟のリスクを冒して、ライセンス取得の長いプロセスを回避するために著作権で保護されたデータを使用することを検討しました。
インターネットで利用できるデータが減少する中、AI企業は大規模なライセンス契約や倫理に反する手段で、大量のデータセットを確保しようと躍起になっている。クリエイターたちは訴訟などで反撃しているが、それは困難な道のりだ。2月、連邦判事はタナハシ・コーツやサラ・シルバーマンを含む著者らの著作権侵害の申し立ての大半を棄却し、作品の法的保護を求めるクリエイターたちにとって困難な前例となった。
今後数か月から数年の間に、クリエイターが作品を共有する方法や AI 企業がデータを収集する方法に影響を与える画期的な訴訟や法律が生まれる可能性が高いでしょう。