前几天, Google 似乎向 OpenAI 发出了警告,称他们不得使用 YouTube 数据训练模型。但“公开可用”的训练数据对 AI 公司意味着什么?
最近, The New York Times 报道称,OpenAI、Meta 和谷歌都忽略了某些规则来训练他们的 AI 模型。这引发了有关“公开可用”数据的性质的重大问题。
当 AI 公司被问及他们的训练数据时,他们经常会含糊其辞,称使用“公开数据”。例如,在一次采访中 华尔街日报OpenAI 首席技术官 Mira Murati 表示不确定是否使用 YouTube 或其他社交平台的数据来训练他们的模型。她表示:“我不会详细谈论所用的数据,但这些数据是公开可用的数据还是授权数据。”
如果使用公开数据很简单,为什么人工智能公司会如此避而不谈?早在 2023 年 XNUMX 月,领导 Stability AI 音频团队的 Ed Newton-Rex 就辞职了,他认为在“合理使用”豁免下对受版权保护的作品进行生成式人工智能模型训练是不合理的。他认为创作者的作品受到人工智能模型生成的重复内容的影响。
《纽约时报》等出版商的服务条款明确禁止人工智能公司使用其内容进行模型训练。然而,在没有联邦人工智能立法的情况下执行这些条款是一项挑战。《纽约时报》接受了这一挑战,于 12 月对 OpenAI 提起诉讼,与其他作家和喜剧演员一起起诉这家人工智能巨头侵犯版权。
OpenAI 坚称他们没有做错任何事,并强调他们使用的是公开可用且经过授权的内容。Ed Newton-Rex 向 爱可信 “公开”一词常常使人感到困惑,因为它并不一定意味着创作者的许可,而是内容不是非法获得的。
据最近的一项 纽约时报文章,OpenAI、谷歌和 Meta 等主要 AI 公司都在数据收集方面偷工减料。2016 年,一份集体诉讼文件显示,Meta 团队曾讨论拦截 Snapchat 用户的应用流量,后来又拦截 YouTube 和亚马逊用户的应用流量,以获取用户名、密码和应用活动等敏感数据。最近,Meta 员工考虑使用受版权保护的数据,尽管存在诉讼风险,以避免漫长的获取许可证的过程。
随着互联网上可用数据的减少,人工智能公司正争相获取大量数据集,要么通过大规模许可协议,要么采用不太道德的方法。创作者正在反击,通常是通过诉讼,但这是一条充满挑战的道路。今年 2 月,一名联邦法官驳回了 Ta-Nehisi Coates 和 Sarah Silverman 等作家提出的大多数版权侵权指控,为寻求法律保护其作品的创作者开创了一个艰难的先例。
未来的几个月和几年可能会出现具有里程碑意义的案件和立法,它们将决定创作者如何分享他们的作品以及人工智能公司如何收集他们的数据。