Comprendre les données de formation « accessibles au public » en IA

Il ya quelques jours, Google a apparemment lancé un avertissement à OpenAI, déclarant qu'ils ne sont pas autorisés à entraîner leurs modèles sur les données YouTube. Mais que signifient les données de formation « accessibles au public » pour les entreprises d’IA ?

Récemment, The New York Times a rapporté qu'OpenAI, Meta et Google ont tous ignoré certaines règles pour entraîner leurs modèles d'IA. Cela soulève d'importantes questions sur la nature des données « accessibles au public ».

Lorsque les entreprises d’IA sont interrogées sur leurs données de formation, elles fournissent souvent des réponses vagues sur l’utilisation de « données accessibles au public ». Par exemple, dans une interview avec Le Wall Street Journal, Mira Murati, directrice de la technologie d'OpenAI, a exprimé son incertitude quant à savoir si les données de YouTube ou d'autres plateformes sociales étaient utilisées pour entraîner leurs modèles. Elle a déclaré : « Je ne vais tout simplement pas entrer dans les détails des données utilisées, mais il s'agissait de données accessibles au public ou de données sous licence. »

Si l’utilisation de données accessibles au public est simple, pourquoi les entreprises d’IA sont-elles si évasives ? En novembre 2023, Ed Newton-Rex, qui dirigeait l'équipe audio de Stability AI, a démissionné, arguant que la formation de modèles d'IA génératifs sur des œuvres protégées par le droit d'auteur dans le cadre de l'exemption « d'utilisation équitable » n'était pas justifiée. Il pense que les œuvres des créateurs souffrent du contenu dupliqué généré par les modèles d’IA.

Des éditeurs comme le New York Times ont des conditions d'utilisation interdisant explicitement aux sociétés d'IA d'utiliser leur contenu pour des modèles de formation. Cependant, faire appliquer ces conditions sans législation fédérale sur l’IA est un défi. Le New York Times a relevé ce défi en intentant une action en justice contre OpenAI en décembre, rejoignant ainsi d'autres auteurs et comédiens qui ont poursuivi le géant de l'IA pour violation du droit d'auteur.

OpenAI maintient qu'ils n'ont rien fait de mal, soulignant leur utilisation de contenu accessible au public et sous licence. Ed Newton-Rex a expliqué à Axios que le terme « accessible au public » prête souvent à confusion, car il n'implique pas nécessairement l'autorisation du créateur, mais plutôt que le contenu n'a pas été obtenu illégalement.

Selon un récent Article du NYT, les principaux acteurs de l’IA comme OpenAI, Google et Meta rognent sur la collecte de données. En 2016, des documents issus d'un recours collectif ont révélé que l'équipe de Meta avait envisagé d'intercepter le trafic des applications des utilisateurs de Snapchat, puis de YouTube et d'Amazon, afin d'accéder à des données sensibles telles que les noms d'utilisateur, les mots de passe et l'activité des applications. Plus récemment, les employés de Meta ont envisagé d'utiliser des données protégées par le droit d'auteur malgré le risque de poursuites judiciaires, afin d'éviter le long processus d'obtention de licences.

Avec la diminution des données disponibles sur Internet, les sociétés d'IA se démènent pour sécuriser de vastes ensembles de données, soit par le biais d'accords de licence importants, soit par des méthodes moins éthiques. Les créateurs ripostent, souvent par le biais de poursuites judiciaires, mais le chemin est difficile. En février, un juge fédéral a rejeté la plupart des plaintes pour violation du droit d'auteur déposées par des auteurs, notamment Ta-Nehisi Coates et Sarah Silverman, créant ainsi un précédent difficile pour les créatifs cherchant une protection juridique pour leurs œuvres.

Les mois et les années à venir verront probablement des affaires et des lois marquantes qui façonneront la manière dont les créateurs partagent leur travail et la manière dont les entreprises d’IA collectent leurs données.

GenSpace.ai est un espace de travail d'IA autonome qui s'intègre aux plateformes de chat comme Discord ou Slack. Il vous permet de contrôler toutes vos applications de travail et de productivité et de naviguer sur le Web via de simples commandes de chat. Nos agents IA automatisent les tâches, gèrent les flux de travail et agissent comme votre assistant numérique, rationalisant les opérations et réduisant les coûts pour les entrepreneurs et les startups.

Partagez la publication :

Solutions

Pour les particuliers

Aperçu

Pour les entreprises

Aperçu

Petite entreprise

Nouvelle entreprise

Startups

Pour l'entreprise

Aperçu

Travailleurs de première ligne

Travaillez en toute sécurité

Produits

Mail

Calendrier

Fichiers

DOCUMENTS

Présentations

Tableur

ensemble

Remarques

Terrasse

Comprendre les données de formation « accessibles au public » en IA

Articles Similaires

L’impact transformateur de l’IA dans l’éducation

Top 10 des outils d’IA pour les enseignants en 2024

Produits

Agents multi-IA

Espace de travail agent

Synchronisation des ERP

Jumeau Numérique

Agents tiers

Prix

Sécurité des données

Rejoindre la liste de diffusion

Pour les entreprises

Pour l'entreprise

Comprendre les données de formation « accessibles au public » en IA

Articles Similaires

Produits

Agents multi-IA

Espace de travail agent

Synchronisation des ERP

Jumeau Numérique

Agents tiers

Rejoindre la liste de diffusion

Demandez un accès anticipé à votre espace de travail d'IA natif