Soluciones

Resumen

GenSpace Individual

Para Negocios

Resumen

Negocio GenSpace

Pequeña Empresa

Herramientas de productividad para pequeñas empresas

Nuevos negocios

Herramientas para nuevos negocios

Startups

Herramientas de productividad de inicio

Para la empresa

Resumen

Empresa GenSpace

Trabajadores de primera línea

GenSpace para la primera línea

Trabajar más seguro

Proteger a las organizaciones de los ciberataques

Productos

Correo

Correo electrónico empresarial personalizado

Calendario

Correo electrónico empresarial personalizado

archivos

archivos

Documentos

Documentos

Presentaciones

Presentaciones

Las hojas de cálculo

Las hojas de cálculo

escuchar

escuchar

Notas

Notas

Cubierta

Cubierta

Comprensión de los datos de entrenamiento 'disponibles públicamente' en IA

Hace unos días, Google aparentemente envió una advertencia a OpenAI, indicando que no pueden entrenar sus modelos con datos de YouTube. Pero, ¿qué significan los datos de formación "disponibles públicamente" para las empresas de IA?

Recientemente, The New York Times informó que OpenAI, Meta y Google han ignorado ciertas reglas para entrenar sus modelos de IA. Esto plantea importantes interrogantes sobre la naturaleza de los datos "disponibles públicamente".

Cuando se les pregunta a las empresas de inteligencia artificial sobre sus datos de capacitación, a menudo dan respuestas vagas sobre el uso de "datos disponibles públicamente". Por ejemplo, en una entrevista con El Wall Street Journal, la directora de tecnología de OpenAI, Mira Murati, expresó incertidumbre sobre si se utilizaron datos de YouTube u otras plataformas sociales para entrenar sus modelos. Ella afirmó: "Simplemente no voy a entrar en detalles de los datos que se utilizaron, pero eran datos disponibles públicamente o datos con licencia".

Si el uso de datos disponibles públicamente es sencillo, ¿por qué las empresas de IA son tan evasivas? En noviembre de 2023, Ed Newton-Rex, que dirigió el equipo de audio de Stability AI, renunció, argumentando que no está justificado entrenar modelos de IA generativa en obras protegidas por derechos de autor bajo la exención de “uso justo”. Él cree que las obras de los creadores sufren por el contenido duplicado generado por los modelos de IA.

Editores como The New York Times tienen términos de servicio que prohíben explícitamente a las empresas de inteligencia artificial utilizar su contenido para modelos de entrenamiento. Sin embargo, hacer cumplir estos términos sin una legislación federal sobre IA es un desafío. El NYT asumió este desafío presentando una demanda contra OpenAI en diciembre, uniéndose a otros autores y comediantes que demandaron al gigante de la IA por infracción de derechos de autor.

OpenAI sostiene que no han hecho nada malo y enfatiza el uso de contenido con licencia y disponible públicamente. Ed Newton-Rex explicó a Axios que el término “disponible públicamente” a menudo confunde a la gente, ya que no implica necesariamente el permiso del creador, sino más bien que el contenido no se obtuvo ilegalmente.

De acuerdo con un reciente Artículo del NYT, los principales actores de la IA, como OpenAI, Google y Meta, están tomando atajos en la recopilación de datos. En 2016, documentos de una demanda colectiva revelaron que el equipo de Meta discutió la interceptación del tráfico de aplicaciones de los usuarios de Snapchat y luego de los usuarios de YouTube y Amazon, obteniendo acceso a datos confidenciales como nombres de usuario, contraseñas y actividad de las aplicaciones. Más recientemente, los empleados de Meta consideraron utilizar datos protegidos por derechos de autor a pesar del riesgo de demandas, para evitar el largo proceso de obtención de licencias.

Con la disminución de los datos disponibles en Internet, las empresas de inteligencia artificial están luchando por asegurar grandes conjuntos de datos, ya sea a través de grandes acuerdos de licencia o métodos menos éticos. Los creadores están contraatacando, a menudo mediante demandas, pero es un camino desafiante. En febrero, un juez federal desestimó la mayoría de las demandas por infracción de derechos de autor presentadas por autores como Ta-Nehisi Coates y Sarah Silverman, sentando un precedente difícil para los creativos que buscan protección legal para sus obras.

Es probable que en los próximos meses y años se vean casos y leyes históricos que determinarán cómo los creadores comparten su trabajo y cómo las empresas de inteligencia artificial recopilan sus datos.

 

GenSpace.ai es un espacio de trabajo autónomo de IA que se integra con plataformas de chat como Discord o Slack. Le permite controlar todas sus aplicaciones de trabajo y productividad y navegar por la web mediante simples comandos de chat. Nuestros agentes de IA automatizan tareas, administran flujos de trabajo y actúan como su asistente digital, agilizando las operaciones y reduciendo costos para emprendedores y nuevas empresas.

Comparte la publicación:

Artículos Relacionados

Logotipo de GenSpace

Solicite acceso anticipado a su espacio de trabajo de IA nativo