Archivo - Latam.-Portaltic.-Nvidia hizo 'scraping' de contenidos de YouTube y Netflix para entrenar sus modelos de IA, según 404 Media - Andrej Sokolow/dpa - Archivo
BOLIVIA, 6 Aug (EUROPA PRESS)
Según un informe reciente por 404 Media, Nvidia recurrió al 'scraping' de contenido de plataformas populares como YouTube y Netflix para alimentar el entrenamiento de sus modelos de inteligencia artificial (IA), destinados a una gama de proyectos comerciales. Esta técnica, conocida como raspado de datos, consiste en extraer información de internet a través de programas específicos para usarla luego en otros fines, una práctica común en la web.
El reporte detalla que Nvidia ha estado aprovechando estos datos, entre otras fuentes, para perfeccionar sus sistemas de IA en proyectos tan variados como la creación de universos 3D en Omiverse, tecnologías para la conducción autónoma y el desarrollo de “humanos digitales”. Internamente, esta operación fue nombrada 'Cosmos'.
Un exmiembro de la empresa estadounidense reveló que se pidió al personal utilizar contenido de Netflix, YouTube, y otras plataformas como MovieNet y secuencias internas de videojuegos, asegurando que contaban con la debida autorización para emplear dicho contenido. Para superar restricciones de plataformas, recurrieron a herramientas como 'yt-dlp', un descargador de vídeos de YouTube de código abierto, y el empleo de máquinas virtuales que cambian IP para evitar ser detectados.
404 Media accedió a comunicaciones internas en las que se discutía la posibilidad de usar entre 20 y 30 máquinas virtuales en Amazon Web Services para descargar un volumen equivalente a 80 años de vídeos diarios. El vicepresidente de investigación de Nvidia, Ming-Yu Liu, expresó en un correo de mayo que el fin del proyecto Cosmos era crear un modelo de fundación de video capaz de generar "una experiencia visual de vida humana en datos de entrenamiento por día".
A pesar de las dudas legales planteadas por empleados de Nvidia, se les garantizó que el proyecto contaba con todas las autorizaciones requeridas. Sin embargo, tanto Netflix como YouTube han negado tener acuerdos que permitan a Nvidia realizar actividades de 'scraping' en sus contenidos, calificando estas prácticas como violaciones a sus términos de servicio.
Por su parte, Nvidia defiende su metodología argumenta que sus prácticas de investigación y sus modelos "cumplen plenamente" con las leyes de derechos de autor, sosteniendo que las leyes de propiedad intelectual protegen "expresiones específicas pero no hechos, ideas, datos o información", y que el "uso justo" protege la utilización de obras con un propósito transformador.