Cómo GitHub Copilot podría llevar a Microsoft a una tormenta de derechos de autor

Reporte especial GitHub Copilot, una herramienta de autosugestión de programación entrenada a partir de un código fuente público en Internet, ha sido sorprendida generando lo que parece ser un código con derechos de autor, lo que llevó a un abogado a investigar un posible reclamo por infracción de derechos de autor.

El lunes, Matthew Butterick, abogado, diseñador y desarrollador, anunció está trabajando con el bufete de abogados Joseph Saveri para investigar la posibilidad de presentar un reclamo de derechos de autor contra GitHub. Aquí hay dos posibles líneas de ataque: ¿GitHub está entrenando incorrectamente a Copilot en código fuente abierto y la herramienta está emitiendo incorrectamente el trabajo protegido por derechos de autor de otras personas, extraído de los datos de entrenamiento, para sugerir fragmentos de código a los usuarios?

Butterick ha sido crítico con Copiloto desde su lanzamiento. En junio publicó una entrada de blog argumentando que “cualquier código generado por Copilot puede contener licencia oculta o violaciones de propiedad intelectual” y, por lo tanto, debe evitarse.

Ese mismo mes, Denver Gingerich y Bradley Kuhn de Software Freedom Conservancy (SFC) dijeron que su organización dejaría de usar GitHub, en gran parte como resultado de que Microsoft y GitHub lanzaron Copilot sin abordar las preocupaciones sobre cómo el modelo de aprendizaje automático manejó los diferentes requisitos de licencia de código abierto.

Muchos desarrolladores se han preocupado por lo que significa Copilot para el código abierto

La capacidad de Copilot para copiar código palabra por palabra, o casi, salió a la luz la semana pasada cuando Tim Davis, profesor de informática e ingeniería en la Universidad de Texas A&M, encontró que el copiloto, cuando se le solicitara, reproduciría su código de transposición de matriz dispersa con derechos de autor.

Cuando se le pidió que comentara, Davis dijo que preferiría esperar hasta recibir noticias de GitHub y su matriz, Microsoft, sobre sus preocupaciones.

En un correo electrónico a El registro, Butterick indicó que ha habido una fuerte respuesta a las noticias de su investigación.

“Claramente, muchos desarrolladores han estado preocupados por lo que significa Copilot para el código abierto”, escribió. “Estamos escuchando muchas historias. Nuestra experiencia con Copilot ha sido similar a lo que otros han encontrado: que no es difícil inducir a Copilot a emitir código palabra por palabra desde repositorios de código abierto identificables. A medida que ampliamos nuestra investigación, esperamos ver más ejemplos.

“Pero tenga en cuenta que la copia textual es solo uno de los muchos problemas presentados por Copilot. Por ejemplo, los derechos de autor de un autor de software en su código se pueden violar sin una copia literal. Además, la mayor parte del código fuente abierto está cubierto por una licencia, lo que impone requisitos legales adicionales. ¿Ha cumplido Copilot estos requisitos? Estamos analizando todos estos problemas”.

Los portavoces de Microsoft y GitHub no pudieron comentar para este artículo. Sin embargo, la documentación de GitHub para Copilot advierte que la salida puede contener "patrones indeseables" y pone la responsabilidad de la infracción de propiedad intelectual sobre el usuario de Copilot. Es decir, si usa Copilot para autocompletar el código por usted y lo demandan, recibió una advertencia. Esa advertencia implica que el potencial de Copilot para producir código protegido por derechos de autor no fue inesperado.

'Ansioso'

Cuando GitHub presentó una versión beta de Copilot en 2021 y surgieron preguntas sobre derechos de autor y licencias, el entonces director ejecutivo Nat Friedman opinó “Entrenar sistemas ML en datos públicos es un uso justo [y] la salida pertenece al operador, al igual que con un compilador. Esperamos que la PI y la IA sean un debate político interesante en todo el mundo en los próximos años, ¡y estamos ansiosos por participar!”.

Esa participación, por cierto, ha incluido paneles de discusión financiados por GitHub sobre el impacto de la IA en el código abierto, en un evento dirigido por la Open Source Initiative, que está parcialmente financiada por Microsoft.

Kuhn de la SFC dijo El registro en un correo electrónico que las declaraciones del ahora ex director ejecutivo de GitHub de que estos problemas de derechos de autor son leyes resueltas crean una narrativa falsa, un punto que ha señalado previamente.

“Hemos hablado con Microsoft y GitHub varias veces sobre este tema y su posición anti-FOSS [software libre y de código abierto] no compatible se ha mantenido inquietantemente constante”, escribió. “Creemos que Microsoft y GitHub han hecho el cálculo político de que si siguen repitiendo que lo que están haciendo es aceptable, pronto y con frecuencia, pueden hacer realidad lo que no se sabe que es cierto”.

Sin embargo, entre aquellos que encuentran útiles herramientas como Copilot, existe la esperanza de que la IA de asistencia pueda reconciliarse con nuestros marcos sociales y legales. Que la salida de un modelo no dará lugar a litigios.

Brett Becker, profesor asistente en el University College Dublin en Irlanda, dijo El registro en un correo electrónico, “las herramientas de programación asistida por IA no van a desaparecer y seguirán evolucionando. La ubicación de estas herramientas en el panorama actual de las prácticas de programación, la ley y las normas comunitarias apenas comienza a explorarse y también seguirá evolucionando.

“Una pregunta interesante es: ¿cuáles surgirán como los principales impulsores de esta evolución? ¿Estas herramientas alterarán fundamentalmente las prácticas, leyes y normas comunitarias futuras, o nuestras prácticas, leyes y normas comunitarias serán resistentes e impulsarán la evolución de estas herramientas?

Las implicaciones legales de los grandes modelos de lenguaje, como el Codex de OpenAI, en el que se basa Copilot, y los modelos de texto a imagen creados a partir de conjuntos de datos compilados por la organización sin fines de lucro alemana LAION, como Imagen y Stable Diffusion, siguen siendo temas candentes de discusión. Preocupaciones similares sobre el imágenes generadas por Midjourney ha sido criado.

Cuando se le preguntó si cree que los modelos de lenguaje extenso (LLM) centrados en generar código fuente son más propensos a violaciones de derechos de autor debido a la naturaleza restringida de su producción, Butterick dijo que es reacio a generalizar.

“También hemos estado investigando los generadores de imágenes: los usuarios ya han descubierto que DALL-E, Midjourney y Stable Diffusion tienen diferentes fortalezas y debilidades. Es probable que lo mismo ocurra con los LLM para la codificación”, dijo.

“Estas preguntas sobre Copilot se han planteado desde que estuvo disponible por primera vez en versión beta. Probablemente haya algunas cuestiones legales que terminarán siendo comunes a todos estos sistemas, especialmente en torno al manejo de datos de entrenamiento. Nuevamente, no somos las primeras personas en plantear esto. Una gran diferencia entre el código de fuente abierta y las imágenes es que las imágenes generalmente se ofrecen bajo licencias que son más restrictivas que las licencias de fuente abierta”.

También hay cuestiones sociales y éticas adyacentes que siguen sin resolverse, como si el código generado por IA debe considerarse plagio y en qué medida los creadores de los materiales utilizados para entrenar una red neuronal deben opinar sobre el uso de ese modelo de IA.

En Texas Law Review en marzo de 2021, Mark Lemley, profesor de derecho de Stanford, y Bryan Casey, entonces profesor de derecho en Stanford, plantearon una pregunta: "¿La ley de derechos de autor permitirá que los robots aprendan?" Ellos argumentar que, al menos en los Estados Unidos, debería.

“Los sistemas [de aprendizaje automático] generalmente deberían poder usar bases de datos para capacitación, ya sea que el contenido de esa base de datos tenga derechos de autor o no”, escribieron, y agregaron que la ley de derechos de autor no es la herramienta adecuada para regular los abusos.

Pero cuando se trata de la salida de estos modelos, las sugerencias de código hechas automáticamente por Copilot, el potencial para el reclamo de derechos de autor propuesto por Butterick parece más fuerte.

“De hecho, creo que hay una posibilidad decente de que haya un buen reclamo de derechos de autor”, dijo Tyler Ochoa, profesor del departamento de derecho de la Universidad de Santa Clara en California, en una entrevista telefónica con El registro.

De hecho, creo que hay una posibilidad decente de que haya un buen reclamo de derechos de autor.

En cuanto a la ingestión de código de acceso público, dijo Ochoa, puede haber violaciones de licencia de software, pero eso probablemente esté protegido por el uso justo. Si bien no ha habido muchos litigios al respecto, varios académicos han tomado esa posición y él dijo que se inclina a estar de acuerdo.

Kuhn está menos dispuesto a dejar de lado cómo Copilot maneja las licencias de software.

“Lo que GitHub de Microsoft ha hecho en este proceso es absolutamente desmesurado”, dijo. “Sin discusión, consentimiento o compromiso con la comunidad de FOSS, han declarado que saben mejor que los tribunales y nuestras leyes sobre lo que está permitido o no bajo una licencia de FOSS. Han ignorado por completo las cláusulas de atribución de todas las licencias FOSS y, lo que es más importante, los requisitos de protección de la libertad de las licencias copyleft”.

Pero en términos de dónde Copilot puede ser vulnerable a un reclamo de derechos de autor, Ochoa cree que es probable que los LLM que generan código fuente, más que modelos que generan imágenes, se hagan eco de los datos de entrenamiento. Eso puede ser problemático para GitHub.

“Cuando intenta generar código, código fuente, creo que tiene una probabilidad muy alta de que el código que genere se verá como una o más de las entradas, porque el objetivo del código es lograr algo funcional. ," él dijo. “Una vez que algo funciona bien, muchas otras personas lo van a repetir”.

Ochoa argumenta que es probable que el resultado sea el mismo que los datos de entrenamiento por una de dos razones: “Una es que solo hay una buena manera de hacerlo. Y el otro es [usted está] copiando básicamente una solución de código abierto.

“Si solo hay una buena manera de hacerlo, está bien, entonces probablemente no sea elegible para los derechos de autor. Pero lo más probable es que solo haya mucho código en [los datos de entrenamiento] que ha usado la misma solución de código abierto, y que el resultado se verá muy similar a eso. Y eso es solo copiar”.

En otras palabras, el modelo puede sugerir código para resolver un problema para el cual solo hay una solución práctica, o está copiando el código abierto de alguien que hace lo mismo. En cualquier caso, probablemente se deba a que muchas personas han usado el mismo código, y eso aparece mucho en los datos de entrenamiento, lo que hace que el asistente lo regurgite.

¿Sería eso un uso justo? No es claro. Ochoa dice que la naturaleza funcional del código significa que reproducirlo en una sugerencia puede no verse como particularmente transformador, que es uno de los criterios para determinar el uso legítimo. Y luego está la cuestión de si la copia perjudica al mercado cuando el mercado no cobra por el código fuente abierto. Si daña el mercado, es posible que no se aplique el uso justo.

“El problema aquí es que el mercado no te cobra dinero por estos usos”, dijo Ochoa, y agregó que los términos de las licencias de código abierto son lo que más le interesa al mercado. “Si un tribunal cree que esas condiciones son importantes, entonces dirán, 'sí, estás dañando el mercado de estas obras, porque no estás cumpliendo con las condiciones'. [Los creadores de software] no están recibiendo la consideración que querían cuando crearon estas palabras en primer lugar.

“Así que no están buscando una compensación monetaria. Están buscando una compensación no monetaria. Y no lo están consiguiendo. Y si no lo obtienen, será menos probable que contribuyan con código fuente abierto en el futuro. En teoría, eso es dañar el mercado de estas obras o dañar el incentivo para producirlas”.

Por lo tanto, el código generado puede no ser lo suficientemente transformador como para ser un uso justo y puede dañar el mercado como se describe, nuevamente, potencialmente descarrilando un reclamo de uso justo.

Cuando Berkeley Artificial Intelligence Research consideró este tema en 2020, el grupo sugiere que quizás entrenar modelos de lenguaje grande a partir de datos web públicos es fundamentalmente defectuoso, dadas las preocupaciones sobre la privacidad, el sesgo y la ley. Propusieron que las empresas de tecnología inviertan en recopilar mejores datos de capacitación en lugar de aspirar la web. Eso no parece haber sucedido.

Kuhn argumenta que el statu quo no debe mantenerse y agrega que SFC ha estado discutiendo el GitHub de Microsoft con su abogado litigante durante un año.

“Estamos en una encrucijada en nuestra cultura, que en muchos sentidos fue predicha por la ciencia ficción”, dijo.

“Las grandes empresas tecnológicas, en todo tipo de formas, buscan imponernos sus conclusiones preferidas sobre las aplicaciones de la inteligencia artificial, independientemente de lo que diga la ley o los valores que tenga la comunidad de usuarios, consumidores y desarrolladores. FOSS, y la explotación inapropiada de FOSS por GitHub de Microsoft, es solo una forma de hacer esto entre muchas. Tenemos que hacer frente al comportamiento de Big Tech aquí, y planeamos hacerlo”.

Cuando se le preguntó cuál sería el resultado ideal, Butterick respondió que es demasiado pronto para decirlo.

“Hay tanto que no sabemos sobre cómo funciona Copilot”, escribió.

“Ciertamente, podemos imaginar versiones de Copilot que sean más amigables con los derechos e intereses de los desarrolladores de código abierto. Tal como está, es potencialmente una amenaza existencial para el código abierto.

“Obviamente, es irónico que GitHub, una empresa que construyó su reputación y valor de mercado sobre sus lazos profundos con la comunidad de código abierto, lanzaría un producto que monetiza el código abierto de una manera que daña a la comunidad. Por otro lado, considerando la larga historia de antagonismo de Microsoft hacia el código abierto, tal vez no sea tan sorprendente. Cuando Microsoft compró GitHub en 2018, muchos desarrolladores de código abierto, incluido yo, esperaban lo mejor. Aparentemente esa esperanza estaba fuera de lugar”. ®

Inteligencia de datos generativa

Cómo GitHub Copilot podría llevar a Microsoft a una tormenta de derechos de autor

'Ansioso'

Bitcoin exits post-halving dip, signals accumulation phase, suggests analyst

El economista Henrik Zeberg dice que se avecina un repunte extremo para las criptomonedas y las acciones, pero hay un gran problema – The Daily Hodl

Información más reciente

El precio de SOL recupera fuerza, ¿puede Solana recuperar $ 150 y continuar más alto?

¿Puede el precio de XRP mantener el impulso? Niveles clave a tener en cuenta en el corto plazo

Seguimiento del registro de proveedores

MtGox se prepara para liberar 142,000 BTC y 143,000 BCH antes del 31 de octubre

Los inversores apuestan por Solana mientras los productos de inversión SOL lideran las entradas de altcoins, según muestran los datos

La liquidez de Bitcoin se traslada a Altcoins: se espera la temporada alternativa en 2-3 meses