El caso que nadie ganó: cuando los programadores demandaron a GitHub por usar su código para entrenar IA

El caso que nadie ganó: cuando los programadores demandaron a GitHub por usar su código para entrenar IA

Copilot es un asistente de programación basado en inteligencia artificial que sugiere código en tiempo real mientras el desarrollador escribe. Fue desarrollado por GitHub en colaboración con OpenAI, y su funcionamiento depende de un entrenamiento masivo: el modelo aprendió a programar ingiriendo decenas de millones de repositorios públicos alojados en la misma plataforma que lo creó.

El problema surgió cuando varios desarrolladores denunciaron que Copilot había aprendido con código que presuntamente no le pertenecía a GitHub. Las licencias open source más populares, tales como MIT, GPL, Apache, exigen que cualquiera que use el código atribuya a su autor original y mantenga visible el aviso de copyright. Son, en términos legales, contratos. Y Copilot, al generar sugerencias de código entrenadas sobre ese material, los estaba ignorando sistemáticamente.

La demanda

En noviembre de 2022, el abogado y tipógrafo Matthew Butterick, junto con el despacho Joseph Saveri, presentó una demanda colectiva en un tribunal federal de San Francisco contra GitHub, Microsoft y OpenAI. Los demandantes representaban a una clase potencial de millones de desarrolladores cuyos repositorios habían sido utilizados para entrenar el modelo.

Los argumentos eran múltiples: violación de la DMCA sección 1202(b), que prohíbe eliminar información de gestión de derechos de autor; incumplimiento de los propios términos de servicio de GitHub; violación de la Ley de Privacidad del Consumidor de California; y, fundamentalmente, violación de las licencias open source bajo las que había sido publicado el código.

Era, según sus promotores, el primer caso colectivo en Estados Unidos que desafiaba directamente el entrenamiento y el output de sistemas de inteligencia artificial.

Lo que dijeron los tribunales

El caso comenzó con 22 cargos. A lo largo de dos años, el juez Jon Tigar fue desestimando la mayoría a medida que los demandados presentaban mociones de desestimación.

El golpe más significativo llegó en julio de 2024. El juez desechó el cargo de la DMCA por una razón técnica pero reveladora: el código que Copilot generaba no era suficientemente idéntico al código original de los demandantes. Para que aplicara la sección 1202(b), la ley exige un grado de identidad que el juez no encontró demostrado. Citó un estudio que señalaba que Copilot raramente memoriza código de forma literal, y solo lo hace cuando se le proporcionan fragmentos muy extensos y similares al material de entrenamiento.

Dos años después, lo que The Register reveló en 2024 fue igualmente significativo: GitHub ya había modificado Copilot para generar variaciones del código ingerido, precisamente para evitar que su output pudiera acusarse de ser una copia exacta de software con licencia. Es decir, la defensa no fue «no tomamos ese código». Fue «lo transformamos lo suficiente para que la ley no aplique».

Para julio de 2024, de los 22 cargos originales, solo sobrevivían dos: la violación de licencias open source y el incumplimiento de contrato. En septiembre de 2024, parte del caso fue llevada al Noveno Circuito de Apelaciones.

La pregunta que el derecho no pudo responder

El desenlace parcial del caso revela algo más importante que el resultado legal en sí: la ley de derechos de autor, tal como existe hoy, no fue diseñada para este escenario.

El sistema de licencias open source asumía un mundo donde el usuario del código era otro desarrollador, alguien capaz de leer una licencia, entender sus condiciones y tomar una decisión consciente de cumplirlas o no. Una IA que ingiere cientos de millones de repositorios de forma automatizada rompe ese supuesto por completo. No «lee» una licencia en ningún sentido significativo. No toma decisiones sobre cumplirla. Simplemente procesa el material y aprende de él.

La DMCA tampoco estaba pensada para este caso. Su exigencia de identidad entre el material original y el output tiene sentido cuando hablamos de copias directas, alguien que descarga una canción y la redistribuye sin cambios. Pero cuando un modelo aprende de millones de fuentes y genera código que es funcionalmente derivado sin ser textualmente idéntico, la ley no tiene una respuesta clara.

Lo que quedó en pie, la violación de licencias y el incumplimiento de contrato, es precisamente la pregunta más interesante: si aceptas los beneficios del código open source, ¿también aceptas sus condiciones aunque seas una máquina? Y si no las aceptas, ¿qué significa realmente que ese código sea «abierto»?

El costo silencioso

Más allá del litigio, el caso tuvo consecuencias concretas en la comunidad open source. La Software Freedom Conservancy, organización que lleva décadas promoviendo el software libre, había pedido años antes a los desarrolladores que abandonaran GitHub. El lanzamiento de Copilot fue el punto de quiebre definitivo: consideraron que GitHub había traicionado a su propia comunidad al monetizar el trabajo colectivo de sus usuarios para construir un producto comercial de suscripción paga.

Hay una ironía difícil de ignorar en todo esto. GitHub fue durante años el lugar donde los desarrolladores fueron a compartir su trabajo bajo la premisa de que ese acto de generosidad estaba protegido por reglas claras. La misma plataforma utilizó ese acervo para entrenar una herramienta que hoy cobra 10 dólares al mes a los mismos desarrolladores que lo construyeron y que están siendo desplazados laboralmente por ese invento.

El caso Copilot no terminó con una gran sentencia ni con un principio legal establecido. Se fue diluyendo cargo por cargo hasta quedar reducido a una pregunta técnica sobre contratos.