La novedad legal que supone el uso creciente de modelos LLM como forma de acceso a información contenida en (casi) cualquier fuente original es la causa de las demandas por violación del copyright que vemos y veremos durante un tiempo
En esencia, las empresas de IA que desarrollan modelos LLM necesitan entrenar a estos con todo lo disponible para incrementar la precisión de sus respuestas (y aun así tienes alucinaciones!) y en ese agujero negro aspirador entran también los libros
¿El problema? que algunos autores y editoriales no tienen nada claro que usar sus publicaciones sin permiso para entrenar un modelo LLM no sea una forma de robo (léase lo usas sin permiso). Por eso, las sentencias judiciales que se vienen sucediendo son tan importantes y significativas de por donde podrían ir las cosas al menos hasta la siguiente etapa
El más reciente ejemplo nos deja algunas pistas importantes:
Anthropic, la empresa del bot Claude, acaba de ganar, al menos parcialmente, una demanda colectiva interpuesta por 3 autores el pasado año por infringir derechos de autor de ni más ni menos que 5 millones de libros para entrenar sus LLM
Como la demanda colectiva evaluaba el daño en 150.000 US$ por libro esto llevaría a una indemnización ruinosa para cualquiera de más de 750 millardos de dólares (billions), por lo que rápidamente el juez a cargo en el distrito norte de California desestimo rápidamente la demanda colectiva
Y esta semana apareció una primera sentencia que dice textualmente que entrenar un LLM con libros está dentro de lo que la sección 107 de la Ley del Copyright reconoce como Fair Use, ya que literalmente los libros se utilizar como material para entrenar (educar) al modelo
Con esta sentencia se da un primer respiro a los desarrolladores de LLM, pero con un seria advertencia: la sentencia reconoce este Fair Use solo para libros que estas empresas hayan adquirido legalmente ya sea en papel o digital, pero NO para los que hayan bajado de sitios piratas
El problema es que Anthropic y seguramente no es la única, utilizó para entrenar sus LLM y crear su biblioteca central (una especie de repositorio de datos de todo lo que se publica) tanto libros que compraron como libros que bajaron de estos sitios poco respetuosos con el Copyright y ahí es donde la sentencia está en el aire a la espera de evaluar el potencial daño
Hay un párrafo de la sentencia que me parece muy significativo de como se entiende la ley: si te bajas un libro de un site pirata aunque luego te lo compres sigue siendo una infracción del derecho. Lo que cierra la puerta de momento a futuras expiaciones en nombre de la innovación
por supuesto que esta sentencia NO será la ultima y tampoco crea la jurisprudencia aplicable en estos casos por que la IA ha abierto una brecha en el concepto de obra original, tal como ya vimos el año pasado en una demanda de dos medios contra OpenAI, ya que los bots como ChatGPT o Claude crean respuestas originales basadas en datos con los que han sido entrenados los LLM que usan, pero no reproducen literalmente nada
Como veis esta nueva forma de creación se parece sospechosamente a lo que ha sido siempre, autores que se basan en la obra previa de otros autores, y la diferencia ahora es básicamente la escala
No comments:
Post a Comment