El gato y el ratón juegan al copyright
Leo en Slahdot que algunos escritores y empresas se están planteando el uso de las llamadas "trampas de copyright".
No es nueva la pretensión de los autores, plasmada en el Copyright de defender el derecho exclusivo de uso y distribución de sus obras. Lo que sí es nuevo es el uso de los modelos de lenguaje de gran tamaño (LLM por sus siglas en inglés) que aprenden a partir de grandes cantidades de texto. Estos textos como libros, artículos, opiniones en redes sociales...a menudo están protegidos por derechos de autor.
Las empresas que desarrollan LLM argumentan que puede considerarse un "uso justo" ("fair use" en inglés) lo que constituye una excepción en la ley de copyright.
Es difícil decidir si un texto ha sido utilizado o no en el entrenamiento de uno de estos modelos. Al parecer un equipo del Colegio Imperial de Londres ha desarrollado estas "trampas de copyright" fragmentos de texto ocultos que permitirían detectar su uso indebido.
La idea no es nueva, en obras de referencia como diccionarios, mapas e incluso tablas matemáticas se han usado datos lugares o personajes falsos para detectar el plagio. Toda la entrada de Wikipedia citada es divertida de leer.
Las trampas no son a toda prueba y pueden ser suprimidas pero el director del estudio dice que incrementar su número podría hacer muy costoso y difícil quitar todas. Posiblemente sea un juego del gato y el ratón finalmente.
Para una opinión contraria con la que estoy de acuerdo en buena parte puedes leer una entrada en el blog de Enrique Dans porque también del copyright se puede abusar y de hecho se abusa.