Creative Commons considera que las herramientas que cobran a los rastreadores de inteligencia artificial (IA) por el acceso al contenido de las páginas webs no deberían implementarse por defecto para evitar nuevas concentraciones de poder y restringir el acceso de investigadores e instituciones sin fines de lucro.
La llegada de los grandes modelos de IA ha supuesto un cambio en la forma en que se usa la web. Por un lado, ofrecen resúmenes y vistas previas que facilitan a los usuarios el acceso a la información, pero que evitan que hagan clic en los enlaces donde están publicados los artículos de los que se nutren.
Por otro, el tráfico web ha incorporado los llamados rastreadores de IA, que acceden a las páginas web para recoger el contenido que hay en ellas, ya sea texto, imágenes o datos estructurados, con el fin de utilizarlo en su entrenamiento.
Estos dos fenómenos han llevado a que el equilibrio entre usuarios y webs que permitía a estas últimas monetizar las visitas se haya roto, y que hayan surgido nuevas herramientas para intentar restablecerlo de nuevo en un mundo que no puede escapar de los modelos de IA.
Una de esas herramientas se conoce como 'pay to crawl' o 'pay per crawl' y lo que hace es cobrar a los rastreadores de IA por el acceso al contenido web. Desde Creative Commons creen que «podría representar una forma para que los sitios web sustenten la creación y el intercambio de su contenido y administren usos sustitutivos, manteniendo el contenido accesible públicamente».
Sin embargo, la postura oficial de la organización sin ánimo de lucro tiene una matización: no creen que esta herramienta deba implementarse por defecto en las páginas web. Si bien entienden que puede servir de apoyo para los sitios web pequeños e independientes, si la aplican otros, podría explotarse «para generar ganancias excesivas a costa del acceso humano y sin beneficiar necesariamente a los creadores originales», ha compartido en un comunicado.
Señalan, asimismo, el papel que esta herramienta tendría en la creación de nuevas concentraciones de poder, «convirtiendo la web de un medio de intercambio y remezcla en un canal de distribución de contenido estrictamente supervisado»; y que su uso indiscriminado podría bloquear el acceso a contenido «a investigadores, organizaciones sin fines de lucro, instituciones de patrimonio cultural, educadores y otros actores que trabajan en beneficio del público».
Por ello, además de insistir en que la herramienta de pago por rastreo no se convierta en una configuración predeterminada en las páginas web, abogan por implementarla con matices, que permitan configurar controles variables en función del contenido y faciliten el acceso de interés público y los derechos legales.
Añaden que esta herramienta deben evitar «la vigilancia y las arquitecturas similares a DRM», minimizando la recopilación de datos para autenticar a los usuarios y liquidar los pagos.
La Fundación Wikimedia, tras experimentar un notable descenso en el tráfico humano y el incremento en el tráficos de 'bots', trasladó en noviembre la necesidad de que las empresas de IA aseguren la correcta atribución de las fuentes de información en sus resultados, así como que utilicen su API de pago para extraer contenido, de cara a «asegurar tanto su propio futuro a largo plazo como el de Wikipedia».
El proveedor de servicios de seguridad de internet Cloudflare, que actúa de intermediario entre el cliente y el servidor, ya permite gestionar el acceso a las web con herramientas que buscan restringir el paso de los rastreadores de IA, total o parcialmente, o monetizar dicho acceso a través de un pago.