Amazon Web Services (AWS) ha anunciado que ha comenzado una investigación sobre el funcionamiento de Perplexity -que emplea sus servidores- para conocer si esta empresa ejecuta la técnica de 'web scrapping' para entrenar sus modelos de Inteligencia Artificial (IA).
El también conocido como raspado de datos es un proceso mediante el cual se recopilan contenidos de páginas web mediante un 'software' que extrae el código HTML de estos sitios para filtrar la información y almacenarla, lo que se compara con el proceso automático de copiado y pegado.
El desarrollador Robb Knight y Wired habrían descubierto recientemente que la 'startup' de búsquedas con IA Perplexity habría violado el conocido como Protocolo de Exclusión de Robots de ciertas páginas web y ejecutado esta técnica para entrenar sus modelos de IA.
Este Protocolo responde a una norma web que consiste en colocar un archivo de texto sin formato (robots.txt) en un dominio para señalar a qué páginas no deben acceder los robots y rastradores automatizados, tal y como explica dicho medio.
En base a estas acusaciones, Amazon Web Services ha dado comienzo a una investigación para determinar si Perplexity, que emplea AWS para entranar su IA, está infringiendo las normas y ejecutando 'web scrapping' en sitios web que intentaban impedírselo.
Así lo ha confirmado a Wired un portavoz de AWS, que ha recordado que en sus términos prohíbe a sus clientes usar sus servicios para cualquier actividad ilegal y que estos son responsables de cumplir con sus condiciones «y todas las leyes aplicables».
Desde la 'startup' han indicado que Perplexity «respeta robots.txt» y que los servicios que controla «no realizan un rastreo de ninguna forma que infrinja las condiciones de servicio de AWS», en palabras de la portavoz Sara Platnick.
Esta, no obstante, ha explicado que su 'bot' ignorará el archivo robots.txt cuando un usuario introduzca una url en su consulta, un caso de uso «no frecuente». «Cuando un usuario indica una url específica no desencadena un comportamiento de rastreo» sino que «el agente actúa en nombre del usuario para recuperar la url. Funciona igual que si este fuera a una página, copiara el tecto del artículo y después lo pegara en el sistema», ha dicho.
En este sentido, Wired ha subrayado que, según la descripción de la portavoz, se confirman que las investigaciones que ha llevado a cabo son veraces y que su 'chatbot' ignora robots.txt en ciertos casos para recopilar información de forma no autorizada.