Poco después de anunciar su rastreador GPTBot el 9 de agostoEl editor de ChatGPT, OpenAI, también compartió los elementos que permiten bloquear su actividad. Y las empresas se apresuraron a aprovecharlo. Según el Plataforma de detección de contenido generado por IA Originality.AIEl 18,6% de los 1.000 sitios web más importantes del mundo bloquearían al menos un rastreador de IA generativa.
El sitio más influyente de la lista es simplemente Amazon, seguido por el motor de búsqueda Quora y la plataforma de contratación Indeed. Al 29 de agosto, solo el GPTbot de OpenAI ya estaba bloqueado por el 12% de los sitios en comparación con el 9,1% de la semana anterior. Sólo el 6% prohíbe el funcionamiento de CCBot (basado en el rastreador Apache Nutch) y el 3,2% ChatGPT-User (este agente de usuario no es un rastreador y solo se activa durante las solicitudes de los usuarios). El New York Times y Shutterstock, por ejemplo, se encuentran entre los pocos que prohíben tanto GPTBot como CCBot. El trío de Amazon, Quora e Indeed solo bloquea el de OpenAI.
Uso de datos para entrenar modelos de IA
¿A qué se debe esa propensión de estos sitios a bloquear los robots de IA generativa? La respuesta es bastante sencilla. La forma en que estas herramientas, que han tenido un éxito deslumbrante desde hace menos de un año, utilizan los datos a su disposición no es particularmente transparente. Por tanto, es difícil identificar los datos utilizados por una de estas IA generativas para responder a una solicitud específica. Y, por tanto, es difícil saber quién podría ser el propietario de estos resultados o cómo se distribuiría su posible propiedad intelectual. Aún más preocupante para los sitios afectados, OpenAI confirmó que explotaba estos datos para responder a las solicitudes de sus usuarios, pero también potencialmente para entrenar sus modelos LLM (modelo de lenguaje grande).
Otras noticias que te pueden interesar