La amenaza invisible de los rastreadores de IA en Wikipedia

Wikipedia sufre una sobrecarga de tráfico provocada por bots de IA que ignoran las normas de acceso.
Los rastreadores extraen contenido para entrenar modelos, saturando servidores y desplazando a usuarios humanos.
Proyectos de software libre también se ven afectados por el incremento de tráfico y los costes asociados.
Se plantean nuevas medidas y acuerdos entre plataformas abiertas y empresas de IA para garantizar la sostenibilidad del ecosistema digital.

tráfico masivo de rastreadores de IA en Wikipedia

En los últimos meses, plataformas digitales centradas en la compartición libre del conocimiento han empezado a mostrar signos de fatiga ante la creciente actividad de los rastreadores de inteligencia artificial. Servicios como Wikipedia están experimentando una presión sin precedentes en su infraestructura, generada no por un aumento genuino de usuarios humanos, sino por la actividad incansable de bots orientados a capturar datos para alimentar modelos de IA generativa.

Estos rastreadores, muchas veces camuflados o sin identificar claramente, tienen como finalidad recopilar masivamente textos, imágenes, vídeos y otros materiales públicos disponibles en la web con el objetivo de mejorar el entrenamiento de modelos de lenguaje y sistemas de generación de contenido visual.

Wikipedia y el coste de ser abierta

La Fundación Wikimedia, encargada de mantener Wikipedia y otros proyectos relacionados, ha comunicado que desde comienzos de 2024 el tráfico en sus servidores se ha incrementado en un 50%. Esta subida no estaría impulsada por el interés espontáneo de los lectores, sino por bots que se dedican a escanear sistemáticamente el contenido disponible. De hecho, se estima que alrededor de dos tercios del tráfico dirigido a los centros de datos más costosos proviene de estas herramientas automatizadas.

Contenido exclusivo - Clic Aquí Cómo usar Google Search para detectar fake news y evitar la desinformación

El problema se agrava por el hecho de que muchos de estos bots ignoran directrices establecidas en el archivo ‘robots.txt’, que tradicionalmente se usa para marcar qué partes de un sitio web pueden o no ser indexadas por máquinas. Esta violación de normas ha puesto al límite los recursos de Wikimedia, dificultando el acceso normal a los usuarios y afectando al rendimiento general del servicio. Este tipo de actividad puede ser comparable a software espía que afecta la privacidad de los usuarios.

“El contenido está abierto, pero mantenerlo disponible tiene un coste elevado”, explican desde la organización. Y es que alojar, servir y proteger millones de artículos y archivos no es gratis, a pesar de que cualquiera pueda consultarlos sin pagar.

El problema se extiende a otros rincones del ecosistema libre

No solo Wikipedia está sufriendo los efectos de la recolección indiscriminada de datos por parte de bots de IA. Comunidades y desarrolladores de software libre también se ven afectados negativamente. Sitios que alojan documentación técnica, librerías de código o herramientas de código abierto reportan aumentos abruptos de tráfico, muchas veces imposibles de asumir sin consecuencias económicas. La preocupación sobre quién te espía al navegar es cada vez más relevante.

El ingeniero Gergely Orosz, por ejemplo, vio cómo en cuestión de semanas uno de sus proyectos multiplicaba por siete su consumo de ancho de banda. Esta situación terminó generando costes inesperados por exceso de tráfico que tuvo que asumir él mismo.

Contenido exclusivo - Clic Aquí OpenAI amarra memoria y centros en Corea con Samsung y SK Hynix

Para contrarrestar esta situación, desarrolladores como Xe Iaso han creado herramientas como Anubis, un proxy inverso que obliga a los visitantes de una web a superar una pequeña prueba antes de acceder al contenido. El objetivo es filtrar bots, que generalmente no pueden pasar estas pruebas, y priorizar el acceso humano. Sin embargo, estos métodos tienen una eficacia limitada, ya que los rastreadores de IA evolucionan continuamente para esquivar estos obstáculos, utilizando técnicas como el uso de direcciones IP residenciales o cambios frecuentes de identidad.

De la defensa a la ofensiva: trampas para los bots

Algunos desarrolladores han adoptado estrategias más proactivas. Herramientas como Nepenthes o AI Labyrinth, esta última impulsada por servicios como Cloudflare, han sido diseñadas para atraer a los bots a un laberinto de contenido falso o irrelevante. De este modo, los rastreadores desperdician recursos al intentar arañar información sin valor, mientras los sistemas auténticos se ven menos sobrecargados.

El dilema de la web libre y los modelos de IA

Esta situación encierra un conflicto de fondo: la paradoja de que la apertura de Internet, que ha facilitado el desarrollo de la inteligencia artificial, ahora amenaza la viabilidad de los espacios digitales que nutren a esa misma IA. Las grandes compañías tecnológicas obtienen inmensos beneficios al entrenar sus modelos con contenido gratuito, pero no suelen contribuir al sostenimiento de las infraestructuras que lo hacen posible.

Desde las fundaciones y comunidades afectadas se insiste en que es necesario un nuevo pacto de convivencia digital. Este debería incluir, al menos, los siguientes aspectos:

Contribuciones económicas por parte de las empresas de IA a las plataformas que utilizan como fuente de datos.
Implementación de APIs específicas para acceder a contenido de forma regulada, escalable y sostenible.
Respeto escrupuloso de las normas de exclusión de bots, como ‘robots.txt’, que muchas herramientas ignoran actualmente.
Atribución del contenido reutilizado, para que se reconozca el valor de los colaboradores originales.

Contenido exclusivo - Clic Aquí Qué es la Misión Génesis y por qué preocupa a Europa

Wikimedia y otros actores urgen medidas

Más allá de las iniciativas individuales, la Fundación Wikimedia está abogando por medidas coordinadas que eviten el colapso de su infraestructura. Plataformas como Stack Overflow ya han empezado a cobrar por el acceso automatizado a sus contenidos, y no se descarta que otras sigan el mismo camino si la situación no mejora.

La excesiva presión que ejercen los bots de IA sobre proyectos voluntarios y sin ánimo de lucro puede acabar acelerando el cierre o restricción del acceso libre a gran parte del conocimiento en línea. Una consecuencia paradójica, considerando que esas fuentes han sido clave para el avance de la tecnología que hoy amenaza su existencia. La necesidad de un navegador seguro es esencial ante esta situación.

El desafío actual es encontrar un modelo de uso responsable de los recursos digitales abiertos, que asegure la sostenibilidad tanto de los modelos de IA como del tejido de conocimiento colaborativo que los respalda.

Si no se alcanza un equilibrio justo entre explotación y colaboración, el ecosistema web que alimentó los mayores avances en IA podría convertirse también en una de sus principales víctimas.

Alberto Navarro

Soy un apasionado de la tecnología que ha convertido sus intereses «frikis» en profesión. Llevo más de 10 años de mi vida utilizando tecnología de vanguardia y trasteando todo tipo de programas por pura curiosidad. Ahora me he especializado en tecnología de ordenador y videojuegos. Esto es por que desde hace más de 5 años que trabajo redactando para varias webs en materia de tecnología y videojuegos, creando artículos que buscan darte la información que necesitas con un lenguaje entendible por todos.

Si tienes cualquier pregunta, mis conocimientos van desde todo lo relacionado con el sistema operativo Windows así como Android para móviles. Y es que mi compromiso es contigo, siempre estoy dispuesto a dedicarte unos minutos y ayudarte a resolver cualquier duda que tengas en este mundo de internet.