Wikipedia onder druk door enorm AI-crawlerverkeer

Laatste update: 03/04/2025

  • Wikipedia kampt met een overbelasting van het internetverkeer, omdat AI-bots de toegangsregels negeren.
  • Crawlers extraheren inhoud om modellen te trainen, waardoor servers overbelast raken en menselijke gebruikers worden verdrongen.
  • Ook vrije softwareprojecten hebben last van meer verkeer en de daarmee gepaard gaande kosten.
  • Er worden nieuwe maatregelen en overeenkomsten tussen open platforms en AI-bedrijven overwogen om de duurzaamheid van het digitale ecosysteem te waarborgen.
Massaal verkeer van AI-crawlers op Wikipedia

De afgelopen maanden hebben digitale platforms zich gericht op het gratis delen van kennis zijn tekenen van vermoeidheid gaan vertonen in het licht van de toenemende activiteit van de kunstmatige intelligentie trackers. Diensten als Wikipedia ervaren een ongekende druk op hun infrastructuur, die niet wordt veroorzaakt door een echte toename van het aantal menselijke gebruikers, maar door De onvermoeibare activiteit van bots die zich richten op het verzamelen van gegevens om generatieve AI-modellen te voeden.

Deze trackers, vaak gecamoufleerd of niet duidelijk geïdentificeerd, Hun doel is om op grote schaal teksten, afbeeldingen, video's en ander openbaar materiaal te verzamelen dat beschikbaar is op het web. met als doel de training van taalmodellen en systemen voor het genereren van visuele inhoud te verbeteren.

Wikipedia en de kosten van openheid

Wikipedia en de kosten van openheid

De Wikimedia Foundation, die Wikipedia en aanverwante projecten onderhoudt, heeft aangekondigd dat Sinds begin 2024 is het verkeer op de servers met 50% toegenomen.. Deze toename zou niet worden veroorzaakt door spontane interesse van lezers, maar door bots die zijn toegewijd aan het systematisch scannen van de beschikbare inhoud. In feite wordt geschat dat Ongeveer tweederde van het verkeer dat naar de duurste datacenters wordt geleid, is afkomstig van deze geautomatiseerde tools..

Exclusieve inhoud - Klik hier  Beton creëren met AI: een nieuwe aanpak voor duurzamere en veerkrachtigere infrastructuur

Het probleem wordt nog groter doordat veel van deze bots negeer vastgestelde richtlijnen in het bestand 'robots.txt', dat traditioneel wordt gebruikt om aan te geven welke delen van een website wel en niet door machines kunnen worden geïndexeerd. Deze overtreding van de regel heeft de bronnen van Wikimedia zwaar belast, waardoor de normale toegang van gebruikers wordt belemmerd en de algehele prestaties van de dienst worden beïnvloed. Dit soort activiteiten kan vergelijkbaar zijn met spyware die de privacy van gebruikers aantast.

"De inhoud is openbaar, maar het is duur om deze beschikbaar te houden."De organisatie legt uit. Het hosten, serveren en beschermen van miljoenen artikelen en bestanden is niet gratis, ook al kan iedereen er toegang toe krijgen zonder te betalen.

Het probleem strekt zich uit tot andere hoeken van het vrije ecosysteem

Wikipedia is niet de enige die lijdt onder de gevolgen van het willekeurig verzamelen van gegevens door AI-bots.. Ook vrije softwaregemeenschappen en ontwikkelaars ondervinden negatieve gevolgen. Sites die technische documentatie, codebibliotheken of opensourcetools hosten, melden plotselinge toenames in het verkeer. Vaak is dit niet te verwerken zonder financiële gevolgen. De bezorgdheid over wie er allemaal op u let terwijl u op het internet surft, wordt steeds groter..

Ingenieur Gergely Orosz bijvoorbeeld Hij zag hoe een van zijn projecten binnen enkele weken het bandbreedteverbruik verzevenvoudigde.. Deze situatie leidde tot onverwachte kosten vanwege het extra verkeer dat hij zelf moest betalen.

Exclusieve inhoud - Klik hier  Figuur 03: De humanoïde robot springt van de werkplaats naar huis

Om deze situatie tegen te gaan, hebben ontwikkelaars zoals Xe Iaso hulpmiddelen gecreëerd zoals Anubis, een omgekeerde proxy die dwingt bezoekers van een website om een ​​korte test te doorlopen voordat ze toegang krijgen tot de inhoud. Het doel is om bots, die deze tests doorgaans niet doorstaan, eruit te filteren en menselijke toegang voorrang te geven. Deze methoden zijn echter slechts beperkt effectief, omdat AI-crawlers blijven zich ontwikkelen om deze obstakels te omzeilen., met behulp van technieken zoals het gebruik van IP-adressen of frequente identiteitswijzigingen.

Van verdediging naar aanval: vallen voor bots

Sommige ontwikkelaars hanteren proactievere strategieën. Hulpmiddelen zoals Nepenthes o AI-labyrint, de laatste aangestuurd door diensten als Cloudflare, zijn ontworpen om bots lokken in een doolhof van nep- of irrelevante inhoud. Op deze manier verspillen crawlers middelen aan het proberen te verzamelen van waardeloze informatie, terwijl legitieme systemen minder worden belast.

Het dilemma van het vrije web en AI-modellen

Deze situatie bevat een onderliggend conflict: De paradox is dat de openstelling van het internet, die de ontwikkeling van kunstmatige intelligentie mogelijk heeft gemaakt, nu de levensvatbaarheid van de digitale ruimtes die diezelfde AI voeden, bedreigt.. Grote technologiebedrijven maken enorme winsten door hun modellen te trainen met gratis content, maar Ze dragen doorgaans niet bij aan het onderhoud van de infrastructuur die het mogelijk maakt.

De getroffen stichtingen en gemeenschappen dringen erop aan dat Een nieuw digitaal coëxistentiepact is noodzakelijk. Dit zou ten minste de volgende aspecten moeten omvatten:

  • Financiële bijdragen van AI-bedrijven naar de platforms die ze als gegevensbron gebruiken.
  • Implementatie van specifieke API's om op een gereguleerde, schaalbare en duurzame manier toegang te krijgen tot content.
  • Nauwkeurige naleving van de regels voor het uitsluiten van bots, zoals 'robots.txt', dat momenteel door veel tools wordt genegeerd.
  • Toeschrijving van hergebruikte inhoud, zodat de waarde van de oorspronkelijke bijdragers erkend wordt.
Exclusieve inhoud - Klik hier  DeepSeek geeft gas: lagere kosten, meer context en een lastige concurrent voor OpenAI

Wikimedia en anderen roepen op tot actie

Wikimedia

Naast individuele initiatieven, De Wikimedia Foundation pleit voor gecoördineerde maatregelen om te voorkomen dat hun infrastructuur instort. Platforms als Stack Overflow zijn al begonnen met het vragen van geld voor geautomatiseerde toegang tot hun content. Het is mogelijk dat anderen dit voorbeeld zullen volgen als de situatie niet verbetert.

De buitensporige druk die AI-bots uitoefenen op vrijwillige en non-profitprojecten kan ertoe leiden dat de sluiting of beperking van de vrije toegang tot een groot deel van de online kennis wordt versneld. Een paradoxaal gevolg, aangezien deze bronnen van cruciaal belang zijn geweest voor de vooruitgang van de technologie, maar die vandaag de dag hun bestaan ​​bedreigt. In deze situatie is een veilige browser essentieel..

De huidige uitdaging is een model vinden voor verantwoord gebruik van open digitale bronnen, wat de duurzaamheid van zowel AI-modellen als het collaboratieve kennisnetwerk dat deze ondersteunt, waarborgt.

Als er geen eerlijk evenwicht tussen exploitatie en samenwerking wordt bereikt, Het webecosysteem dat de grootste vooruitgang op het gebied van AI heeft opgeleverd, zou ook een van de grootste slachtoffers kunnen worden..

Reacties zijn gesloten.