- Wikipedia kampt met een overbelasting van het internetverkeer, omdat AI-bots de toegangsregels negeren.
- Crawlers extraheren inhoud om modellen te trainen, waardoor servers overbelast raken en menselijke gebruikers worden verdrongen.
- Ook vrije softwareprojecten hebben last van meer verkeer en de daarmee gepaard gaande kosten.
- Er worden nieuwe maatregelen en overeenkomsten tussen open platforms en AI-bedrijven overwogen om de duurzaamheid van het digitale ecosysteem te waarborgen.

De afgelopen maanden hebben digitale platforms zich gericht op het gratis delen van kennis zijn tekenen van vermoeidheid gaan vertonen in het licht van de toenemende activiteit van de kunstmatige intelligentie trackers. Diensten als Wikipedia ervaren een ongekende druk op hun infrastructuur, die niet wordt veroorzaakt door een echte toename van het aantal menselijke gebruikers, maar door De onvermoeibare activiteit van bots die zich richten op het verzamelen van gegevens om generatieve AI-modellen te voeden.
Deze trackers, vaak gecamoufleerd of niet duidelijk geïdentificeerd, Hun doel is om op grote schaal teksten, afbeeldingen, video's en ander openbaar materiaal te verzamelen dat beschikbaar is op het web. met als doel de training van taalmodellen en systemen voor het genereren van visuele inhoud te verbeteren.
Wikipedia en de kosten van openheid
De Wikimedia Foundation, die Wikipedia en aanverwante projecten onderhoudt, heeft aangekondigd dat Sinds begin 2024 is het verkeer op de servers met 50% toegenomen.. Deze toename zou niet worden veroorzaakt door spontane interesse van lezers, maar door bots die zijn toegewijd aan het systematisch scannen van de beschikbare inhoud. In feite wordt geschat dat Ongeveer tweederde van het verkeer dat naar de duurste datacenters wordt geleid, is afkomstig van deze geautomatiseerde tools..
Het probleem wordt nog groter doordat veel van deze bots negeer vastgestelde richtlijnen in het bestand 'robots.txt', dat traditioneel wordt gebruikt om aan te geven welke delen van een website wel en niet door machines kunnen worden geïndexeerd. Deze overtreding van de regel heeft de bronnen van Wikimedia zwaar belast, waardoor de normale toegang van gebruikers wordt belemmerd en de algehele prestaties van de dienst worden beïnvloed. Dit soort activiteiten kan vergelijkbaar zijn met spyware die de privacy van gebruikers aantast.
"De inhoud is openbaar, maar het is duur om deze beschikbaar te houden."De organisatie legt uit. Het hosten, serveren en beschermen van miljoenen artikelen en bestanden is niet gratis, ook al kan iedereen er toegang toe krijgen zonder te betalen.
Het probleem strekt zich uit tot andere hoeken van het vrije ecosysteem
Wikipedia is niet de enige die lijdt onder de gevolgen van het willekeurig verzamelen van gegevens door AI-bots.. Ook vrije softwaregemeenschappen en ontwikkelaars ondervinden negatieve gevolgen. Sites die technische documentatie, codebibliotheken of opensourcetools hosten, melden plotselinge toenames in het verkeer. Vaak is dit niet te verwerken zonder financiële gevolgen. De bezorgdheid over wie er allemaal op u let terwijl u op het internet surft, wordt steeds groter..
Ingenieur Gergely Orosz bijvoorbeeld Hij zag hoe een van zijn projecten binnen enkele weken het bandbreedteverbruik verzevenvoudigde.. Deze situatie leidde tot onverwachte kosten vanwege het extra verkeer dat hij zelf moest betalen.
Om deze situatie tegen te gaan, hebben ontwikkelaars zoals Xe Iaso hulpmiddelen gecreëerd zoals Anubis, een omgekeerde proxy die dwingt bezoekers van een website om een korte test te doorlopen voordat ze toegang krijgen tot de inhoud. Het doel is om bots, die deze tests doorgaans niet doorstaan, eruit te filteren en menselijke toegang voorrang te geven. Deze methoden zijn echter slechts beperkt effectief, omdat AI-crawlers blijven zich ontwikkelen om deze obstakels te omzeilen., met behulp van technieken zoals het gebruik van IP-adressen of frequente identiteitswijzigingen.
Van verdediging naar aanval: vallen voor bots
Sommige ontwikkelaars hanteren proactievere strategieën. Hulpmiddelen zoals Nepenthes o AI-labyrint, de laatste aangestuurd door diensten als Cloudflare, zijn ontworpen om bots lokken in een doolhof van nep- of irrelevante inhoud. Op deze manier verspillen crawlers middelen aan het proberen te verzamelen van waardeloze informatie, terwijl legitieme systemen minder worden belast.
Het dilemma van het vrije web en AI-modellen
Deze situatie bevat een onderliggend conflict: De paradox is dat de openstelling van het internet, die de ontwikkeling van kunstmatige intelligentie mogelijk heeft gemaakt, nu de levensvatbaarheid van de digitale ruimtes die diezelfde AI voeden, bedreigt.. Grote technologiebedrijven maken enorme winsten door hun modellen te trainen met gratis content, maar Ze dragen doorgaans niet bij aan het onderhoud van de infrastructuur die het mogelijk maakt.
De getroffen stichtingen en gemeenschappen dringen erop aan dat Een nieuw digitaal coëxistentiepact is noodzakelijk. Dit zou ten minste de volgende aspecten moeten omvatten:
- Financiële bijdragen van AI-bedrijven naar de platforms die ze als gegevensbron gebruiken.
- Implementatie van specifieke API's om op een gereguleerde, schaalbare en duurzame manier toegang te krijgen tot content.
- Nauwkeurige naleving van de regels voor het uitsluiten van bots, zoals 'robots.txt', dat momenteel door veel tools wordt genegeerd.
- Toeschrijving van hergebruikte inhoud, zodat de waarde van de oorspronkelijke bijdragers erkend wordt.
Wikimedia en anderen roepen op tot actie
Naast individuele initiatieven, De Wikimedia Foundation pleit voor gecoördineerde maatregelen om te voorkomen dat hun infrastructuur instort. Platforms als Stack Overflow zijn al begonnen met het vragen van geld voor geautomatiseerde toegang tot hun content. Het is mogelijk dat anderen dit voorbeeld zullen volgen als de situatie niet verbetert.
De buitensporige druk die AI-bots uitoefenen op vrijwillige en non-profitprojecten kan ertoe leiden dat de sluiting of beperking van de vrije toegang tot een groot deel van de online kennis wordt versneld. Een paradoxaal gevolg, aangezien deze bronnen van cruciaal belang zijn geweest voor de vooruitgang van de technologie, maar die vandaag de dag hun bestaan bedreigt. In deze situatie is een veilige browser essentieel..
De huidige uitdaging is een model vinden voor verantwoord gebruik van open digitale bronnen, wat de duurzaamheid van zowel AI-modellen als het collaboratieve kennisnetwerk dat deze ondersteunt, waarborgt.
Als er geen eerlijk evenwicht tussen exploitatie en samenwerking wordt bereikt, Het webecosysteem dat de grootste vooruitgang op het gebied van AI heeft opgeleverd, zou ook een van de grootste slachtoffers kunnen worden..
Ik ben een technologieliefhebber die van zijn 'nerd'-interesses zijn beroep heeft gemaakt. Ik heb meer dan 10 jaar van mijn leven doorgebracht met het gebruik van de allernieuwste technologie en het sleutelen aan allerlei programma's uit pure nieuwsgierigheid. Nu heb ik mij gespecialiseerd in computertechnologie en videogames. Dit komt omdat ik al meer dan vijf jaar voor verschillende websites over technologie en videogames schrijf en artikelen heb gemaakt die proberen u de informatie te geven die u nodig heeft in een taal die voor iedereen begrijpelijk is.
Als je vragen hebt, mijn kennis strekt zich uit van alles wat te maken heeft met het Windows-besturingssysteem tot Android voor mobiele telefoons. En mijn toewijding is aan jou, ik ben altijd bereid om een paar minuten te besteden en je te helpen bij het oplossen van eventuele vragen die je hebt in deze internetwereld.


Reacties zijn gesloten.