Det osynliga hotet från AI-sökrobotar på Wikipedia

Wikipedia upplever trafiköverbelastning orsakad av AI-bots som ignorerar åtkomstregler.
Sökrobotar extraherar innehåll för att träna modeller, överväldigande servrar och förskjuter mänskliga användare.
Gratis programvaruprojekt påverkas också av ökad trafik och tillhörande kostnader.
Nya åtgärder och avtal mellan öppna plattformar och AI-företag övervägs för att säkerställa hållbarheten i det digitala ekosystemet.

Massiv trafik av AI-sökrobotar på Wikipedia

De senaste månaderna har digitala plattformar fokuserat på gratis delning av kunskap har börjat visa tecken på trötthet inför den ökande aktiviteten hos spårare för artificiell intelligens. Tjänster som Wikipedia upplever ett aldrig tidigare skådat tryck på sin infrastruktur, genererat inte av en verklig ökning av mänskliga användare, utan av Botarnas outtröttliga aktivitet fokuserade på att fånga data för att mata generativa AI-modeller.

Dessa spårare, ofta kamouflerad eller inte tydligt identifierad, Deras syfte är att massivt samla in texter, bilder, videor och annat offentligt material som finns på webben. med syftet att förbättra utbildningen av språkmodeller och system för generering av visuellt innehåll.

Wikipedia och kostnaden för att vara öppen

Wikimedia Foundation, som underhåller Wikipedia och relaterade projekt, har meddelat det Sedan början av 2024 har trafiken på dess servrar ökat med 50 %.. Denna ökning skulle inte drivas av spontant intresse från läsarna, utan av bots som är dedikerade till att systematiskt skanna det tillgängliga innehållet. I själva verket uppskattas det Ungefär två tredjedelar av trafiken som leds till de dyraste datacentren kommer från dessa automatiserade verktyg..

Exklusivt innehåll - Klicka här Activision begraver Warzone Mobile: det är inte längre nedladdningsbart och slutet för servrarna är nära.

Problemet förvärras av det faktum att många av dessa bots ignorera fastställda riktlinjer i filen 'robots.txt', som traditionellt används för att markera vilka delar av en webbplats som kan eller inte kan indexeras av maskiner. Denna regelöverträdelse har tänjt Wikimedias resurser, hämmar normal användaråtkomst och påverkar tjänstens övergripande prestanda. Denna typ av verksamhet kan man jämföra med spionprogram som påverkar användarnas integritet.

"Innehållet är öppet, men det är dyrt att hålla det tillgängligt."Organisationen förklarar. Att vara värd för, betjäna och skydda miljontals artiklar och filer är inte gratis, även om vem som helst kan komma åt dem utan att betala.

Problemet sträcker sig till andra hörn av det fria ekosystemet

Det är inte bara Wikipedia som drabbas av effekterna av urskillningslös datainsamling av AI-bots.. Gratis programvarugemenskaper och utvecklare påverkas också negativt. Webbplatser som är värd för teknisk dokumentation, kodbibliotek eller verktyg med öppen källkod rapporterar plötsliga ökningar i trafik, ofta omöjliga att hantera utan ekonomiska konsekvenser. Oron för vem som spionerar på dig medan du surfar blir allt mer relevant..

Ingenjör Gergely Orosz, till exempel, Han såg hur ett av hans projekt inom några veckor multiplicerade sin bandbreddsförbrukning med sju.. Denna situation resulterade i oväntade kostnader på grund av överskottstrafik som han var tvungen att ta på sig själv.

Exklusivt innehåll - Klicka här Amazon snubblar i sin rymdkapplöpning: Projekt Kuiper drabbas av ytterligare ett bakslag

För att motverka denna situation har utvecklare som Xe Iaso skapat verktyg som Anubis, en omvänd proxy som tvingar besökare på en webbplats att klara ett kort test innan de får tillgång till innehållet. Målet är att filtrera bort bots, som i allmänhet misslyckas med dessa tester, och prioritera mänsklig åtkomst. Dessa metoder har dock begränsad effektivitet, sedan AI-sökrobotar utvecklas ständigt för att undvika dessa hinder., med hjälp av tekniker som användning av IP-adresser för bostäder eller frekventa identitetsbyten.

Från försvar till anfall: fällor för bots

Vissa utvecklare har antagit mer proaktiva strategier. Verktyg som t.ex Nepenthes o AI Labyrint, den senare som drivs av tjänster som Cloudflare, har designats för locka bots till en labyrint av falskt eller irrelevant innehåll. På så sätt slösar sökrobotar resurser på att försöka skrapa värdelös information, medan legitima system belastas mindre.

Dilemmat med gratis webb- och AI-modeller

Denna situation innehåller en underliggande konflikt: Paradoxen att öppnandet av Internet, som har underlättat utvecklingen av artificiell intelligens, nu hotar livskraften för de digitala utrymmen som matar samma AI.. Stora teknikföretag gör enorma vinster genom att träna sina modeller på gratis innehåll, men De bidrar vanligtvis inte till underhållet av den infrastruktur som gör det möjligt.

De drabbade stiftelserna och samhällena insisterar på det En ny digital samexistenspakt är nödvändig. Detta bör åtminstone omfatta följande aspekter:

Ekonomiska bidrag från AI-företag till de plattformar de använder som datakälla.
Implementering av specifika API:er att få tillgång till innehåll på ett reglerat, skalbart och hållbart sätt.
Noggrant iakttagande av regler för uteslutning av bot, som "robots.txt", som många verktyg för närvarande ignorerar.
Tillskrivning av återanvänt innehåll, så att värdet av de ursprungliga bidragsgivarna erkänns.

Exklusivt innehåll - Klicka här Amazon Leo tar över från Kuiper och accelererar sin utrullning av satellitinternet i Spanien.

Wikimedia och andra uppmanar till handling

Utöver individuella initiativ, Wikimedia Foundation förespråkar samordnade åtgärder för att förhindra kollaps av deras infrastruktur. Plattformar som Stack Overflow har redan börjat ta betalt för automatisk åtkomst till sitt innehåll, och det är möjligt att andra följer efter om situationen inte förbättras.

Det överdrivna trycket som AI-bots utövar på frivilliga och ideella projekt kan komma att påskynda stängningen eller begränsningen av fri tillgång till mycket av kunskapen online. En paradoxal konsekvens med tanke på att dessa källor har varit nyckeln till utvecklingen av den teknik som idag hotar deras existens. Behovet av en säker webbläsare är viktigt i denna situation..

Den nuvarande utmaningen är hitta en modell för ansvarsfull användning av öppna digitala resurser, som säkerställer hållbarheten för både AI-modeller och det samarbetande kunskapsnätverket som stöder dem.

Om en rättvis balans mellan exploatering och samarbete inte uppnås, Det webbekosystem som drev de största framstegen inom AI kan också bli ett av dess främsta offer..

Alberto navarro

Jag är en teknikentusiast som har gjort sina "nördar"-intressen till ett yrke. Jag har tillbringat mer än 10 år av mitt liv med att använda den senaste tekniken och mixtrat med alla typer av program av ren nyfikenhet. Nu har jag specialiserat mig på datateknik och tv-spel. Detta beror på att jag i mer än 5 år har arbetat med att skriva för olika webbplatser om teknik och videospel, skapa artiklar som försöker ge dig den information du behöver på ett språk som är begripligt för alla.

Om du har några frågor sträcker sig min kunskap från allt som rör operativsystemet Windows samt Android för mobiltelefoner. Och mitt engagemang är för dig, jag är alltid villig att spendera några minuter och hjälpa dig att lösa alla frågor du kan ha i den här internetvärlden.