Nevidna grožnja pajkov AI na Wikipediji

Wikipedia se sooča s preobremenitvijo prometa, ki jo povzročajo roboti AI, ki ignorirajo pravila dostopa.
Pajki ekstrahirajo vsebino za usposabljanje modelov, preplavijo strežnike in izpodrivajo človeške uporabnike.
Na projekte brezplačne programske opreme vpliva tudi povečan promet in s tem povezani stroški.
Za zagotovitev trajnosti digitalnega ekosistema se razmišlja o novih ukrepih in sporazumih med odprtimi platformami in podjetji z umetno inteligenco.

V zadnjih mesecih so se digitalne platforme osredotočile na brezplačno deljenje znanja so začeli kazati znake utrujenosti ob vse večji aktivnosti sledilci umetne inteligence. Storitve, kot je Wikipedia, doživljajo pritisk brez primere na svojo infrastrukturo, ki ga ne povzroča resnično povečanje števila uporabnikov, temveč Neumorna dejavnost botov je bila osredotočena na zajemanje podatkov za hranjenje generativnih modelov umetne inteligence.

Ti sledilci, pogosto zamaskiran ali nejasen, Njihov namen je množično zbiranje besedil, slik, video posnetkov in drugih javnih gradiv, ki so na voljo na spletu. z namenom izboljšanja usposabljanja jezikovnih modelov in sistemov za generiranje vizualnih vsebin.

Wikipedia in stroški odprtosti

Fundacija Wikimedia, ki vzdržuje Wikipedijo in sorodne projekte, je sporočila, da Od začetka leta 2024 se je promet na njegovih strežnikih povečal za 50 %.. To povečanje ne bi bilo posledica spontanega zanimanja bralcev, temveč boti, ki so namenjeni sistematičnemu skeniranju razpoložljive vsebine. Pravzaprav se ocenjuje, da Približno dve tretjini prometa, usmerjenega v najdražje podatkovne centre, prihaja iz teh avtomatiziranih orodij..

Ekskluzivna vsebina - Kliknite tukaj Zootopia 2: Vse, kar vemo o Disneyjevem najbolj pričakovanem nadaljevanju

Težavo otežuje dejstvo, da veliko teh botov ignorirati ustaljene smernice v datoteki 'robots.txt', ki se tradicionalno uporablja za označevanje delov spletnega mesta, ki jih stroji lahko in ne morejo indeksirati. Ta kršitev pravil je raztegnila vire Wikimedia, ovira normalen uporabniški dostop in vpliva na splošno delovanje storitve. Tovrstno dejavnost lahko primerjamo z vohunska programska oprema, ki vpliva na zasebnost uporabnikov.

"Vsebina je odprta, vendar je njeno ohranjanje na voljo drago."Organizacija pojasnjuje. Gostovanje, strežba in zaščita milijonov člankov in datotek ni brezplačno, čeprav lahko kdor koli dostopa do njih brez plačila.

Težava se razširi na druge kotičke brezplačnega ekosistema

Ni samo Wikipedia tista, ki trpi zaradi nediskriminatornega zbiranja podatkov s strani robotov AI.. Negativno so prizadete tudi skupnosti in razvijalci brezplačne programske opreme. Spletna mesta, ki gostijo tehnično dokumentacijo, knjižnice kode ali odprtokodna orodja, poročajo o nenadnem povečanju prometa, ki ga je pogosto nemogoče obvladati brez finančnih posledic. Skrb o tem, kdo vohuni za vami med brskanjem, je vedno bolj pomembna..

Inženir Gergely Orosz je npr. Videl je, kako je v nekaj tednih eden od njegovih projektov pomnožil porabo pasovne širine za sedem.. Ta situacija je na koncu povzročila nepričakovane stroške zaradi presežka prometa, ki ga je moral prevzeti sam.

Ekskluzivna vsebina - Kliknite tukaj Apple razmišlja o prevzemu podjetja Perplexity AI, da bi okrepil svojo strategijo umetne inteligence.

Da bi preprečili to situacijo, so razvijalci, kot je Xe Iaso, ustvarili orodja, kot je Anubis, obratni posrednik, ki prisili obiskovalce spletne strani, da opravijo kratek test, preden dostopajo do vsebine. Cilj je izločiti bote, ki na splošno ne uspejo na teh testih, in dati prednost človeškemu dostopu. Vendar imajo te metode omejeno učinkovitost, saj Pajki AI se nenehno razvijajo, da bi se izognili tem oviram., z uporabo tehnik, kot je uporaba domačih naslovov IP ali pogoste spremembe identitete.

Od obrambe do napada: pasti za bote

Nekateri razvijalci so sprejeli bolj proaktivne strategije. Orodja, kot je npr Nepenthes o Labirint umetne inteligence, slednje poganjajo storitve, kot je Cloudflare, so bile zasnovane tako, da zvabiti bote v labirint lažne ali nepomembne vsebine. Na ta način pajki zapravljajo vire, ko poskušajo strgati ničvredne informacije, medtem ko so zakoniti sistemi manj obremenjeni.

Dilema brezplačnega spleta in modelov AI

Ta situacija vsebuje temeljni konflikt: Paradoks, da odprtje interneta, ki je olajšalo razvoj umetne inteligence, zdaj ogroža sposobnost preživetja digitalnih prostorov, ki hranijo ta isti AI.. Velika tehnološka podjetja ustvarjajo ogromne dobičke z usposabljanjem svojih modelov na brezplačnih vsebinah, vendar Običajno ne prispevajo k vzdrževanju infrastrukture, ki to omogoča.

Prizadete fundacije in skupnosti vztrajajo pri tem Potreben je nov pakt o digitalnem sožitju. To bi moralo vključevati vsaj naslednje vidike:

Finančni prispevki podjetij z umetno inteligenco na platforme, ki jih uporabljajo kot vir podatkov.
Implementacija specifičnih API-jev za dostop do vsebin na reguliran, razširljiv in trajnosten način.
Natančno upoštevanje pravil o izključitvi botov, kot je 'robots.txt', ki ga veliko orodij trenutno ignorira.
Pripis ponovno uporabljene vsebine, tako da se prizna vrednost prvotnih sodelavcev.

Ekskluzivna vsebina - Kliknite tukaj Kaj je misija Genesis in zakaj skrbi Evropo?

Wikimedia in drugi pozivajo k ukrepanju

Poleg posameznih pobud, Fundacija Wikimedia se zavzema za usklajene ukrepe preprečiti propad njihove infrastrukture. Platforme, kot je Stack Overflow, so že začele zaračunavati avtomatiziran dostop do svoje vsebine in možno je, da bodo temu sledile tudi druge, če se stanje ne izboljša.

Prevelik pritisk, ki ga roboti AI izvajajo na prostovoljne in neprofitne projekte lahko na koncu pospeši zaprtje ali omejitev prostega dostopa do velikega dela spletnega znanja. Paradoksalna posledica, če upoštevamo, da so bili ti viri ključni za napredek tehnologije, ki danes ogroža njihov obstoj. Potreba po varnem brskalniku je v tej situaciji bistvena..

Trenutni izziv je najti model odgovorne uporabe odprtih digitalnih virov, ki zagotavlja trajnost tako modelov AI kot sodelovalnega omrežja znanja, ki ju podpira.

Če ni doseženo pravično ravnovesje med izkoriščanjem in sodelovanjem, Spletni ekosistem, ki je spodbudil največji napredek umetne inteligence, bi lahko postal tudi ena njegovih glavnih žrtev..

Alberto Navarro

Sem tehnološki navdušenec, ki je svoja "geek" zanimanja spremenil v poklic. Več kot 10 let svojega življenja sem porabil za uporabo vrhunske tehnologije in premleval najrazličnejše programe iz čiste radovednosti. Zdaj sem se specializiral za računalniško tehnologijo in video igre. To je zato, ker že več kot 5 let pišem za različna spletna mesta o tehnologiji in video igrah ter ustvarjam članke, ki vam želijo dati informacije, ki jih potrebujete, v jeziku, ki je razumljiv vsem.

Če imate kakršna koli vprašanja, moje znanje sega od vsega v zvezi z operacijskim sistemom Windows kot tudi Androidom za mobilne telefone. In moja zaveza je vam, vedno sem pripravljen porabiti nekaj minut in vam pomagati razrešiti kakršna koli vprašanja, ki jih morda imate v tem internetnem svetu.