Wikipedia surve all tohutu AI roomikuliikluse tõttu

Viimane uuendus: 03/04/2025

  • Wikipedias on liikluse ülekoormus, mille põhjustavad AI-robotid, kes eiravad juurdepääsureegleid.
  • Indeksoijad ekstraheerivad sisu mudelite koolitamiseks, ülekoormades servereid ja tõrjudes välja inimkasutajaid.
  • Vaba tarkvara projekte mõjutavad ka suurenenud liiklus ja sellega seotud kulud.
  • Kaalumisel on uued meetmed ja lepingud avatud platvormide ja tehisintellekti ettevõtete vahel, et tagada digitaalse ökosüsteemi jätkusuutlikkus.
AI roomajate tohutu liiklus Wikipedias

Viimastel kuudel on digiplatvormid keskendunud teadmiste tasuta jagamisele on hakanud ilmutama väsimuse märke seoses kasvava aktiivsusega tehisintellekti jälgijad. Sellised teenused nagu Wikipedia kogevad oma infrastruktuurile enneolematut survet, mida ei tekita mitte kasutajate arvu tõeline kasv, vaid Botide väsimatu tegevus keskendus andmete kogumisele, et toita generatiivseid tehisintellekti mudeleid.

Need jälgijad, sageli maskeeritud või selgelt tuvastamata, Nende eesmärk on koguda massiliselt tekste, pilte, videoid ja muid veebis saadaolevaid avalikke materjale. eesmärgiga parandada keelemudelite ja visuaalse sisu genereerimise süsteemide koolitust.

Wikipedia ja avatud olemise hind

Wikipedia ja avatud olemise hind

Wikimedia Foundation, mis haldab Wikipediat ja sellega seotud projekte, on sellest teatanud Alates 2024. aasta algusest on selle serverite liiklus kasvanud 50%.. See tõus ei oleks tingitud lugejate spontaansest huvist, vaid sellest robotid, mis on pühendatud saadaoleva sisu süstemaatilisele skannimisele. Tegelikult arvatakse, et Umbes kaks kolmandikku kõige kallimatesse andmekeskustesse suunatud liiklusest pärineb nendest automatiseeritud tööriistadest..

Eksklusiivne sisu – klõpsake siin  Uus bambusest plast, mille eesmärk on asendada tavapärane plastik

Probleemi süvendab asjaolu, et paljud neist robotitest kehtestatud juhiseid ignoreerida failis "robots.txt", mida traditsiooniliselt kasutatakse selleks, et märkida, milliseid veebisaidi osi saavad masinad indekseerida ja milliseid mitte. See reegli rikkumine on piiranud Wikimedia ressursse, takistades kasutajate tavapärast juurdepääsu ja mõjutades teenuse üldist jõudlust. Seda tüüpi tegevust võib võrrelda nuhkvara, mis mõjutab kasutajate privaatsust.

"Sisu on avatud, kuid selle kättesaadavana hoidmine on kallis."Organisatsioon selgitab. Miljonite artiklite ja failide hostimine, teenindamine ja kaitsmine ei ole tasuta, kuigi igaüks pääseb neile juurde ilma maksmata.

Probleem laieneb vaba ökosüsteemi teistesse nurkadesse

AI-robotite valimatu andmete kogumise tõttu ei kannata mitte ainult Wikipedia.. Samuti on negatiivselt mõjutatud vaba tarkvara kogukonnad ja arendajad. Tehnilist dokumentatsiooni, kooditeeke või avatud lähtekoodiga tööriistu majutavad saidid teatavad liikluse äkilisest suurenemisest, mida sageli ei saa ilma rahaliste tagajärgedeta toime tulla. Mure selle pärast, kes teid sirvimise ajal luurab, on üha aktuaalsem..

Insener Gergely Orosz näiteks Ta nägi, kuidas mõne nädalaga korrutas üks tema projektidest ribalaiuse tarbimise seitsmega.. Selline olukord põhjustas ootamatuid kulusid liigse liikluse tõttu, mille ta pidi ise kandma.

Eksklusiivne sisu – klõpsake siin  Hiina vetostab Nvidia tehisintellekti kiipide ostu oma tehnoloogiaettevõtetelt

Selle olukorra vastu võitlemiseks on arendajad nagu Xe Iaso loonud selliseid tööriistu nagu Anubis, vastupidine puhverserver sunnib veebisaidi külastajaid enne sisule juurde pääsemist läbima lühikese testi. Eesmärk on välja filtreerida robotid, mis üldiselt need testid läbi kukuvad, ja eelistada inimeste juurdepääsu. Nende meetodite tõhusus on aga piiratud, kuna AI indeksoijad arenevad pidevalt, et neid takistusi vältida., kasutades selliseid tehnikaid nagu kodu IP-aadresside kasutamine või sagedased identiteedimuutused.

Kaitsest rünnakuni: lõksud robotitele

Mõned arendajad on võtnud kasutusele ennetavamad strateegiad. Tööriistad nagu Nepenthes o AI labürint, viimased töötavad selliste teenustega nagu Cloudflare, on loodud selleks meelitab robotid võltsitud või ebaolulise sisu rägastikku. Nii raiskavad roomajad ressursse, püüdes kraapida väärtusetut teavet, samal ajal kui seaduslikud süsteemid on vähem koormatud.

Tasuta veebi ja AI mudelite dilemma

See olukord sisaldab konflikti: Paradoks, et tehisintellekti arengut soodustanud Interneti avamine ohustab nüüd sama tehisintellekti toitvate digitaalsete ruumide elujõulisust.. Suured tehnoloogiaettevõtted teenivad tohutut kasumit, koolitades oma mudeleid tasuta sisuga, kuid Tavaliselt ei panusta nad seda võimaldava taristu korrashoiusse.

Mõjutatud sihtasutused ja kogukonnad nõuavad seda Vaja on uut digitaalse kooseksisteerimise pakti. See peaks hõlmama vähemalt järgmisi aspekte:

  • AI ettevõtete rahalised toetused platvormidele, mida nad andmeallikana kasutavad.
  • Spetsiifiliste API-de rakendamine sisule juurdepääsemiseks reguleeritud, skaleeritaval ja jätkusuutlikul viisil.
  • Robotite välistamise reeglite täpne järgimine, näiteks "robots.txt", mida paljud tööriistad praegu ignoreerivad.
  • Taaskasutatud sisu omistamine, nii et algsete panustajate väärtust tunnustatakse.
Eksklusiivne sisu – klõpsake siin  AMD ja Stability AI muudavad Amuse 3.1 abil sülearvutite kohalikku tehisintellekti renderdamist revolutsiooniliselt.

Wikimedia ja teised soovitavad tegutseda

Wikimedia

Lisaks individuaalsetele algatustele Wikimedia Foundation toetab koordineeritud meetmeid et vältida nende infrastruktuuri kokkuvarisemist. Platvormid nagu Stack Overflow on juba hakanud oma sisule automaatse juurdepääsu eest tasu nõudma ja on võimalik, et teised järgivad seda, kui olukord ei parane.

Liigne surve, mida AI-robotid avaldavad vabatahtlikele ja mittetulunduslikele projektidele võib lõppeda kiirendada suurele osale veebipõhistele teadmistele vaba juurdepääsu sulgemist või piiramist. Paradoksaalne tagajärg, arvestades, et need allikad on olnud võtmetähtsusega tehnoloogia arengus, mis tänapäeval ohustab nende olemasolu. Turvalise brauseri vajadus on selles olukorras hädavajalik..

Praegune väljakutse on leida mudel avatud digiressursside vastutustundlikuks kasutamiseks, mis tagab nii AI mudelite kui ka neid toetava koostöö teadmistevõrgustiku jätkusuutlikkuse.

Kui õiglast tasakaalu ekspluateerimise ja koostöö vahel ei saavutata, Veebi ökosüsteem, mis aitas kaasa tehisintellekti suurimatele edusammudele, võib saada ka selle üheks peamiseks ohvriks..

Kommentaarid on suletud.