ویکیپیڈیا بڑے پیمانے پر AI کرالر ٹریفک کے دباؤ میں ہے۔

آخری تازہ کاری: 03/04/2025

  • ویکیپیڈیا AI بوٹس تک رسائی کے قوانین کو نظر انداز کرنے کی وجہ سے ٹریفک اوورلوڈ کا سامنا کر رہا ہے۔
  • کرالر ماڈلز کو تربیت دینے، زبردست سرورز اور انسانی صارفین کو بے گھر کرنے کے لیے مواد نکالتے ہیں۔
  • مفت سافٹ ویئر کے منصوبے بھی بڑھتی ہوئی ٹریفک اور اس سے منسلک اخراجات سے متاثر ہوتے ہیں۔
  • ڈیجیٹل ماحولیاتی نظام کی پائیداری کو یقینی بنانے کے لیے اوپن پلیٹ فارمز اور اے آئی کمپنیوں کے درمیان نئے اقدامات اور معاہدوں پر غور کیا جا رہا ہے۔
ویکیپیڈیا پر اے آئی کرالرز کی بہت زیادہ ٹریفک

حالیہ مہینوں میں، ڈیجیٹل پلیٹ فارمز نے علم کے مفت اشتراک پر توجہ مرکوز کی۔ کی بڑھتی ہوئی سرگرمیوں کے پیش نظر تھکاوٹ کے آثار ظاہر ہونے لگے ہیں۔ مصنوعی ذہانت کے ٹریکرز. ویکیپیڈیا جیسی خدمات اپنے بنیادی ڈھانچے پر بے مثال دباؤ کا سامنا کر رہی ہیں، جو انسانی صارفین میں حقیقی اضافے سے پیدا نہیں ہوئی، بلکہ بوٹس کی انتھک سرگرمی جنریٹیو AI ماڈلز کو فیڈ کرنے کے لیے ڈیٹا کیپچر کرنے پر مرکوز ہے۔.

یہ ٹریکرز، اکثر چھپایا ہوا یا واضح طور پر شناخت نہیں کیا جاتا، ان کا مقصد ویب پر دستیاب متن، تصاویر، ویڈیوز اور دیگر عوامی مواد کو بڑے پیمانے پر جمع کرنا ہے۔ زبان کے ماڈلز اور بصری مواد کی تیاری کے نظام کی تربیت کو بہتر بنانے کے مقصد کے ساتھ۔

ویکیپیڈیا اور کھلے رہنے کی قیمت

ویکیپیڈیا اور کھلے رہنے کی قیمت

ویکیمیڈیا فاؤنڈیشن، جو کہ ویکیپیڈیا اور متعلقہ منصوبوں کو دیکھتی ہے، نے اس کا اعلان کیا ہے۔ 2024 کے آغاز سے، اس کے سرورز پر ٹریفک میں 50% اضافہ ہوا ہے۔. یہ اضافہ قارئین کی بے ساختہ دلچسپی کی وجہ سے نہیں، بلکہ اس کی وجہ سے ہوگا۔ بوٹس جو دستیاب مواد کو منظم طریقے سے اسکین کرنے کے لیے وقف ہیں۔. درحقیقت، یہ اندازہ لگایا گیا ہے کہ مہنگے ترین ڈیٹا سینٹرز کی طرف جانے والی ٹریفک کا تقریباً دو تہائی حصہ ان خودکار ٹولز سے آتا ہے۔.

خصوصی مواد - یہاں کلک کریں۔  ناسا نے سیارچہ 2024 YR4 کے زمین پر اثر انداز ہونے کے امکان کو بڑھا دیا ہے۔

مسئلہ اس حقیقت سے بڑھ گیا ہے کہ ان میں سے بہت سے بوٹس قائم کردہ ہدایات کو نظر انداز کریں 'robots.txt' فائل میں، جو روایتی طور پر یہ نشان زد کرنے کے لیے استعمال ہوتی ہے کہ ویب سائٹ کے کن حصوں کو مشینوں کے ذریعے انڈیکس کیا جا سکتا ہے یا نہیں کیا جا سکتا۔ اس اصول کی خلاف ورزی نے Wikimedia کے وسائل کو بڑھا دیا ہے، عام صارف کی رسائی میں رکاوٹ ڈالی ہے اور سروس کی مجموعی کارکردگی کو متاثر کیا ہے۔ اس قسم کی سرگرمی کا موازنہ کیا جاسکتا ہے۔ اسپائی ویئر جو صارفین کی رازداری کو متاثر کرتا ہے۔.

"مواد کھلا ہے، لیکن اسے دستیاب رکھنا مہنگا ہے۔"تنظیم وضاحت کرتی ہے۔ لاکھوں مضامین اور فائلوں کی میزبانی، خدمت اور حفاظت مفت نہیں ہے، حالانکہ کوئی بھی ان تک بغیر ادائیگی کے رسائی حاصل کر سکتا ہے۔

مسئلہ آزاد ماحولیاتی نظام کے دوسرے کونوں تک پھیلا ہوا ہے۔

یہ صرف ویکیپیڈیا ہی نہیں ہے جو AI بوٹس کے ذریعے اندھا دھند ڈیٹا کی کٹائی کے اثرات کا شکار ہے۔. مفت سافٹ ویئر کمیونٹیز اور ڈویلپرز بھی منفی طور پر متاثر ہوتے ہیں۔ تکنیکی دستاویزات، کوڈ لائبریریوں، یا اوپن سورس ٹولز کی میزبانی کرنے والی سائٹیں ٹریفک میں اچانک اضافے کی اطلاع دے رہی ہیں، جن کا مالی نتائج کے بغیر ہینڈل کرنا اکثر ناممکن ہوتا ہے۔ آپ کے براؤز کرتے وقت کون آپ کی جاسوسی کر رہا ہے اس بارے میں تشویش بڑھتی جارہی ہے۔.

انجینئر گرجیلی اوروز، مثال کے طور پر، اس نے دیکھا کہ کس طرح چند ہفتوں میں اس کے ایک پروجیکٹ نے اس کی بینڈوتھ کی کھپت کو سات سے گنا کر دیا۔. اس صورتحال نے اضافی ٹریفک کی وجہ سے غیر متوقع اخراجات پیدا کیے جو اسے خود سنبھالنا پڑا۔

خصوصی مواد - یہاں کلک کریں۔  ایمیزون لیو نے کوئپر سے اقتدار سنبھالا اور اسپین میں اپنے سیٹلائٹ انٹرنیٹ رول آؤٹ کو تیز کیا

اس صورتحال کا مقابلہ کرنے کے لیے، Xe Iaso جیسے ڈویلپرز نے ٹولز بنائے ہیں۔ Anubis کے, ایک ریورس پراکسی کہ کسی ویب سائٹ پر آنے والوں کو مواد تک رسائی سے پہلے ایک مختصر امتحان پاس کرنے پر مجبور کرتا ہے۔. مقصد بوٹس کو فلٹر کرنا ہے، جو عام طور پر ان ٹیسٹوں میں ناکام رہتے ہیں، اور انسانی رسائی کو ترجیح دیتے ہیں۔ تاہم، ان طریقوں کی تاثیر محدود ہے، چونکہ AI کرالر ان رکاوٹوں سے بچنے کے لیے مسلسل تیار ہو رہے ہیں۔تکنیک کا استعمال کرتے ہوئے جیسے رہائشی IP پتوں کا استعمال یا بار بار شناخت میں تبدیلی۔

دفاع سے جرم تک: بوٹس کے لئے جال

کچھ ڈویلپرز نے زیادہ فعال حکمت عملی اپنائی ہے۔ اوزار جیسے نیپینتھس o اے آئی بھولبلییا, مؤخر الذکر کو Cloudflare جیسی خدمات کے ذریعے تقویت یافتہ بنانے کے لیے ڈیزائن کیا گیا ہے۔ بوٹس کو جعلی یا غیر متعلقہ مواد کی بھولبلییا میں آمادہ کریں۔. اس طرح، کرالر بیکار معلومات کو کھرچنے کی کوشش میں وسائل کو ضائع کرتے ہیں، جبکہ جائز نظاموں پر کم بوجھ پڑتا ہے۔

مفت ویب اور اے آئی ماڈلز کا مخمصہ

یہ صورت حال ایک بنیادی تنازعہ پر مشتمل ہے: یہ تضاد کہ انٹرنیٹ کے کھلنے سے، جس نے مصنوعی ذہانت کی ترقی میں سہولت فراہم کی ہے، اب ڈیجیٹل اسپیس کی عملداری کو خطرہ لاحق ہے جو اسی AI کو فیڈ کرتی ہیں۔. بڑی ٹیک کمپنیاں اپنے ماڈلز کو مفت مواد پر تربیت دے کر بہت زیادہ منافع کماتی ہیں، لیکن وہ عام طور پر بنیادی ڈھانچے کی دیکھ بھال میں حصہ نہیں ڈالتے ہیں جو اسے ممکن بناتا ہے۔.

متاثرہ فاؤنڈیشنز اور کمیونٹیز کا اصرار ہے۔ ایک نیا ڈیجیٹل بقائے باہمی معاہدہ ضروری ہے۔. اس میں، کم از کم، مندرجہ ذیل پہلوؤں کو شامل کرنا چاہئے:

  • AI کمپنیوں سے مالی تعاون ان پلیٹ فارمز پر جو وہ ڈیٹا سورس کے طور پر استعمال کرتے ہیں۔
  • مخصوص APIs کا نفاذ ایک منظم، توسیع پذیر اور پائیدار طریقے سے مواد تک رسائی حاصل کرنے کے لیے۔
  • بوٹ کے اخراج کے قواعد کی سختی سے پابندی، جیسے 'robots.txt'، جسے بہت سے ٹولز فی الحال نظر انداز کرتے ہیں۔
  • دوبارہ استعمال شدہ مواد کا انتساب، تاکہ اصل شراکت داروں کی قدر کو پہچانا جائے۔
خصوصی مواد - یہاں کلک کریں۔  چین میں تھری گورجز ڈیم اور زمین کی گردش پر اس کا حیرت انگیز اثر

ویکیمیڈیا اور دیگر نے کارروائی پر زور دیا۔

Wikimedia

انفرادی اقدامات سے آگے، وکیمیڈیا فاؤنڈیشن مربوط اقدامات کی وکالت کر رہی ہے۔ ان کے بنیادی ڈھانچے کے خاتمے کو روکنے کے لئے. اسٹیک اوور فلو جیسے پلیٹ فارمز نے پہلے ہی اپنے مواد تک خودکار رسائی کے لیے چارج کرنا شروع کر دیا ہے، اور یہ ممکن ہے کہ اگر صورتحال بہتر نہیں ہوتی ہے تو دوسرے بھی اس کی پیروی کریں گے۔

ضرورت سے زیادہ دباؤ جو AI بوٹس رضاکارانہ اور غیر منافع بخش منصوبوں پر ڈالتے ہیں۔ زیادہ تر آن لائن علم تک مفت رسائی کی بندش یا پابندی کو تیز کر سکتا ہے۔. ایک متضاد نتیجہ، اس بات پر غور کرتے ہوئے کہ یہ ذرائع ٹیکنالوجی کی ترقی کی کلید رہے ہیں جس سے آج ان کے وجود کو خطرہ ہے۔ اس صورت حال میں ایک محفوظ براؤزر کی ضرورت ضروری ہے۔.

موجودہ چیلنج ہے۔ کھلے ڈیجیٹل وسائل کے ذمہ دارانہ استعمال کے لیے ایک ماڈل تلاش کریں۔، جو AI ماڈلز اور ان کی حمایت کرنے والے باہمی تعاون کے ساتھ علمی نیٹ ورک دونوں کی پائیداری کو یقینی بناتا ہے۔

اگر استحصال اور تعاون کے درمیان منصفانہ توازن حاصل نہیں کیا جاتا ہے، ویب ایکو سسٹم جس نے AI میں سب سے بڑی پیش رفت کو ہوا دی وہ بھی اس کے اہم متاثرین میں سے ایک بن سکتا ہے۔.

تبصرے بند ہیں۔