AI botovi „usisavaju“ Wikipediju
Wikimedia Foundation je objavila da nemilosrdno preuzimanje podataka od strane umjetne inteligencije stvara opterećenje na Wikipedijinim poslužiteljima povećavajući promet na serverima za 50 posto od siječnja 2024. godine.

Automatizirani botovi koji traže podatke za treniranje AI modela za LLM-ove usisavaju terabajte podataka, povećavajući promet na serverima. Zaklada ne ugošćuje samo Wikipediju, već i platforme poput Wikimedia Commons, koja nudi 144 milijuna medijskih datoteka pod otvorenim licencama. Desetljećima je ovaj sadržaj pokretao sve, od rezultata pretraživanja do školskih projekata. No od početka 2024. godine, tvrtke za umjetnu inteligenciju dramatično su povećale automatizirano preuzimanje podataka putem izravnog pretraživanja, API-ja i masovnih preuzimanja kako bi nahranile svoje gladne AI modele.
Utjecaj nije teoretski. Zaklada navodi da je kada je bivši američki predsjednik Jimmy Carter umro u prosincu 2024. godine, njegova Wikipedia stranica predvidljivo privukla milijune pregleda. No pravi stres došao je kada su korisnici istovremeno streamali 1,5-satni video debate iz 1980. godine s Wikimedia Commons. Nagli porast udvostručio je normalni mrežni promet Wikimedije, privremeno maksimalno opteretivši nekoliko njezinih internetskih veza. Wikimedijini inženjeri brzo su preusmjerili promet kako bi smanjili zagušenje, ali događaj je otkrio dublji problem: osnovna propusnost već je bila uglavnom potrošena od strane botova koji preuzimaju medije u velikim razmjerima.
Wikimedijini interni podaci objašnjavaju zašto je ova vrsta prometa tako skupa za otvorene projekte. Za razliku od ljudi, koji obično pregledavaju popularne i često predmemorirane članke, botovi pretražuju opskurne i manje pristupane stranice, prisiljavajući Wikimedijine središnje podatkovne centre da ih izravno poslužuju. Sustavi predmemoriranja dizajnirani za predvidljivo, ljudsko ponašanje pregledavanja ne funkcioniraju kada botovi čitaju cijelu arhivu bez razlike.
Kao rezultat, Wikimedia je otkrila da botovi čine 65 posto najskupljih zahtjeva prema njezinoj osnovnoj infrastrukturi unatoč tome što čine samo 35 posto ukupnih pregleda stranica.
Situaciju otežava činjenica da se mnogi AI-fokusirani crawleri ne pridržavaju utvrđenih pravila. Neki ignoriraju robots.txt direktivu, drugi lažiraju korisničke agente preglednika kako bi se maskirali kao ljudski posjetitelji, a treći rotiraju IP adrese kako bi izbjegli blokiranje.
Diljem interneta, otvorene platforme eksperimentiraju s tehničkim rješenjima: izazovi dokaza o radu, spore-odgovore tarpits (poput Nepenthesa), suradničke liste za blokiranje crawlera (poput "ai.robots.txt"), i komercijalni alati poput Cloudflareovog AI Labirinta. Ovi pristupi rješavaju tehnički nesklad između infrastrukture dizajnirane za ljudske čitatelje i industrijskih zahtjeva AI treninga.