
Image by Oberon Copeland, from Unsplash
Az AI botok túlterhelik a Wikipedia szervereit
A Wikimedia Alapítvány aggodalmát fejezte ki a növekvő nyomás miatt, amit szerverei tapasztalnak az automatizált botok által végzett adatscrapelés miatt, amelyek mesterséges intelligencia modellek képzésére használják az adatokat.
Siet? Itt vannak a lényeges tények:
- Az AI botok rekord szinten scrape-lik a Wikimedia tartalmat.
- A botok 50%-os növekedést idéztek elő a multimédia sávszélesség használatában.
- A magas költségű forgalom 65%-a most már crawler-ektől származik.
Az Alapítvány egy nemrégiben közzétett bejegyzésében arról számolt be, hogy a gépi forgalom továbbra is példátlan mértékben növekszik, míg az emberek csupán kis részét teszik ki ennek a forgalomnak.
“2024 januárja óta 50%-kal nőtt a multimédiás tartalmak letöltésére használt sávszélesség” – áll a bejegyzésben.
“Ez a növekedés nem az emberi olvasóktól származik, hanem elsősorban az automatizált programoktól, amelyek a Wikimedia Commons nyílt licencű képkatalógusát lekaparják, hogy képeket tápláljanak az AI modelleknek” – tette hozzá a bejegyzés.
A botok, más néven crawler-ek, hatalmas mennyiségű adatot lopnak a Wikimedia projekteiből, beleértve a Wikipédiát és a Wikimedia Commonst, megfelelő hitelesítés vagy hivatalos hozzáférési eszközök nélkül. Ez a folyamat megnehezíti az új felhasználók számára a Wikimedia felfedezését, és túlzott terhelést ró a technikai rendszereikre.
Például a bejegyzés megjegyzi, hogy Jimmy Carter Wikipédia oldala több mint 2,8 millió megtekintést kapott a halála napján, 2024 decemberében. A 1980-as vitavideó jelentős forgalomnövekedést okozott a weboldalon. Az 1980-as vita videója is hirtelen forgalomnövekedést okozott. A Wikimedia kezelte a helyzetet – de éppen hogy. A mérnökök szerint a valódi probléma a botforgalom folyamatos áradata.
“A legdrágább forgalmunk 65%-a botoktól származik” – írta az Alapítvány. A botok “tömegesen olvassák” a tartalmat, különösen a kevésbé népszerű oldalakat, ami drága kéréseket vált ki a Wikimedia központi adatközpontjai felé.
Bár a Wikimedia tartalma ingyenesen használható, a szerverei nem azok. “A tartalmunk ingyenes, az infrastruktúránk nem” – mondta az Alapítvány. A csapat folyamatosan dolgozik azon módszerek kidolgozásán, amelyekkel elősegítik az “infrastruktúra felelősségteljes használatát”, arra ösztönözve a fejlesztőket, hogy az API-t használják az oldal teljes lekaparása helyett.
A probléma érinti a Wikimediát, valamint a számos más weboldalt és kiadót is. Azonban a világ legnagyobb nyílt tudásplatformja számára ez veszélyezteti azoknak a szolgáltatásoknak a stabilitását, amelyekre milliók támaszkodnak.
Írj hozzászólást
Mégse