fbpx

14 ianuarie, 2025

Un site de comerţ electronic a picat din cauza modului în care funcţionează botul folosit de OpenAI pentru strângerea informaţiilor pe baza cărora este antrenat ChatGPT. Platforma a căzut ca și cum ar fi ar fi fost supusă unui atac DDoS, relatează TechCrunch.

Sâmbătă, Oleksandr Tomchuk, directorul general al Triplegangers, a fost avertizat că site-ul de comerț electronic al companiei sale nu funcționează. Părea să fie un fel de atac distribuit de tip denial-of-service (DDoS).

Curând, s-a descoperit că vinovatul era un bot al OpenAI care încerca neîncetat să preia informații.


„Avem peste 65.000 de produse, fiecare produs are o pagină”, a declarat Tomchuk pentru TechCrunch. „Fiecare pagină are cel puțin trei fotografii”.

OpenAI trimitea „zeci de mii” de cereri pe server încercând să descarce toate aceste sute de mii de fotografii, împreună cu descrierile lor detaliate.

„OpenAI a folosit 600 de IP-uri pentru a colecta date, iar noi încă analizăm activitatea de săptămâna trecută, poate că sunt mult mai multe”, a spus el despre adresele IP pe care botul le-a folosit pentru a încerca să îi absoarbă conținutul.

„A fost practic un atac DDoS”, a explicat.

În week-end, magazinul online Triplegangers a devenit inaccesibil. După o investigaţie internă, administratorii au găsit vinovatul – botul care copiază date de pe mai toate site-urile de pe internet al OpenAI.


Inginerii au reuşit să numere peste 600 de IP-uri pe care botul producătorului ChatGPT le-a folosit pentru a copia rapid informaţiile.

„Botul lor pur şi simplu ne-a zdrobit serverul. A fost la fel ca la un atac DDoS” spune CEO-ul de la Triplegangers Oleksandr Tomchuk.

Pentru a evita astfel de situații, site-urile trebuie să restricționeze boții AI

Dincolo de inconvenientul de a avea magazinul închis pentru o perioadă de timp, Triplegangers a trebuit să plătească şi o factură semnificativ mai mare către Amazon, care-i furnizează infrastructura web.

Una dintre lecţiile acestei experiențe este importanţa introducerii în robots.txt a restricţiilor pentru boţii companiilor de AI.

Este adevărat că nu toate companiile de AI respectă aceste restricţii. OpenAI şi alte mari companii spun că le onorează, însă, altele, precum Perplexity, au fost prinse că procesează datele indiferent de parametrii trecuţi în robots.txt de site-urile online.


Compania cu șapte angajați a construit în șapte ani ceea ce numește cea mai mare bază de date de „dubluri digitale umane” de pe web, adică fișiere de imagini 3D scanate de la modele umane reale.

Nu se poate ști cu siguranță ce a fost luat

Până miercuri, după zile în care botul OpenAI a revenit, Triplegangers avea un fișier robot.txt configurat corespunzător și, de asemenea, un cont Cloudflare configurat pentru a bloca GPTBot-ul și mai mulți alți boti pe care i-a descoperit, cum ar fi Barkrowler (un crawler SEO) și Bytespider (crawlerul TokTok).

Tomchuk speră, de asemenea, că a blocat crawlerele de la alte companii de modele AI. Joi dimineața, site-ul nu s-a blocat, a spus el.

Dar Tomchuk nu are încă nicio modalitate de a afla exact ce a luat OpenAI cu succes sau de a obține eliminarea materialului respectiv. El nu a găsit nicio modalitate de a contacta OpenAI și afla aceste lucruri.

OpenAI nu a răspuns nici la solicitarea de comentarii adresată de TechCrunch.


Site-ul Triplegangers a fost o descoperire deosebit de importantă pentru crawlerele AI. Au fost create startup-uri evaluate la miliarde de dolari, precum Scale AI, în care oamenii etichetează minuțios imagini pentru a antrena inteligența artificială.

Platforma conține fotografii etichetate în detaliu: etnie, vârstă, tatuaje versus cicatrici, toate tipurile de corp și așa mai departe.

Ironia este că lăcomia robotului OpenAI este cea care a alertat Triplegangers cu privire la cât de expus era. Tomchuk a explicat că, dacă botul ar fi fost mai discret, proprietarii nu ar fi aflat niciodată despre această colectare de date.

Nu este singurul caz, problema ar trebui reglementată

Proprietarii altor site-uri web au declarat recent pentru Business Insider cum boții OpenAI le-au blocat site-urile și le-au crescut facturile.

Problema s-a amplificat în 2024. O nouă cercetare a companiei de publicitate digitală DoubleVerify a constatat că crawlerele și scraperii AI au provocat o creșțere cu 86% a „traficului general invalid” în 2024 – adică traficul ce nu provine de la un utilizator real.

Cu toate acestea, „majoritatea site-urilor nu știu că au fost descărcate de acești boți”, avertizează Tomchuk. „Acum trebuie să monitorizăm zilnic activitatea, pentru a depista acești boți”.

Întregul model funcționează un pic ca un shakedown mafiot: boții cu inteligență artificială vor lua ce vor, dacă nu aveți protecție.

„Ar trebui să ceară permisiunea, nu să extragă date” pur și simplu, spune Tomchuk.

(Citește și: ChatGPT devine motor de căutare gratuit – intră în concurență directă cu Google)

****

Articole recomandate:

citește și

lasă un comentariu

Faci un comentariu sau dai un răspuns?

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

toate comentariile

Faci un comentariu sau dai un răspuns?

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

articole categorie

Citește și:

Lucrăm momentan la conferința viitoare.

Îți trimitem cele mai noi evenimente pe e-mail pe măsură ce apar: