OpenAI a blocat un site de comerț electronic: Strângerea de informații pentru antrenarea AI, confundată cu un atac DDoS

14 ianuarie, 2025

Un site de comerţ electronic a picat din cauza modului în care funcţionează botul folosit de OpenAI pentru strângerea informaţiilor pe baza cărora este antrenat ChatGPT. Platforma a căzut ca și cum ar fi ar fi fost supusă unui atac DDoS, relatează TechCrunch.

Sâmbătă, Oleksandr Tomchuk, directorul general al Triplegangers, a fost avertizat că site-ul de comerț electronic al companiei sale nu funcționează. Părea să fie un fel de atac distribuit de tip denial-of-service (DDoS).

Curând, s-a descoperit că vinovatul era un bot al OpenAI care încerca neîncetat să preia informații.

„Avem peste 65.000 de produse, fiecare produs are o pagină”, a declarat Tomchuk pentru TechCrunch. „Fiecare pagină are cel puțin trei fotografii”.

OpenAI trimitea „zeci de mii” de cereri pe server încercând să descarce toate aceste sute de mii de fotografii, împreună cu descrierile lor detaliate.

„OpenAI a folosit 600 de IP-uri pentru a colecta date, iar noi încă analizăm activitatea de săptămâna trecută, poate că sunt mult mai multe”, a spus el despre adresele IP pe care botul le-a folosit pentru a încerca să îi absoarbă conținutul.

„A fost practic un atac DDoS”, a explicat.

În week-end, magazinul online Triplegangers a devenit inaccesibil. După o investigaţie internă, administratorii au găsit vinovatul – botul care copiază date de pe mai toate site-urile de pe internet al OpenAI.

Inginerii au reuşit să numere peste 600 de IP-uri pe care botul producătorului ChatGPT le-a folosit pentru a copia rapid informaţiile.

„Botul lor pur şi simplu ne-a zdrobit serverul. A fost la fel ca la un atac DDoS” spune CEO-ul de la Triplegangers Oleksandr Tomchuk.

Pentru a evita astfel de situații, site-urile trebuie să restricționeze boții AI

Dincolo de inconvenientul de a avea magazinul închis pentru o perioadă de timp, Triplegangers a trebuit să plătească şi o factură semnificativ mai mare către Amazon, care-i furnizează infrastructura web.

Una dintre lecţiile acestei experiențe este importanţa introducerii în robots.txt a restricţiilor pentru boţii companiilor de AI.

Este adevărat că nu toate companiile de AI respectă aceste restricţii. OpenAI şi alte mari companii spun că le onorează, însă, altele, precum Perplexity, au fost prinse că procesează datele indiferent de parametrii trecuţi în robots.txt de site-urile online.

Compania cu șapte angajați a construit în șapte ani ceea ce numește cea mai mare bază de date de „dubluri digitale umane” de pe web, adică fișiere de imagini 3D scanate de la modele umane reale.

Nu se poate ști cu siguranță ce a fost luat

Până miercuri, după zile în care botul OpenAI a revenit, Triplegangers avea un fișier robot.txt configurat corespunzător și, de asemenea, un cont Cloudflare configurat pentru a bloca GPTBot-ul și mai mulți alți boti pe care i-a descoperit, cum ar fi Barkrowler (un crawler SEO) și Bytespider (crawlerul TokTok).

Tomchuk speră, de asemenea, că a blocat crawlerele de la alte companii de modele AI. Joi dimineața, site-ul nu s-a blocat, a spus el.

Dar Tomchuk nu are încă nicio modalitate de a afla exact ce a luat OpenAI cu succes sau de a obține eliminarea materialului respectiv. El nu a găsit nicio modalitate de a contacta OpenAI și afla aceste lucruri.

OpenAI nu a răspuns nici la solicitarea de comentarii adresată de TechCrunch.

Site-ul Triplegangers a fost o descoperire deosebit de importantă pentru crawlerele AI. Au fost create startup-uri evaluate la miliarde de dolari, precum Scale AI, în care oamenii etichetează minuțios imagini pentru a antrena inteligența artificială.

Platforma conține fotografii etichetate în detaliu: etnie, vârstă, tatuaje versus cicatrici, toate tipurile de corp și așa mai departe.

Ironia este că lăcomia robotului OpenAI este cea care a alertat Triplegangers cu privire la cât de expus era. Tomchuk a explicat că, dacă botul ar fi fost mai discret, proprietarii nu ar fi aflat niciodată despre această colectare de date.

Nu este singurul caz, problema ar trebui reglementată

Proprietarii altor site-uri web au declarat recent pentru Business Insider cum boții OpenAI le-au blocat site-urile și le-au crescut facturile.

Problema s-a amplificat în 2024. O nouă cercetare a companiei de publicitate digitală DoubleVerify a constatat că crawlerele și scraperii AI au provocat o creșțere cu 86% a „traficului general invalid” în 2024 – adică traficul ce nu provine de la un utilizator real.

Cu toate acestea, „majoritatea site-urilor nu știu că au fost descărcate de acești boți”, avertizează Tomchuk. „Acum trebuie să monitorizăm zilnic activitatea, pentru a depista acești boți”.

Întregul model funcționează un pic ca un shakedown mafiot: boții cu inteligență artificială vor lua ce vor, dacă nu aveți protecție.

„Ar trebui să ceară permisiunea, nu să extragă date” pur și simplu, spune Tomchuk.

(Citește și: ChatGPT devine motor de căutare gratuit – intră în concurență directă cu Google)

****

Urmărește-ne pe Google News

Articole recomandate:

Interviu Michael Clarke / „Vacanța de la istorie” s-a încheiat. Cum se reorganizează Occidentul în fața Chinei și a Rusiei

Producția de legume-fructe a României, în contextul european: suntem primii doar la… prune. La celelalte suntem ”varză”

De la -0,05 la peste 2.100 lei/MWh într-o săptămână: În absența unor capacități suplimentare de 2.000 MW, volatilitatea extremă a prețurilor la energie se va accentua

Fed reia ciclul de scădere a dobânzilor, dar semnalează risc de stagflație. Analiști: ”Nu am mai văzut o ședință Fed cu atât de multe contradicții”

Comerțul România–Germania s-a contractat în S1 – Comerțul bilateral stagnează de 2 ani – Tabloul ramurilor afectate

Doar 2 regiuni din România înregistrează creștere a locuințelor noi date în folosință: 13.647 locuințe livrate pe piață în T2, minus -6,5%. Cum stau lucrurile în țară

cursdeguvernare

OpenAI a blocat un site de comerț electronic: Strângerea de informații pentru antrenarea AI, confundată cu un atac DDoS

Pentru a evita astfel de situații, site-urile trebuie să restricționeze boții AI

Nu se poate ști cu siguranță ce a fost luat

Nu este singurul caz, problema ar trebui reglementată

(Citește și: ChatGPT devine motor de căutare gratuit – intră în concurență directă cu Google)

Interviu Michael Clarke / „Vacanța de la istorie” s-a încheiat. Cum se reorganizează Occidentul în fața Chinei și a Rusiei

Producția de legume-fructe a României, în contextul european: suntem primii doar la… prune. La celelalte suntem ”varză”

De la -0,05 la peste 2.100 lei/MWh într-o săptămână: În absența unor capacități suplimentare de 2.000 MW, volatilitatea extremă a prețurilor la energie se va accentua

Fed reia ciclul de scădere a dobânzilor, dar semnalează risc de stagflație. Analiști: ”Nu am mai văzut o ședință Fed cu atât de multe contradicții”

Comerțul România–Germania s-a contractat în S1 – Comerțul bilateral stagnează de 2 ani – Tabloul ramurilor afectate

Doar 2 regiuni din România înregistrează creștere a locuințelor noi date în folosință: 13.647 locuințe livrate pe piață în T2, minus -6,5%. Cum stau lucrurile în țară

Etichete: boti openai informatii copiate, mobi, openai antrenare, Postare pe Twitter X

citește și

ChatGPT devine motor de căutare gratuit – intră în concurență directă cu Google

Acord fără precedent OpenAI şi Axel Springer -ChatGPT va răspunde cu rezumate din Politico și alte publicații ale grupului

CEO-ul OpenAI: „Ideea că am făcut ceva foarte rău lansând ChatGPT mă face să nu pot dormi”

lasă un comentariu

Faci un comentariu sau dai un răspuns? Anulează răspunsul

toate comentariile

Faci un comentariu sau dai un răspuns? Anulează răspunsul

articole categorie

cursdeguvernare

©Copyright - SC Varianta Media SRL

Citește și:

Alarmă nouă: Scădere bruscă a gradului de ocupare – în cel mai mare ritm de după pandemie. Industria – victima principală. IT-ul pierde și el 30.000 de joburi. Către ce se îndreaptă piața muncii? O comparație cu statele UE

Lucrăm momentan la conferința viitoare.