Radiografii deepfake. Radiologii nu pot detecta imaginile false generate de AI

Radiografii deepfake. Radiologii nu pot detecta imaginile false generate de AI
Radiologii sunt provocați profesional de persormanțele IA. Fracturi inventate, plămâni fabricați, aceasta e provocarea deepfake-urilor medicale care pune în pericol diagnosticul și justiția. Inteligența artificială produce imagini medicale performante, încât nici medicii, nici tehnologia nu le pot deosebi de cele reale.

Deepfake este cuvântul pe care acum, radiologii, precum toți experții, îl folosesc cel mai des atunci când ochiul expertului nu mai este de ajuns. Există un tip de înșelăciune care nu lasă nicio urmă, pentru că arată impecabil. Cercetătorii de la Icahn School of Medicine at Mount Sinai din New York tocmai au demonstrat că radiografiile generate de inteligența artificială au atins un nivel de realism atât de ridicat, încât nici radiologii cu zeci de ani de experiență, nici modelele avansate de limbaj nu le pot identifica cu fiabilitate. Studiul a fost publicat la 24 martie 2026 în revista Radiology a Societății Radiologice din America de Nord (RSNA). Acesta aduce în prim-plan o vulnerabilitate tot mai serioasă în medicina digitală. Imaginea medicală nu mai garantează adevărul. Radiologii se află în fața unei mari provocări, cu consecințe inimaginabile.

Designul experimentului

Studiul nu a fost unul strict local. Au fost implicați 17 radiologi din 12 centre medicale aflate în șase țări. Este vorba despre Statele Unite, Franța, Germania, Turcia, Regatul Unit și Emiratele Arabe Unite. Nivelul lor de experiență acoperea un spectru larg, de la rezidenți la medici cu 40 de ani de practică. Participanții au fost evaluați pe două seturi distincte de imagini, fără suprapunere între ele.

Primul set includea 77 de radiografii reale și 77 sintetice, generate de ChatGPT-4o, acoperind mai multe zone anatomice: piept, coloană vertebrală și extremități. Al doilea set era alcătuit exclusiv din radiografii toracice, jumătate autentice, jumătate produse de RoentGen, un model de difuzie generativă open-source dezvoltat de cercetătorii Stanford Medicine.

Studiul a fost publicat în revista Radiology, volumul 318, sub titlul „The Rise of Deepfake Medical Imaging: Radiologists’ Diagnostic Accuracy in Detecting ChatGPT-generated Radiographs”.

Ce au descoperit

Rezultatele sunt neliniștitoare. Atunci când radiologii au evaluat imaginile generate de ChatGPT fără să știe că scopul real al studiului era detecția falsurilor, ci doar pentru a le aprecia calitatea tehnică, doar 41% au sesizat spontan că ceva era în neregulă. Majoritea pur și simplu nu a observat nimic suspect.

Odată informați că setul conținea imagini sintetice, rata medie de detecție corectă a urcat la 75%. Dar performanțele individuale au variat dramatic: unii radiologi au identificat corect doar 58% din falsuri, iar cei mai buni au atins 92%. Una dintre concluziile cu adevărat surprinzătoare ale studiului este că experiența clinică nu a contat neapărat. Un medic cu patru decenii de practică nu a obținut rezultate mai bune decât un rezident la început de carieră. Singurul subgrup care a performat semnificativ mai bine decât colegii a fost cel al radiologilor osteomusculari, probabil datorită familiarizării cu detalii anatomice fine.

„Studiul nostru demonstrează că aceste radiografii deepfake sunt suficient de realiste pentru a înșela radiologii, cei mai specializați experți în imagini medicale, chiar și atunci când știau că imagini generate de AI erau prezente”, a declarat dr. Mickael Tordjman, autorul principal al studiului.

Mașinile, la fel de oarbe precum radiologii

Echipa de cercetare a extins testele și la patru modele mari de limbaj multimodal. Au fost utilizate GPT-4o și GPT-5 de la OpenAI, Gemini 2.5 Pro de la Google și Llama 4 Maverick de la Meta. Acuratețea lor în separarea imaginilor reale de cele generate de ChatGPT a variat între 57% și 85%. Intervalul se suprapune aproape perfect cu cel al radiologilor umani. Onoarea acelor radiologi, participanți la studiu a fost reparată. Situația devenea și mai ironică. ChatGPT-4o, chiar modelul care a generat deepfake-urile, nu a reușit să le detecteze pe toate, deși a obținut cele mai bune rezultate comparativ cu modelele concurente.

Pentru setul de radiografii toracice create cu RoentGen, acuratețea radiologilor a oscilat între 62% și 78%, iar a modelelor AI între 52% și 89%.

O falsă fractură poate ajunge în tribunal

Dincolo de implicațiile diagnostice imediate, cercetătorii subliniază riscurile mai largi ale acestui fenomen. O radiografie falsificată, indistinctă de una reală, poate servi drept probă frauduloasă în procese civile. Spre exemplu, o fractură inventată poate susține o cerere de despăgubire. „Aceasta creează o vulnerabilitate cu miză ridicată pentru litigii frauduloase dacă, de exemplu, o fractură fabricată devine indistinctă de una reală”, a avertizat dr. Tordjman.

La aceasta se adaugă scenariul unui posibil atac cibernetic.Hackerii ar putea injecta imagini sintetice în rețelele informatice ale spitalelor, compromițâd integritatea dosarelor medicale digitale. Imaginile sintetice ar putea contamina, fără să fie depistate, seturile de date folosite pentru antrenarea sistemelor AI medicale viitoare. E un efect de bulgăre de zăpadă cu consecințe greu de estimat.

Cum arată o radiografie prea perfectă

Studiul a identificat și câteva trăsături comune ale imaginilor sintetice. Sunt indicii utile pentru viitoarele programe de formare. Liniile de fractură generate de AI tind să fie nenatural de netede, curate și uniforme. Sunt lipsite de neregularitățile biologice tipice traumatismelor reale. „Imaginile medicale deepfake arată adesea prea perfect”, a conchis dr. Tordjman.

Paradoxul este memorabil. Tocmai absența imperfecțiunii, a zgomotului imaginii, a asimetriei, a micilor anomalii care însoțesc orice corp real, poate trăda originea artificială a unei imagini.

Natura, inclusiv natura rănită, nu este niciodată perfectă. Algoritmii, deocamdată, nu știu să greșească destul de convingător.

0 comentarii