Tehnologia poate transforma gândurile și vorbirea interioară în semnale digitale. Algoritmii AI recreează imagini și sunete percepute de creier

Tehnologia poate transforma gândurile și vorbirea interioară în semnale digitale. Algoritmii AI recreează imagini și sunete percepute de creier AI. Sursa foto: Freepik
Creierul uman începe să vorbească prin intermediul tehnologiei. O combinație între interfețe creier-computer și algoritmi AI permite oamenilor să transforme gândurile și percepțiile în cuvinte, imagini sau sunete, aducând cercetarea științifică mai aproape ca niciodată de decodarea experiențelor interioare.

Oamenii de știință fac pași importanți în descifrarea gândurilor și a percepțiilor umane direct din activitatea creierului. Tehnologiile BCI și algoritmii AI permit decodarea vorbirii, a tonului, a ritmului. Dar și recrearea imaginilor, muzicii și chiar a halucinațiilor sau viselor, deschizând perspective fără precedent pentru comunicare și cercetare.

Deși tehnologia progresează rapid, va mai necesita ani de cercetări și perfecționare.

Știința transformă semnalele cerebrale în comenzi digitale

Oamenii de știință lucrează de foarte mult timp la dezvoltarea unor dispozitive capabile să comunice direct cu creierul uman. Sunt cunoscute sub numele de interfețe creier-computer (BCI). În 1969, neuroscientistul american Eberhard Fetz a demonstrat că maimuțele pot învăța să miște acul unui contor cu ajutorul activității unui singur neuron din creierul lor. În schimb, trebuie să primească o bucată de mâncare. Într-un experiment mai idiosincratic din aceeași perioadă, omul de știință spaniol Jose Delgado a reușit să stimuleze de la distanță creierul unui taur furios, determinându-l să se oprească în mijlocul atacului.

BCI-urile au reușit să decodifice semnalele creierului care însoțesc mișcarea. Astfel, utilizatorii pot controla un membru protetic sau un cursor pe un ecran timp de zeci de ani. Dar BCI-urile care traduc semnalele vocale sau alte gânduri complexe din semnalele creierului au evoluat mai lent. „Multe dintre primele lucrări au fost realizate pe primate non-umane… și, evident, cu maimuțele nu poți studia vorbirea”, spune Wairagkar.

În ultimii ani, însă, acest domeniu a înregistrat progrese impresionante în eforturile sale de a decoda vorbirea persoanelor cu capacități de comunicare afectate. De exemplu, pacienții care suferă de SLA, care duce la paralizie sau sindromul „locked-in”.

Stanford testează o metodă care transformă gândurile în propoziții scrise

Cercetătorii de la Universitatea Stanford au anunțat în 2021, de exemplu, o dovadă de concept reușită. A permis unui bărbat tetraplegic să producă propoziții în limba engleză imaginându-și că desenează litere în aer cu mâna. Folosind această metodă, el a reușit să scrie 18 cuvinte pe minut. „Viteza naturală a vorbirii umane este de aproximativ 150 de cuvinte pe minut. Etapa următoare a constat în decodarea cuvintelor din activitatea neuronală asociată cu vorbirea în sine. În 2024, laboratorul lui Wairagkar a testat o tehnică care traducea încercările de vorbire ale unui bărbat de 45 de ani cu SLA direct în text pe ecranul unui computer. Cu o viteză de aproximativ 32 de cuvinte pe minut și o precizie de 97,5%, aceasta a fost prima demonstrație a modului în care BCI-urile vocale pot ajuta la comunicarea de zi cu zi”, spune Wairagkar.

Sursa foto: Freepik

Aceste metode se bazează pe „matrice” minuscule de microelectrozi care sunt implantate chirurgical în suprafața creierului. Matricea înregistrează tiparele de activitate neuronală din zona creierului în care sunt plasate. Semnalele sunt convertite în semnificații de un algoritm computerizat. Aici puterea învățării automate, un tip de inteligență artificială, a avut un efect transformator. Aceste algoritme sunt capabile să recunoască tipare din cantități uriașe de date disparate. În cazul decodării vorbirii, algoritmii de învățare automată sunt antrenați să recunoască tiparele de activitate neuronală asociate cu diferite foneme. Cele mai mici elemente constitutive ale limbajului.

Cercetătorii au comparat acest proces cu cel care are loc în asistenții inteligenți, precum Alexa de la Amazon. Însă, în loc să interpreteze sunete, AI interpretează semnale neuronale.

Cercetătorii testează dacă pot decoda vorbirea interioară în timp real

Oricât de impresionante ar fi aceste eforturi recente de decodare a limbajului, au rămas câteva obstacole. De obicei, pacienții trebuie să încerce să rostească cuvintele pe care doresc să le comunice. Chiar dacă nu sunt capabili fizic să o facă , o să fie traduse cu acuratețe de tehnologia BCI. Acest lucru se datorează faptului că electrozii sunt de obicei plasați în cortexul motor, zona responsabilă de mișcările musculare.

Cu toate acestea, încercarea de a vorbi necesită efort, ceea ce face procesul de comunicare lent și dificil. Pentru ultima lor încercare, cercetătorii de la Universitatea Stanford au dorit să testeze dacă există o metodă mai ușoară. Dacă pot concepe o metodă care să capteze „vorbirea interioară” în timp real, pe lângă „încercarea de a vorbi”.

„Le-am cerut să numere formele de o anumită culoare de pe ecran. Ne-am gândit că, în acest tip de sarcină, probabil că ar realiza-o numărând literalmente numerele în minte”, spune Frank Willett, codirector al Laboratorului de Traducere Neurală Protetică de la Universitatea Stanford, care a fost unul dintre autorii studiului care a implicat femeia de la începutul acestui articol.

Tehnologia poate identifica vorbirea interioară

Răspunsul la întrebarea dacă tehnologia poate identifica vorbirea interioară a fost un „da” provizoriu. Pentru o sarcină care implica imaginarea unei propoziții, cercetătorii au reușit să atingă o rată de precizie de până la 74% în timp real. „Cu tehnologia actuală, nu suntem capabili să obținem discursul interior complet nefiltrat al unei persoane cu o precizie perfectă. Dar am reușit să detectăm destul de clar urme ale discursului interior în aceste sarcini diferite.” , a spus Willett.

Sursa foto: Freepik

Studiul a clarificat și mai mult modul în care discursul interior ar putea funcționa în creierul nostru. S-a descoperit că modelele neuronale ale discursului interior erau strâns corelate cu cele ale discursului încercat în cortexul motor. Semnalele emise erau mai slabe. Acest lucru a confirmat studiile anterioare de neuroimagistică și electrofiziologie. Au descoperit că discursul interior implică o rețea cerebrală similară cu cea a discursului produs fizic.

AI permite pacienților să transmită nu doar cuvinte, ci și ton și ritm

Laboratorul lui Wairagkar de la Universitatea din California, Davis, a realizat o descoperire importantă în domeniul AI în 2025. A demonstrat că poate decoda nu numai cuvintele, ci și părțile nonverbale ale vorbirii, precum intonația, tonul, viteza și ritmul. În esență, acest lucru le-a permis pacienților să comunice expresivitate și accentuare, pe lângă cuvintele în sine.  „Vorbirea umană este mult mai mult decât textul de pe ecran. Cea mai mare parte a comunicării noastre se realizează prin modul în care vorbim, prin modul în care ne exprimăm. Ceea ce spunem are semnificații diferite în contexte diferite.”, spune Wairagkar.

Un aspect crucial a fost faptul că participantul a reușit să-și moduleze cuvintele pentru a transmite sensul. „Participantul nostru a reușit să pună o întrebare cu o inflexiune la sfârșitul propoziției. Și-a schimbat tonul în timp ce vorbea”, a spus Wairagkar.

Nu a fost perfect, dar 60% din cuvinte au fost considerate inteligibile de către testeri. Se află la o distanță considerabilă de cea mai bună tehnologie de conversie creier-text. S-a demonstrat ce ar putea fi posibil în viitorul apropiat. Atât Wairagkar, cât și Willett cred că sunt iminente progrese suplimentare. O cale de îmbunătățire ar putea implica pur și simplu creșterea numărului de microelectrozi plasați pe creier.

Algoritmii AI reconstruiesc imaginile vizualizate din scanările cerebrale

Willett este interesat să exploreze în continuare vorbirea interioară, în special, și intenționează să investigheze modul în care ar putea fi implicate alte zone ale creierului în afara cortexului motor. „O zonă care ne interesează este girusul temporal superior”, spune el, referindu-se la o zonă a creierului implicată în procesarea auditivă, care ar putea juca un rol și în vorbirea interioară, de exemplu „reprezentările auditive ale ceea ce îți imaginezi că auzi în capul tău. Privirea dincolo de cortexul motor ar putea fi importantă și pentru a ajuta persoanele care au leziuni cerebrale în această regiune, de exemplu, victimele accidentelor vasculare cerebrale al căror cortex motor este deteriorat, dar care încă pot înțelege vorbirea. Descoperirea altor zone ale creierului implicate în vorbirea interioară ar putea, într-o zi, să ajute și aceste persoane să comunice, spune Willett.

În timp ce cercetătorii din domeniul interfețelor creier-computer se concentrează pe aplicațiile practice ale tehnologiei care pot ajuta pacienții, există și alte domenii care fac progrese în decodarea scanărilor cerebrale și ne ajută să înțelegem mai bine modul în care funcționează creierul.

Unul dintre aceste domenii se concentrează pe recrearea imaginilor vizualizate de o persoană prin simpla analiză a scanărilor cerebrale cu ajutorul AI. Funcționează astfel: participanților li se arată imagini în timp ce activitatea lor cerebrală este înregistrată prin imagistică prin rezonanță magnetică funcțională (fMRI), o tehnică care măsoară activitatea cerebrală prin detectarea modificărilor fluxului sanguin către diferite regiuni ale creierului. Datele neuronale sunt apoi decodificate de un algoritm și introduse într-un generator de imagini AI, care încearcă să reproducă imaginile pe care le-a văzut subiectul.

Sursa foto: Freepik

Studiile recente îmbunătățesc precizia reconstrucției vizuale

Cercetătorii încearcă să rezolve această enigmă de zeci de ani. Dar boom-ul AI generativ din ultimii ani a dat un impuls semnificativ acestui domeniu. Cele mai recente generatoare de imagini AI, precum Stable Diffusion, au îmbunătățit considerabil calitatea imaginilor produse.

Yu Takagi, profesor asociat la Institutul de Tehnologie din Nagoya, Japonia, a publicat un studiu în 2023, A urmat această metodă, care a utilizat un algoritm Stable Diffusion. Algoritmul AI a fost antrenat pe un set de date online creat de Universitatea din Minnesota, constând în scanări cerebrale ale patru participanți. Fiecare dintre ei vizualiza un set de 10.000 de fotografii. În multe cazuri, AI a reușit să redea o impresie acceptabilă a imaginii originale. Deși a fost complet blocat de un bol de salată.

Domeniul avansează rapid în prezent. Un studiu publicat anul trecut de cercetători din Israel a reușit să reproducă imagini și mai precise.  Astfel de studii au contribuit la elucidarea modului în care creierul procesează informațiile vizuale, spune Takagi. Se pare că două părți diferite ale creierului sunt cruciale. Lobul occipital, situat în partea din spate a creierului, codifică aspectele vizuale „de nivel inferior” ale unei imagini, cum ar fi dispunerea, perspectiva și culoarea. În același timp, lobul temporal, situat în spatele tâmplelor, codifică elementele conceptuale „de nivel înalt” implicate în clasificarea a ceea ce este de fapt un obiect.

Cercetătorii decodează caracterul și categoria muzicii percepute

Se depun eforturi continue și pentru reconstrucția experiențelor auditive. În 2025, Takagi a publicat un studiu care a utilizat un algoritm AI propriu Google pentru a încerca să reproducă sunetul din scanările fMRI efectuate în timp ce subiecții ascultau piese muzicale.

Takagi spune că acest lucru poate fi mai dificil decât reconstrucția informațiilor vizuale, deoarece muzica se schimbă constant, iar scanerul fMRI poate efectua scanări doar la intervale de o secundă. „Calitatea reconstrucției este mai scăzută în comparație cu reconstrucția imaginii. Dar am reușit totuși să reconstruim caracterul muzicii și categoria de bază.” , confirmă Takagi.

Acest domeniu a contribuit la înțelegerea bazelor neuronale ale percepției muzicale. „Ceea ce ne-a surprins în acest studiu este faptul că percepția muzicii în creier este diferită de percepția imaginilor. În cazul imaginilor, informațiile de nivel înalt și cele de nivel scăzut au locații distincte în creier. În cazul muzicii, am descoperit că semantica și informațiile de nivel scăzut nu sunt separate.” , afirmă Takagi.

Sursa foto: Freepik

Tehnologia ar putea surprinde experiențele animale și umane, dar rămâne complexă

Takagi este entuziasmat de unele dintre aplicațiile potențiale ale acestor abordări. Acestea ar putea recrea halucinațiile auditive și vizuale ale pacienților psihiatrici, cum ar fi schizofrenicii, pentru a înțelege mai bine starea lor, spune el. Tehnicile ar putea fi utilizate pentru a recrea ceea ce experimentează animalele în timp ce procesează lumea sau chiar pentru a reconstrui visele.

„Mulți oameni întreabă despre asta”, spune Takagi râzând. El spune că i-ar plăcea să recreeze visele într-o zi, dar în acest moment, acest lucru rămâne extrem de complicat. Unele cercetări au ridicat chiar perspectiva comunicării directe între creiere, inclusiv cu mai multe persoane simultan, deși implicațiile etice și problemele legate de drepturile omului referitoare la dispozitivele care permit acest lucru nu au fost încă pe deplin elucidate.

Celor care speră că ar putea fi posibilă stimularea experiențelor vizuale sau auditive în creier în scopul divertismentului, Takagi le recomandă răbdare. Deși acest lucru este teoretic posibil, el spune că limitările tehnice înseamnă că probabil nu se va întâmpla în următorii 10-20 de ani, conform BBC.

0 comentarii