Dacă mi s-ar pune întrebarea „care este în zilele noastre manifestarea informatică cu cel mai ridicat nivel de inteligență?”, eu aș opta pentru aplicațiile de traducere automată și pentru cele de recunoaștere a vorbirii (precum Translate și Speach Recognition din familia Google). Dacă la începuturi rezultatele traducerilor automate erau hilare, astăzi ele sunt oarecum întrebuinţabile, în situaţiile fortuite de criteriul vitezei. (E adevărat, încă le putem privi condescendent, fiind deocamdată nepotrivite pentru traducerea de beletristică, testul lor suprem.) Dar prognozele sunt optimiste.
Originile traducerii automate
Primele cercetări de machine translation, respectiv, de traducere dintr-o limbă în alta cu ajutorul informaticii, au început în urmă cu 70 de ani, la MIT (Massachusetts Institute of Technology). Imediat apoi au început și cercetările privind speach recognition, la Bell Labs, iar în 1962, compania IBM deja arăta lumii o mașină reală de recunoaștere a vorbirii (adică de transpunere în text inteligibil a vorbirii umane). Până și DARPA1 a finanțat cercetarea în acest domeniu (în anii 1971, 2000 și 2002). Însă, de-abia în 1997 apărea prima aplicație comercială de recunoaștere a vorbirii, Dragon Naturally Speaking. (Poate merită aici menționată și angajarea vizionarului Ray Kurzweil la Google, din 2012.) Revenind la machine translation, trebuie spus că în anii dintre cele două milenii, deja software-urile de traducere a textelor dintr-o limbă în alta deveniseră soluții comerciale foarte accesibile, în ciuda rezultatelor imperfecte. Iar, în direcția aceasta, tehnologia SYSTRAN a fost cea mai folosită, ajungând inclusiv la Yahoo!, Google și Apple. (Vedeți web-link-urile translate.systran.net, phrase.com și www.matecat.com.)
Dicționarul de corespondențe
În primele sale decenii, traducerea automată s-a concentrat pe constituirea bazelor de date cu corespondențele de cuvinte dintre limbi („mot-à-mot”), sens în care echipe de lingviști au contribuit masiv la completarea respectivelor dicționare. Însă, curând, abordarea și-a vădit limitele strâmte de aplicare (dificultatea de a constitui corespondențe biunivoce între cuvintele din diverse limbi). De-abia spre vremurile noastre, Google/ Alphabet a avut curajul vizionar de a abandona radical această abordare: în loc să angajeze armate de lingviști, spre a popula dicționarele pentru toate limbile pământului, au lăsat acces liber la dicționare pentru miliardele de cetățeni ai planetei, astfel încât, grație accesului la internet omniprezent/ ubicuu, oricine a putut să înscrie și să corecteze cuvinte/ sensuri. Valoarea adăugată aici de Google a fost IA-ul (inteligența artificială), care să concilieze intervențiile multiple, să supervizeze completările „dicționarelor” și să controleze dezvoltarea sintacticilor. (Pentru scurt timp, și eu am contribuit la dicționarul Ro-En.)
Oricum, trebuie să recunoaștem două lucruri:
(1) Specialiștii au știut aproape de la început că machine translation nu înseamnă doar dicționarul de corespondențe, vocabularul, și că trebuie multă inteligență pentru a implementa regulile de gramatică și de sintaxă. (Am putea imagina partea de dicționar ca forma plată, bi-dimensională a traducerii, pe când raporturile gramaticale și frazeologia ar constitui cea de-a treia coordonată, a unei forme tri-dimensionale.) Și e sigur că au știut, pentru că limba engleză – prima cu care au lucrat intensiv – prezintă două păcate capitale din această perspectivă (și vom reveni).
(2) Informatica de acum 70 de ani nu putea visa o altfel de strategie din motive… cantitative: de-abia când capacitățile de procesare și de memorare (inclusiv de procesare distribuită) s-au dezvoltat suficient, s-a putut asuma acea… tri-dimensionalitate necesară, adică tratarea și implementarea regulilor de constituire a formelor flexionare (conjugări de verbe, cazuri de substantive, acorduri, gen, număr etc) și, respectiv, adaptarea semantică a cuvintelor la contextul propoziției/ frazei. Pe plan algoritmic, intern, probabil că pasul necesar a fost adoptarea rețelelor neurale.
„Limba noastră-i o comoară”
Limba română este o limbă fonetică, adică fiecărui sunet îi corespunde o singură literă, ceea ce înseamnă un atu pentru speech recognition. (Multe alte limbi nu sunt.) Limba română are foarte puține cuvinte polisemantice, deci un avantaj pentru machine translation. (Pluralitatea semantică este primul păcat al limbii engleze. De exemplu, verbul to get are câteva zeci de semnificații, în funcție de context și prepoziție.) Pe de altă parte, limba română are un nivel înalt de structuralitate gramaticală și ortografică, comparabil cu cel al limbii franceze. Noi avem la dispoziție o articularitate ridicată și, respectiv, o flexionaritate coerentă și civilizată, cu reguli destul de clare, de implementabile. (Pe aici întâlnim și celălalt păcat major al limbii engleze, unde există multe cuvinte cu forme neregulate și multe expresii (cvasi)agramaticale. În plus, din perspectiva speech recognition, engleza păcătuiește și prin acea pronunție nativă cu dicție defectuoasă.)
Traduceri automate de la Google
Dacă pornim (ceea ce vă și recomand instant) Google Translate și îi dăm (prin copy & paste) un text să-l traducă dintr-o limbă în alta și, în special, dacă îl mai și supra-solicităm prin modificarea pe loc a cuvintelor din textul sursă (panoul din stânga), vom vedea pe viu manifestări de inteligență: observăm că textul obținut prin traducere nu (mai) este rezultatul unui simple corespondențe de dicționar, ci fiecare cuvânt este corelat cu (și, respectiv, actualizat în funcție de) cele din vecinătate, iar propozițiile și frazele sunt reevaluate în mod dinamic. Se simte, așadar, că aplicația evaluează în mod continuu funcțiile sintactice ale cuvintelor și că lucrează permanent cu ceva reguli de frazeologie și de semantică. Ceea ce îi cam dă dreptul la denominarea de inteligență artificială. Nu știm cum de Google Translate învață singur regulile, așa cum ar denota sintagma machine learning, însă, într-un viitor nu foarte îndepărtat (când va avea în spate suficientă putere de stocare și de procesare), va putea aplica mai toate regulile din mai toate limbile lumii. În fond, și inteligența umană este o chestiune de cantitate: abilitățile creierului se datorează imensei mulțimi de celule neuronale și de sinapse legându-le. Doar că artificialul mai are mult până să ajungă la miniaturizarea și la eficiența energetică specifice biologicului.
Recunoașterea vorbirii
Pentru a vedea pe viu încă o demonstrație de inteligență artificială actuală, vă propun să pornim un alt serviciu web al lui Google, și anume YouTube, și aici să găsim o înregistrare video cu dialoguri sau cu narație orală, însă fără subtitrare predefinită. Odată găsit un astfel de material video, vom alege din Settings/ Setări opțiunea de generare automată a subtitrării și vom urmări rezultatul: angajând o tehnologie de speach recognition, YouTube generează pe loc (și afișează pe ecran) o subtitrare în limba nativă a materialului video. Deși rezultatul nu se prezintă chiar grozav, în interior procesul este unul admirabil: algoritmii analizează coloana sonoră a înregistrării stocate pe YouTube și, folosind tehnici de pattern recognition, ne oferă cuvintele corespunzând sunetelor, dar și un pic reformulate pentru coerență semantică. (Reformularea în timp real a frazelor este posibilă la redare, întrucât respectivii algoritmi au acces la materialul video cu una-două secunde înainte de a ni-l furniza nouă.)
Pentru o apreciere cinstită a performanței din algoritmii de speech recognition, trebuie să punem în balanță și faptul că, atunci când vorbim, noi nu facem pauze semnificative între cuvinte, deci respectivii algoritmi informatici nu se prea pot baza, pentru identificare, pe o astfel de separare a unităților lexicale. (Există niște „pauze” între cuvinte, însă ele diferă de la un vorbitor la altul, iar uneori se confundă cu variabilitățile din interiorul cuvintelor, deci, nu sunt ușor de recunoscut, așa cum sunt pauzele dintre propoziții.) Și, revenind la YouTube, pentru ca testul să fie complet, punem (tot din meniul Settings) să realizeze și o traducere automată, din limba nativă a înregistrării într-o altă limbă, pe baza textului generat prin opțiunea anterioară. Da, rezultatul redării ne poate amuza (sau irita) prin imperfecțiune, însă el ne arată mai degrabă perspectivele, potențialul. Și ne îndreptățește să mizăm pe o evoluție remarcabilă a serviciilor de acest gen.
––––––––––
1 Defense Advanced Research Projects Agency – o agenție a Departamentului Apărării al Statelor Unite ale Americii destinată să dezvolte noi tehnologii pentru forțele armate.