O scurtă istorie a inteligenței artificiale

inteligenta artificiala ai Sursa foto: Dreamstime.com © Wrightstudio 

Cum a reușit inteligența artificială să depășească decenii de rezultate insuficiente? The Economist face o scurtă istorie a inteligenței artificiale.

În vara anului 1956, un grup mic, dar ilustru, s-a reunit la Dartmouth College din New Hampshire; din el făceau parte Claude Shannon, creatorul teoriei informației, și Herb Simon, singura persoană care a câștigat vreodată atât Premiul Nobel pentru Științe Economice acordat de Academia Regală Suedeză de Științe, cât și Premiul Turing acordat de Association for Computing Machinery. Aceștia fuseseră convocați de un tânăr cercetător, John McCarthy, care dorea să discute despre „cum să facem mașinile să utilizeze limbajul, să formeze abstracții și concepte” și „să rezolve tipuri de probleme rezervate acum oamenilor”. Aceasta a fost prima reuniune academică dedicată a ceea ce McCarthy a numit „inteligență artificială”. Și a stabilit un șablon pentru următorii 60 și ceva de ani în care domeniul nu a înregistrat progrese pe măsura ambițiilor sale.

Reuniunea de la Dartmouth nu a marcat începutul cercetării științifice asupra mașinilor care ar putea gândi ca oamenii. Alan Turing, care a dat numele premiului Turing, și-a pus întrebări în acest sens; la fel a făcut și John von Neumann, o sursă de inspirație pentru McCarthy. În 1956 existau deja o serie de abordări ale problemei; istoricii cred că unul dintre motivele pentru care McCarthy a inventat termenul de inteligență artificială, mai târziu AI, pentru proiectul său a fost că era suficient de larg pentru a le cuprinde pe toate, păstrând deschisă întrebarea care ar putea fi cea mai bună. Unii cercetători au preferat sistemele bazate pe combinarea faptelor despre lume cu axiome precum cele ale geometriei și logicii simbolice, astfel încât să se deducă răspunsuri adecvate; alții au preferat să construiască sisteme în care probabilitatea unui lucru depinde de probabilitățile actualizate constant ale multor altora.

Următoarele decenii au fost marcate de multă fervoare intelectuală și discuții pe această temă, însă în anii 1980 s-a ajuns la un acord larg cu privire la calea de urmat: „sisteme experte” care utilizează logica simbolică pentru a capta și aplica cele mai bune cunoștințe umane. Guvernul japonez, în special, a sprijinit ideea unor astfel de sisteme și hardware-ul de care acestea ar putea avea nevoie. Însă, în mare parte, aceste sisteme s-au dovedit prea puțin flexibile pentru a face față dezordinii lumii reale. Până la sfârșitul anilor 1980, AI a căzut în dizgrație, devenind un sinonim al promisiunilor exagerate și al livrărilor insuficiente. Cercetătorii aflați încă în domeniu au început să evite termenul.

Din unul dintre aceste focare de perseverență s-a născut boom-ul de astăzi. Pe măsură ce rudimentele modului în care funcționează celulele creierului – un tip de neuron – au fost reconstituite în anii 1940, informaticienii au început să se întrebe dacă mașinile ar putea fi conectate în același mod. Într-un creier biologic există conexiuni între neuroni care permit activității unuia să declanșeze sau să suprime activitatea altuia; ceea ce face un neuron depinde de ceea ce fac ceilalți neuroni conectați la el. O primă încercare de a modela acest lucru în laborator (de către Marvin Minsky, participant la Dartmouth) a utilizat hardware pentru a modela rețele de neuroni. De atunci, straturile de neuroni interconectați au fost simulate în software.

Aceste rețele neuronale artificiale nu sunt programate folosind reguli explicite; în schimb, ele „învață” prin expunerea la o mulțime de exemple. În timpul acestui antrenament, puterea conexiunilor dintre neuroni (cunoscute sub numele de „ponderi”) este ajustată în mod repetat, astfel încât, în cele din urmă, o anumită intrare să producă o ieșire corespunzătoare. Minsky însuși a abandonat ideea, dar alții au continuat-o. Până la începutul anilor 1990, rețelele neuronale au fost antrenate să facă lucruri precum să ajute la sortarea corespondenței prin recunoașterea numerelor scrise de mână. Cercetătorii s-au gândit că adăugarea mai multor straturi de neuroni ar putea permite realizări mai sofisticate. Dar acest lucru a făcut ca sistemele să funcționeze mult mai lent.

Un nou tip de computer hardware a oferit o cale de a rezolva problema. Potențialul său a fost demonstrat în mod spectaculos în 2009, când cercetătorii de la Universitatea Stanford au mărit de 70 de ori viteza la care putea funcționa o rețea neuronală, folosind un PC de jocuri din camera lor de cămin. Acest lucru a fost posibil deoarece, pe lângă „unitatea centrală de procesare” (cpu) prezentă în toate PC-urile, acesta avea și o „unitate de procesare grafică” (gpu) pentru a crea lumi de joc pe ecran. Și gpu a fost proiectată într-un mod adecvat pentru a rula codul rețelei neuronale.

Cuplarea acestei viteze hardware cu algoritmi de formare mai eficienți a însemnat că rețelele cu milioane de conexiuni puteau fi formate într-un timp rezonabil; rețelele neuronale puteau gestiona intrări mai mari și, mai important, puteau primi mai multe straturi. Aceste rețele „mai profunde” s-au dovedit a fi mult mai capabile.

Puterea acestei noi abordări, care a ajuns să fie cunoscută sub numele de „învățare profundă”, a devenit evidentă în cadrul provocării ImageNet din 2012. Sistemele de recunoaștere a imaginilor care au participat la această provocare au primit o bază de date cu peste un milion de fișiere de imagini etichetate. Pentru orice cuvânt dat, cum ar fi „câine” sau „pisică”, baza de date conținea câteva sute de fotografii. Sistemele de recunoaștere a imaginilor urmau să fie antrenate, pe baza acestor exemple, să „mapeze” datele de intrare, sub formă de imagini, pe cele de ieșire, sub formă de descrieri cu un singur cuvânt. Sistemele au fost apoi provocate să producă astfel de descrieri atunci când li s-au furnizat imagini de test nevăzute anterior. În 2012, o echipă condusă de Geoff Hinton, pe atunci la Universitatea din Toronto, a utilizat învățarea profundă pentru a obține o precizie de 85%. Acest rezultat a fost imediat recunoscut ca o descoperire.

Până în 2015, aproape toată lumea din domeniul recunoașterii imaginilor folosea învățarea profundă, iar precizia câștigătoare la provocarea ImageNet ajunsese la 96% – mai bună decât scorul uman mediu. Învățarea profundă era, de asemenea, aplicată la o serie de alte „probleme… rezervate oamenilor”, care puteau fi reduse la maparea unui tip de lucru pe altul: recunoașterea vorbirii (maparea sunetului pe text), recunoașterea fețelor (maparea fețelor pe nume) și traducerea.

În toate aceste aplicații, cantitățile uriașe de date care puteau fi accesate prin intermediul internetului erau vitale pentru succes; în plus, numărul de persoane care utilizau internetul vorbea despre posibilitatea unor piețe mari. Cu cât rețelele erau mai mari (adică mai profunde) și cu cât li se furnizau mai multe date de formare, cu atât performanțele lor se îmbunătățeau.

În curând, învățarea profundă a fost implementată în tot felul de produse și servicii noi. Au apărut dispozitive bazate pe voce, cum ar fi Alexa de la Amazon. Serviciile de transcriere online au devenit utile. Browserele web ofereau traduceri automate. A spune că astfel de lucruri au fost activate de IA a început să sune cool, mai degrabă decât jenant, deși a fost, de asemenea, un pic redundant; aproape fiecare tehnologie menționată ca IA atunci și acum se bazează de fapt pe învățarea profundă „sub capotă”.

Chatgpt și rivalii săi chiar par să „utilizeze limbajul și să formeze abstracții”

În 2017, o schimbare calitativă s-a adăugat beneficiilor cantitative oferite de mai multă putere de calcul și mai multe date: un nou mod de aranjare a conexiunilor dintre neuroni numit transformator. Transformatoarele permit rețelelor neuronale să țină evidența modelelor din datele lor de intrare, chiar dacă elementele modelului sunt foarte îndepărtate, într-un mod care le permite să acorde „atenție” anumitor caracteristici ale datelor.

Transformatorii au oferit rețelelor o mai bună înțelegere a contextului, ceea ce le-a permis să utilizeze o tehnică numită „învățare autosupravegheată”. În esență, unele cuvinte sunt eliminate aleatoriu în timpul formării, iar modelul învață singur să le completeze cu cel mai probabil candidat. Deoarece datele de formare nu trebuie să fie etichetate în prealabil, astfel de modele pot fi formate folosind miliarde de cuvinte de text brut preluate de pe internet.

Atenție la modelul dvs. lingvistic

Modelele mari de limbaj (LLMs) bazate pe transformatoare au început să atragă o atenție mai mare în 2019, când un model numit GPT-2 a fost lansat de OpenAI, un start-up (GPT înseamnă generative pre-trained transformer). Astfel de LLMs s-au dovedit a fi capabile de un comportament „emergent” pentru care nu au fost instruite în mod explicit. Absorbția unor cantități uriașe de limbaj nu le-a făcut doar surprinzător de pricepute la sarcini lingvistice precum rezumatul sau traducerea, ci și la lucruri precum aritmetica simplă și scrierea de software – care erau implicite în datele de formare. În mod mai puțin fericit, acest lucru a însemnat, de asemenea, că au reprodus prejudecățile din datele care le-au fost furnizate, ceea ce înseamnă că multe dintre prejudecățile predominante ale societății umane au apărut în rezultatele lor.

În noiembrie 2022, un model OpenAI mai mare, GPT-3.5, a fost prezentat publicului sub forma unui chatbot. Oricine avea un browser web putea introduce o solicitare și obține un răspuns. Niciun produs de consum nu a decolat vreodată mai repede. În câteva săptămâni, ChatGPT genera orice, de la eseuri universitare la cod informatic.

În timp ce prima cohortă de produse bazate pe inteligență artificială se baza pe recunoaștere, această a doua cohortă se bazează pe generare. Modele de învățare profundă precum Stable Diffusion și Dall-E, care și-au făcut debutul tot în acea perioadă, au folosit o tehnică numită difuzie pentru a transforma solicitările text în imagini. Alte modele pot produce videoclipuri, discursuri sau muzică surprinzător de realiste.

Saltul nu este doar tehnologic. Fabricarea lucrurilor face diferența. ChatGPT și rivali precum Gemini (de la Google) și Claude (de la Anthropic, fondată de cercetători care au lucrat anterior la OpenAI) produc rezultate din calcule la fel ca alte sisteme de învățare profundă. Dar faptul că răspund solicitărilor cu noutăți le face să se simtă foarte diferite de software-ul care recunoaște fețe, ia dictare sau traduce meniuri. Ele chiar par să „utilizeze limbajul” și să „formeze abstracții”, exact așa cum spera McCarthy.

Urmărește mai jos producțiile video ale Economedia: