Header
Početna > Radovi > Može li AI znati sve, a ne znati razgovarati? (3/6)

Može li AI znati sve, a ne znati razgovarati? (3/6)

Može li AI znati sve, a ne znati razgovarati? (3/6)

Prva i daleko najskuplja faza stvaranja jezičnog modela umjetne inteligencije, koju zovemo “pred-treniranje”, ne stvara onog korisnog asistenta (poput ChatGPT-a) kojeg danas koristimo. Rezultat te prve faze je takozvani osnovni model.

Stručnjaci poput Andreja Karpathyja ovaj oblik AI-ja opisuju vrlo jednostavno: on nije pametni sugovornik, već samo „iznimno skupi sustav za automatsko dovršavanje teksta“.

Iako je taj model „pročitao“ cijeli internet i posjeduje golemo znanje, on u ovoj fazi još uvijek ne zna razgovarati s ljudima.

„Zip datoteka“ interneta: znanje kao statistika

Kako bismo razumjeli prirodu osnovnog modela, Karpathy nudi briljantnu analogiju: zamislite ga kao sažetu digitalnu arhivu cijelog interneta. U stotine milijardi svojih parametara, model je sažeo statističke obrasce iz nevjerojatnih 15 trilijuna osnovnih jezičnih jedinica (tokena).

Međutim, važno je razumjeti da je ovdje riječ o sažimanju uz gubitak podataka (lossy compression). Model tekstove s interneta ne pamti doslovno, poput digitalne enciklopedije ili baze podataka, nego uči stil izražavanja. Ne pohranjuje činjenice kao fiksne zapise, nego kao statističke vjerojatnosti. Zbog toga ne može točno „citirati“ internet nego generirati tekst koji zvuči kao nešto što bi se na mreži moglo pronaći.

Zašto osnovni model ne sudjeluje u razgovoru?

Glavni razlog zašto osnovni jezični model ne može biti koristan asistent je taj što ne razumije koncept razgovora. Nije programiran da pomogne nego da nastavi započeti niz riječi.

Ako osnovnom modelu postavimo jednostavno pitanje „Što je 2 + 2?“ najvjerojatnije neće odgovoriti „4“. Umjesto toga nastavit će niz onako kako bi se nastavio neki dokument s interneta (npr. školski kviz ili test znanja). Vjerojatno će generirati nova pitanja poput Što je 3 + 3? ili Koja je definicija zbrajanja?. U osnovnom modelu, pitanje nije početak dijaloga nego početak dokumenta koji on nastoji matematički precizno dovršiti imitirajući stilove koje je susreo tijekom učenja.

Od imitatora do digitalnog asistenta

Unatoč tome što posjeduje nezamislivu količinu informacija osnovni model sam po sebi nije upotrebljiv u svakodnevnom radu. Nema „osobnost“, ne slijedi upute i često može odlutati u neočekivanim smjerovima jer samo imitira uzorke s interneta, uključujući i one manje korisne ili netočne.

Za sustav obrazovanja ovaj je uvid ključan jer objašnjava porijeklo takozvanih „halucinacija“. AI ne “laže” namjerno nego jednostavno pokušava generirati statistički najvjerojatniji nastavak rečenice. Ako taj nastavak zvuči uvjerljivo, model će ga ispisati, bez obzira na to je li činjenično utemeljen.

Tek se u drugoj, znatno jeftinijoj i kraćoj fazi, simulator pretvara u korisnog asistenta koji razumije upute i zna kako voditi smislen razgovor.

Pročitajte prethodne članke iz serijala:

  1. Kako nastaje baza znanja kojom se služi ChatGPT?
  2. Zašto “najpametniji” modeli griješe na najjednostavnijim zadacima?

Izvor: Analiza tehničkog predavanja Andreja Karpathyja: Deep Dive into LLMs like ChatGPT.

U sljedećem nastavku pišemo o procesu post-treninga i saznajemo kako AI prolazi „školu lijepog ponašanja“ kako bi od simulatora interneta postao digitalni asistent.