Do sada smo naučili kako AI modeli nastaju iz golemih količina podataka te kako uče pravila razgovora oponašajući ljude. Noviji modeli, poput serija OpenAI o1 ili DeepSeek R1, donose veliku promjenu jer više ne oponašaju samo ljudske odgovore nego počinju samostalno rješavati logičke probleme. Andrej Karpathy objašnjava ovaj skok kroz treću i najnapredniju fazu razvoja: učenje s potkrepljenjem (engl. Reinforcement Learning – RL).
Tri faze AI školovanja
Karpathy koristi analogiju školovanja kako bi objasnio ovaj tehnološki napredak:
- Čitanje udžbenika (prethodno treniranje): Model upija golemo znanje s interneta, ali ga još ne zna koristiti u razgovoru.
- Gledanje rješenja (SFT): Model promatra kako ljudi rješavaju zadatke i pokušava ih kopirati. Tako nastaju standardni asistenti koji ne mogu biti pametniji od čovjeka kojeg imitiraju.
- Zadatci za vježbu (RL): Ovo je faza u kojoj model samostalno rješava probleme. Baš kao učenik koji vježba zadatke na kraju poglavlja, AI pokušava tisuće različitih pristupa dok sam ne dođe do točnog rezultata.
Unutarnji monolog: AI koji „razgovara sam sa sobom“
Najveća inovacija ove faze jest razvoj unutarnjeg monologa (engl. Chain of Thought). Model je sam otkrio da mu „razmišljanje naglas” povećava točnost. Prije nego što ispiše konačan odgovor pa u pozadini provjerava vlastite korake: „Čekaj, ovo izgleda pogrešno… pokušajmo drugom metodom… provjerimo još jednom…Aha, sada ima smisla.”
Ovo ponašanje nije programirano, nego je sustav sam naučio da raščlanjivanje problema na manje korake i priznavanje vlastitih pogrešaka vodi do uspjeha.
Nadilaženje ljudskih ograničenja
Dok su se stariji modeli oslanjali isključivo na imitaciju, novi modeli mogu nadmašiti ljudsku intuiciju. Karpathy to uspoređuje s povijesnim trenutkom kada je sustav AlphaGo povukao genijalan potez u igri Go koji niti jedan čovjek nikada ne bi odigrao. U obrazovanju to znači prijelaz s alata koji samo slažu rečenice na alate koji su sposobni rješavati najteže logičke zadatke.
Budućnost – od „chata“ do digitalnih agenata
Što nas čeka sutra? Karpathy predviđa dvije velike promjene:
- AI dobiva oči i uši (multimodalnost): Modeli će nativno vidjeti i čuti svijet oko sebe, od analize tona glasa predavača do uočavanja pogrešaka u video snimkama eksperimenata.
- Digitalni agenti: AI više neće biti pasivan sugovornik, nego agent koji samostalno izvršava dugotrajne zadatke (npr. planiranje cijelog izleta, komunikacija s prijevoznicima i unos u kalendar).
Ograničenja AI sustava
Unatoč svojoj moći ovi sustavi su i dalje puni nepredvidivih rupa. AI može riješiti zadatak s matematičke olimpijade, a zatim pasti na banalnom pitanju poput: „Je li 9,11 veće od 9,9?”.
Savjet za kraj: Koristite umjetnu inteligenciju kao moćan motor, ali volan uvijek držite u svojim rukama. Neka vam AI služi za inspiraciju i nacrte, ali vi ostanite “glavni urednik” koji donosi konačnu odluku.
Pročitajte prethodne članke iz serijala:
- Kako nastaje baza znanja kojom se služi ChatGPT?
- Zašto “najpametniji” modeli griješe na najjednostavnijim zadacima?
- Može li AI znati sve, a ne znati razgovarati?
- Škola lijepog ponašanja: kako AI uči postati koristan asistent?
- Fenomen AI halucinacija
Izvor: Analiza tehničkog predavanja Andreja Karpathyja: Deep Dive into LLMs like ChatGPT.