A következő token előrejelzése

Egy szó, majd a következő

A nagy nyelvi modellek működésének magja meglepően egyszerű elven alapul. A modell nem az egész választ gondolja végig előre, majd írja le. Ehelyett darabonként, úgynevezett tokenenként generálja a szöveget, ahol egy token lehet egy egész szó, egy szórész, vagy akár egyetlen írásjel is. Minden egyes lépésben a modell megnézi az addig leírt teljes szöveget, a te kérdésedet és a saját eddigi válaszát is beleértve, és kiszámolja, hogy a betanítás során látott mintázatok alapján statisztikailag melyik token a legvalószínűbb folytatás. Kiválasztja ezt a tokent, hozzáfűzi a szöveghez, majd a folyamat újra kezdődik, a következő token előrejelzésével.

Ez a folyamat több tízezerszer, akár többször is lefut egyetlen válasz elkészítése közben, attól függően, milyen hosszú a végeredmény. A lényeg, hogy nincs egy különálló, előre elkészített terv a fejében, amit aztán csak leír. A válasz szó szerint, tokenről tokenre épül fel, minden lépésben az addigi szöveg fényében.

Miért működik ez ilyen jól

Első hallásra furcsának tűnhet, hogy egy ilyen egyszerű, lépésenkénti mechanizmus képes összefüggő esszéket írni, kódot generálni, vagy összetett kérdésekre értelmes választ adni. A magyarázat a betanítás léptékében rejlik. A modell a tanítása során a nyelv, a logika, a tények és az érvelési minták elképesztő mennyiségét sajátította el, méghozzá úgy, hogy ezek mind beépültek abba a statisztikai modellbe, amely alapján a következő tokent kiválasztja. Amikor tehát a modell egy jó választ ad, valójában azt a hatalmas mennyiségű mintázatot használja, amelyet emberi szövegekben látott, arra, hogy koherens, kontextusba illő folytatást állítson elő.

Ez a mechanizmus emergens módon rendkívül hasznos képességeket hoz létre. A modell képes követni egy érvelési láncot, alkalmazkodni a kért stílushoz, és olyan feladatokat is megoldani, amelyekre kifejezetten nem tanították külön. Mindez abból fakad, hogy a következő token pontos előrejelzése egy elképesztően gazdag, sokrétű feladat, ha elég nagy és változatos szövegen gyakorolják be.

A folyékonyság nem ugyanaz, mint az igazság

Itt érkezünk el ennek a mechanizmusnak a legfontosabb gyakorlati következményéhez. A modell célja minden egyes lépésben az, hogy egy statisztikailag valószínű, nyelvtanilag helyes, a kontextusba illő folytatást adjon, nem pedig az, hogy egy belső igazságtáblázatot konzultálva ellenőrizze az állítás valóságtartalmát. A folyékony, magabiztos hangvétel és a tényszerű helyesség két különböző dolog egy ilyen rendszer szemszögéből, még akkor is, ha a gyakorlatban a kettő gyakran együtt jár, hiszen a betanító szövegek többsége helyes információt tartalmazott.

Ez magyarázza azt a jelenséget, amit hallucinációnak nevezünk, amikor a modell magabiztos hangnemben, folyékonyan, teljesen valósághűnek tűnő módon ad elő egy téves állítást. A modell szemszögéből nézve nem történt hiba a mechanizmusban, hiszen ő pontosan azt tette, amire tanították, statisztikailag valószínű folytatást generált. Csak épp ezúttal a legvalószínűbb folytatás nem esett egybe a valósággal, például mert a téma ritkán fordult elő a betanító adatokban, vagy mert a kérdés olyan részletre vonatkozott, amelyet a modell nem ismerhetett pontosan.

Ennek a gyakorlati tanulsága egyszerű, de fontos. Minél inkább olyan területen mozogsz, ahol a pontos tényszerűség kritikus, például jogi, orvosi vagy pénzügyi kérdésekben, annál inkább szükséged van külső ellenőrzésre, ne csak a válasz magabiztos hangvételére hagyatkozz. A folyékony fogalmazás önmagában semmit nem árul el arról, mennyire helyes a tartalom.

Mi következik ebből a mechanizmusból

Ha elfogadod, hogy a modell tokenről tokenre, statisztikai valószínűség alapján dolgozik, két dolog válik nyilvánvalóvá. Egyrészt megérted, miért olyan erős eszköz ez nyelvi feladatokban, összegzésben, átfogalmazásban, ötletelésben, ahol a folyékonyság és a mintázatkövetés valóban a lényeg. Másrészt megérted, hogy a modell tudása és úgynevezett munkamemóriája is korlátozza, mit tud éppen elérhető mintaként felhasználni egy adott válasz elkészítéséhez. Erről a két korlátról szól a következő lecke.

Egy gyakori félreértés eloszlatása

Sokan azt gondolják, hogy ha egy modell egyszer hibázott egy kérdésben, akkor legközelebb is ugyanúgy fog hibázni, mintha a hiba egy rögzített tudásbeli hiányosság lenne. A valóság ennél árnyaltabb. Mivel a modell minden egyes válaszgenerálás során újra kiszámolja a legvalószínűbb folytatást, apró változtatások a kérdés megfogalmazásában, a kontextusban, vagy akár a véletlenszerűségi beállításokban egészen más eredményhez vezethetnek. Ez az egyik oka annak, hogy ugyanarra a kérdésre két egymást követő alkalommal némileg eltérő választ kaphatsz, még akkor is, ha semmit nem változtattál a bemeneten.

Ennek gyakorlati haszna is van. Ha egy válasz nem megfelelő, gyakran érdemesebb egy kicsit más módon megfogalmazni a kérdést, vagy több kontextust adni, mintsem feltételezni, hogy a modell egyszerűen nem képes a feladatra. A statisztikai jellegből fakad, hogy a jó bemenet minősége közvetlenül befolyásolja a kimenet minőségét, hiszen a modell mindig azt a mintázatot folytatja, amit elé adsz.

Forrás

Ez a lecke az Anthropic hivatalos "AI Capabilities and Limitations" kurzusának magyar adaptációja, amely az Anthropic Academy oktatási anyagai alapján készült. A kurzus kereskedelmi felhasználásra vonatkozó korlátozásokkal érhető el. Eredeti kurzus. Anthropic Academy.

← Előző lecke Következő lecke →

Workshop

AI Transformation Day

Egésznapos, vezetőknek szóló program. Feltérképezzük, hol tart a szervezet, mi az első reális lépés, és milyen belső feltételek szükségesek a sikerhez. A nap végén konkrét, prioritizált cselekvési lista.

Érdekel a program →