Tudás és munkamemória korlátai

Mit jelent az, hogy egy modell tud valamit

Amikor egy AI modell helyesen válaszol egy tényszerű kérdésre, könnyű azt gondolni, hogy valahol egy adatbázisban keresgélt, és onnan olvasta ki a választ. A valóság ettől eltér. A modell tudása azoknak a mintázatoknak és tényeknek a lenyomata, amelyek a betanítás során a paramétereibe, vagyis a belső, számszerű súlyaiba sűrűsödtek. Nincs egy külön táblázat vagy lexikon, amit megnyit, amikor kérdezel tőle. A válasz ugyanabból a következő token előrejelző mechanizmusból születik, amelyet az előző leckében megismertél, csak épp azok a mintázatok, amelyeket felhasznál, tényszerű információkat is tartalmaznak.

Ennek a tudásnak van egy nagyon konkrét határa, amelyet betanítási határnapnak nevezünk. A modell csak azokat az eseményeket, tényeket és fejleményeket ismerheti, amelyek a betanító adathalmaz összeállításának időpontjáig megjelentek. Ami ezután történt, arról a modell alapból semmit nem tud, hacsak nem kap külső segítséget, például webes keresést vagy egy adott dokumentumot, amelyet a beszélgetésben megadsz neki. Ez az egyik leggyakoribb forrása a téves vagy elavult válaszoknak, amikor valaki friss eseményekről kérdez egy modellt anélkül, hogy tudná, a modell tudása egy adott időpontban befagyott.

A kontextusablak, a modell munkamemóriája

A tudás mellett van egy másik, teljesen más jellegű korlát is, amelyet munkamemóriának, szakszóval kontextusablaknak nevezünk. Ez arra a szövegmennyiségre vonatkozik, amelyet a modell egyetlen adott pillanatban egyszerre képes figyelembe venni egy válasz elkészítésekor. Ide tartozik a beszélgetés teljes eddigi története, az általad feltöltött dokumentumok, és maga a válasz is, amit éppen generál.

Ez a kontextusablak véges méretű, és bár a modern modelleknél ez a méret folyamatosan nő, mégis van egy pont, ahol egyszerűen nem fér el több információ. Ha a beszélgetésed túl hosszúra nyúlik, vagy egy hatalmas dokumentumot töltesz fel, a modellnek választania kell, mire fókuszáljon, és bizonyos korábbi részletek gyakorlatilag kikerülnek a látóköréből. Ezt hívjuk köznyelvi kifejezéssel felejtésnek, bár technikailag pontosabb úgy fogalmazni, hogy az adott információ már nem fér bele abba, amit a modell az aktuális válasz generálásakor figyelembe tud venni.

Gyakorlati következmények a mindennapi munkádban

Ez a két korlát, a tudás és a munkamemória, együtt magyarázza számos olyan helyzetet, amivel nap mint nap találkozol AI eszközök használata közben. Ha egy hosszú, sokfordulós beszélgetésben egyszer csak azt veszed észre, hogy a modell figyelmen kívül hagy egy korábban lefektetett instrukciót, valószínűleg nem hibáról van szó, hanem arról, hogy az adott instrukció kicsúszott a kontextusablak azon részéből, amelyre a modell éppen a legerősebben támaszkodik.

Ebből két gyakorlati tanács következik. Az első, hogy hosszú munkamenetek esetén érdemes időnként összefoglalnod és újra rögzítened a legfontosabb kereteket és elvárásokat, ahelyett hogy feltételeznéd, a modell mindent megjegyzett az elejétől. A második, hogy ha nagy dokumentummal dolgozol, gondold át, valóban belefér-e a modell kontextusablakába, és ha nem, bontsd kisebb, kezelhető részekre a feladatot.

A tudás korlátjából adódóan pedig fontos szokás, hogy friss, gyorsan változó témákban, mint az aktuális hírek, árfolyamok vagy jogszabályi változások, ne hagyatkozz kizárólag a modell belső tudására, hanem adj neki friss forrást, vagy használj olyan eszközt, amely webes keresést is végez. A modell magabiztos válasza ilyenkor sem jelent automatikusan pontosságot, hiszen ahogy az előző leckéből tudod, a folyékonyság és a helyesség nem ugyanaz.

Miért nem old meg mindent egy nagyobb kontextusablak

Az elmúlt években a fejlesztő cégek folyamatosan növelték a kontextusablakok méretét, és ma már léteznek olyan modellek, amelyek egyszerre akár egy egész könyvnyi szöveget is képesek figyelembe venni. Ez valódi előrelépés, de nem szünteti meg teljesen a munkamemória korlátjának gyakorlati hatását. Minél több információ van a kontextusban, annál nehezebb a modellnek eldöntenie, melyik részlet valóban releváns egy adott kérdés megválaszolásához, és a gyakorlati tapasztalat azt mutatja, hogy egy hatalmas, rendezetlen kontextusban könnyebben elsikkadnak a fontos részletek, mint egy tömör, jól strukturált bemenetben.

Ebből az következik, hogy a nagyobb kontextusablak nem ment fel a tudatos munka alól. Érdemesebb a lényeges információt előre kiemelni, strukturálni, és csak azt megadni a modellnek, amire ténylegesen szükség van a feladathoz, mintsem mindent egyszerre ráönteni, és bízni abban, hogy a modell majd magától kiszűri a fontosat.

Üzleti környezetben ez a szemlélet konkrét munkafolyamat-tervezési döntésekhez vezet. Ha egy csapat rendszeresen hosszú szerződéseket, jelentéseket vagy jegyzőkönyveket dolgoztat fel AI eszközzel, érdemes előre kialakítani, hogyan bontsák a dokumentumot kezelhető egységekre, és hogyan foglalják össze a korábbi részek lényegét, mielőtt a következő szakaszra térnének. Ez a fajta tudatos munkamenet-tervezés sokkal megbízhatóbb eredményt ad, mint ha egyszerűen mindent egyben, egyetlen hatalmas kérésben adnának át a modellnek.

Ami ezután következik

A következő leckében azt nézzük meg, mennyire tudod a modell viselkedését instrukciókkal, példákkal és visszajelzésekkel a saját céljaid felé terelni, és hol vannak ennek a terelhetőségnek, vagyis az irányíthatóságnak a határai.

Forrás

Ez a lecke az Anthropic hivatalos "AI Capabilities and Limitations" kurzusának magyar adaptációja, amely az Anthropic Academy oktatási anyagai alapján készült. A kurzus kereskedelmi felhasználásra vonatkozó korlátozásokkal érhető el. Eredeti kurzus. Anthropic Academy.

← Előző lecke Következő lecke →

Workshop

AI Transformation Day

Egésznapos, vezetőknek szóló program. Feltérképezzük, hol tart a szervezet, mi az első reális lépés, és milyen belső feltételek szükségesek a sikerhez. A nap végén konkrét, prioritizált cselekvési lista.

Érdekel a program →