Mit jelent az, hogy egy modell tud valamit
Amikor egy AI modell helyesen válaszol egy tényszerű kérdésre, könnyű azt gondolni, hogy valahol egy adatbázisban keresgélt, és onnan olvasta ki a választ. A valóság ettől eltér. A modell tudása azoknak a mintázatoknak és tényeknek a lenyomata, amelyek a betanítás során a paramétereibe, vagyis a belső, számszerű súlyaiba sűrűsödtek. Nincs egy külön táblázat vagy lexikon, amit megnyit, amikor kérdezel tőle. A válasz ugyanabból a következő token előrejelző mechanizmusból születik, amelyet az előző leckében megismertél, csak épp azok a mintázatok, amelyeket felhasznál, tényszerű információkat is tartalmaznak.
Ennek a tudásnak van egy nagyon konkrét határa, amelyet betanítási határnapnak nevezünk. A modell csak azokat az eseményeket, tényeket és fejleményeket ismerheti, amelyek a betanító adathalmaz összeállításának időpontjáig megjelentek. Ami ezután történt, arról a modell alapból semmit nem tud, hacsak nem kap külső segítséget, például webes keresést vagy egy adott dokumentumot, amelyet a beszélgetésben megadsz neki. Ez az egyik leggyakoribb forrása a téves vagy elavult válaszoknak, amikor valaki friss eseményekről kérdez egy modellt anélkül, hogy tudná, a modell tudása egy adott időpontban befagyott.
A kontextusablak, a modell munkamemóriája
A tudás mellett van egy másik, teljesen más jellegű korlát is, amelyet munkamemóriának, szakszóval kontextusablaknak nevezünk. Ez arra a szövegmennyiségre vonatkozik, amelyet a modell egyetlen adott pillanatban egyszerre képes figyelembe venni egy válasz elkészítésekor. Ide tartozik a beszélgetés teljes eddigi története, az általad feltöltött dokumentumok, és maga a válasz is, amit éppen generál.
Ez a kontextusablak véges méretű, és bár a modern modelleknél ez a méret folyamatosan nő, mégis van egy pont, ahol egyszerűen nem fér el több információ. Ha a beszélgetésed túl hosszúra nyúlik, vagy egy hatalmas dokumentumot töltesz fel, a modellnek választania kell, mire fókuszáljon, és bizonyos korábbi részletek gyakorlatilag kikerülnek a látóköréből. Ezt hívjuk köznyelvi kifejezéssel felejtésnek, bár technikailag pontosabb úgy fogalmazni, hogy az adott információ már nem fér bele abba, amit a modell az aktuális válasz generálásakor figyelembe tud venni.
Gyakorlati következmények a mindennapi munkádban
Ez a két korlát, a tudás és a munkamemória, együtt magyarázza számos olyan helyzetet, amivel nap mint nap találkozol AI eszközök használata közben. Ha egy hosszú, sokfordulós beszélgetésben egyszer csak azt veszed észre, hogy a modell figyelmen kívül hagy egy korábban lefektetett instrukciót, valószínűleg nem hibáról van szó, hanem arról, hogy az adott instrukció kicsúszott a kontextusablak azon részéből, amelyre a modell éppen a legerősebben támaszkodik.
Ebből két gyakorlati tanács következik. Az első, hogy hosszú munkamenetek esetén érdemes időnként összefoglalnod és újra rögzítened a legfontosabb kereteket és elvárásokat, ahelyett hogy feltételeznéd, a modell mindent megjegyzett az elejétől. A második, hogy ha nagy dokumentummal dolgozol, gondold át, valóban belefér-e a modell kontextusablakába, és ha nem, bontsd kisebb, kezelhető részekre a feladatot.
A tudás korlátjából adódóan pedig fontos szokás, hogy friss, gyorsan változó témákban, mint az aktuális hírek, árfolyamok vagy jogszabályi változások, ne hagyatkozz kizárólag a modell belső tudására, hanem adj neki friss forrást, vagy használj olyan eszközt, amely webes keresést is végez. A modell magabiztos válasza ilyenkor sem jelent automatikusan pontosságot, hiszen ahogy az előző leckéből tudod, a folyékonyság és a helyesség nem ugyanaz.
Miért nem old meg mindent egy nagyobb kontextusablak
Az elmúlt években a fejlesztő cégek folyamatosan növelték a kontextusablakok méretét, és ma már léteznek olyan modellek, amelyek egyszerre akár egy egész könyvnyi szöveget is képesek figyelembe venni. Ez valódi előrelépés, de nem szünteti meg teljesen a munkamemória korlátjának gyakorlati hatását. Minél több információ van a kontextusban, annál nehezebb a modellnek eldöntenie, melyik részlet valóban releváns egy adott kérdés megválaszolásához, és a gyakorlati tapasztalat azt mutatja, hogy egy hatalmas, rendezetlen kontextusban könnyebben elsikkadnak a fontos részletek, mint egy tömör, jól strukturált bemenetben.
Ebből az következik, hogy a nagyobb kontextusablak nem ment fel a tudatos munka alól. Érdemesebb a lényeges információt előre kiemelni, strukturálni, és csak azt megadni a modellnek, amire ténylegesen szükség van a feladathoz, mintsem mindent egyszerre ráönteni, és bízni abban, hogy a modell majd magától kiszűri a fontosat.
Üzleti környezetben ez a szemlélet konkrét munkafolyamat-tervezési döntésekhez vezet. Ha egy csapat rendszeresen hosszú szerződéseket, jelentéseket vagy jegyzőkönyveket dolgoztat fel AI eszközzel, érdemes előre kialakítani, hogyan bontsák a dokumentumot kezelhető egységekre, és hogyan foglalják össze a korábbi részek lényegét, mielőtt a következő szakaszra térnének. Ez a fajta tudatos munkamenet-tervezés sokkal megbízhatóbb eredményt ad, mint ha egyszerűen mindent egyben, egyetlen hatalmas kérésben adnának át a modellnek.
Ami ezután következik
A következő leckében azt nézzük meg, mennyire tudod a modell viselkedését instrukciókkal, példákkal és visszajelzésekkel a saját céljaid felé terelni, és hol vannak ennek a terelhetőségnek, vagyis az irányíthatóságnak a határai.
Forrás
Ez a lecke az Anthropic hivatalos "AI Capabilities and Limitations" kurzusának magyar adaptációja, amely az Anthropic Academy oktatási anyagai alapján készült. A kurzus kereskedelmi felhasználásra vonatkozó korlátozásokkal érhető el. Eredeti kurzus. Anthropic Academy.
Workshop
AI Transformation Day
Egésznapos, vezetőknek szóló program. Feltérképezzük, hol tart a szervezet, mi az első reális lépés, és milyen belső feltételek szükségesek a sikerhez. A nap végén konkrét, prioritizált cselekvési lista.
Érdekel a program →