Context engineering és evalok · Lecke 02

Context rot és a figyelem büdzsé

Ahogy nő a kontextusablakban lévő tokenek száma, úgy csökken fokozatosan a modell teljesítménye. Ez nem éles szakadék, hanem folyamatos gradiens, amit érdemes tudatosan kezelni.

Vissza a tananyaghoz


Miért nem semleges egyetlen extra token sem

Sokan úgy gondolják, minél nagyobb a kontextusablak, annál jobb, hiszen egyszerűen több információt tölthetünk bele. A valóság ennél árnyaltabb. A teljesítmény nem marad változatlan a tokenszám növekedésével, hanem fokozatosan romlik. Ezt a jelenséget nevezzük context rotnak.

Két fő oka van. Egyrészt a transformer architektúra minden token párt egymáshoz viszonyítva számol, ez a páronkénti kapcsolatok száma a tokenszám négyzetével nő, ami komoly számítási terhet jelent nagy méretben. Másrészt a tréningadatok jellemzően rövidebb szekvenciákra épültek, így kevesebb specializált paraméter jut a nagyon hosszútávú függőségek kezelésére.


magas alacsony kontextusban lévő tokenek száma → figyelem büdzsé rövid kontextus hosszú kontextus
A figyelem büdzsé minden egyes tokennel csökken, a romlás fokozatos, nem éles törés.

Figyelem büdzsé, ami elfogy

Érdemes úgy elképzelni a kontextusablakot, mint egy korlátozott erőforrást, egy figyelem büdzsét, amiből minden egyes token levon valamennyit. Nem az számít csak, hogy mennyi releváns információ fér el az ablakban, hanem az is, hogy a modell mennyire tudja hatékonyan felhasználni az összeset egyszerre. Minél több irreleváns vagy elavult token marad bent, annál kevesebb büdzsé jut a valóban fontos részletekre.


Mit jelent ez a gyakorlatban

A gyakorlati következtetés az, hogy a cél nem a kontextusablak maximális kitöltése, hanem a lehető legkisebb, magas jelzésű token halmaz megtalálása, ami maximalizálja a kívánt kimenet valószínűségét. Ez az elv vezérli a rendszerpromptok megírását, az eszközök tervezését, és a hosszú beszélgetések kezelését is, amikről a következő leckékben lesz szó.


A két ok, amiért romlik a teljesítmény Számítási teher a transformer minden token párt egymáshoz viszonyítva számol n² kapcsolat Tréning eloszlás a tréningadatok jellemzően rövidebb szekvenciákra épültek kevesebb paraméter a távolira
A context rot két különböző, de egymást erősítő okra vezethető vissza.

Forrás

Anthropic "Effective context engineering for AI agents" és "Demystifying evals for AI agents" című cikkeinek magyar feldolgozása.


← Előző lecke Következő lecke →

Workshop

AI Transformation Day

Egésznapos, vezetőknek szóló program. Feltérképezzük, hol tart a szervezet, mi az első reális lépés, és milyen belső feltételek szükségesek a sikerhez. A nap végén konkrét, prioritizált cselekvési lista.

Érdekel a program →