Context rot és a figyelem büdzsé

Miért nem semleges egyetlen extra token sem

Sokan úgy gondolják, minél nagyobb a kontextusablak, annál jobb, hiszen egyszerűen több információt tölthetünk bele. A valóság ennél árnyaltabb. A teljesítmény nem marad változatlan a tokenszám növekedésével, hanem fokozatosan romlik. Ezt a jelenséget nevezzük context rotnak.

Két fő oka van. Egyrészt a transformer architektúra minden token párt egymáshoz viszonyítva számol, ez a páronkénti kapcsolatok száma a tokenszám négyzetével nő, ami komoly számítási terhet jelent nagy méretben. Másrészt a tréningadatok jellemzően rövidebb szekvenciákra épültek, így kevesebb specializált paraméter jut a nagyon hosszútávú függőségek kezelésére.

A figyelem büdzsé minden egyes tokennel csökken, a romlás fokozatos, nem éles törés.

Figyelem büdzsé, ami elfogy

Érdemes úgy elképzelni a kontextusablakot, mint egy korlátozott erőforrást, egy figyelem büdzsét, amiből minden egyes token levon valamennyit. Nem az számít csak, hogy mennyi releváns információ fér el az ablakban, hanem az is, hogy a modell mennyire tudja hatékonyan felhasználni az összeset egyszerre. Minél több irreleváns vagy elavult token marad bent, annál kevesebb büdzsé jut a valóban fontos részletekre.

Mit jelent ez a gyakorlatban

A gyakorlati következtetés az, hogy a cél nem a kontextusablak maximális kitöltése, hanem a lehető legkisebb, magas jelzésű token halmaz megtalálása, ami maximalizálja a kívánt kimenet valószínűségét. Ez az elv vezérli a rendszerpromptok megírását, az eszközök tervezését, és a hosszú beszélgetések kezelését is, amikről a következő leckékben lesz szó.

A context rot két különböző, de egymást erősítő okra vezethető vissza.

Forrás

Anthropic "Effective context engineering for AI agents" és "Demystifying evals for AI agents" című cikkeinek magyar feldolgozása.

← Előző lecke Következő lecke →

Workshop

AI Transformation Day

Egésznapos, vezetőknek szóló program. Feltérképezzük, hol tart a szervezet, mi az első reális lépés, és milyen belső feltételek szükségesek a sikerhez. A nap végén konkrét, prioritizált cselekvési lista.

Érdekel a program →