Miért nem semleges egyetlen extra token sem
Sokan úgy gondolják, minél nagyobb a kontextusablak, annál jobb, hiszen egyszerűen több információt tölthetünk bele. A valóság ennél árnyaltabb. A teljesítmény nem marad változatlan a tokenszám növekedésével, hanem fokozatosan romlik. Ezt a jelenséget nevezzük context rotnak.
Két fő oka van. Egyrészt a transformer architektúra minden token párt egymáshoz viszonyítva számol, ez a páronkénti kapcsolatok száma a tokenszám négyzetével nő, ami komoly számítási terhet jelent nagy méretben. Másrészt a tréningadatok jellemzően rövidebb szekvenciákra épültek, így kevesebb specializált paraméter jut a nagyon hosszútávú függőségek kezelésére.
Figyelem büdzsé, ami elfogy
Érdemes úgy elképzelni a kontextusablakot, mint egy korlátozott erőforrást, egy figyelem büdzsét, amiből minden egyes token levon valamennyit. Nem az számít csak, hogy mennyi releváns információ fér el az ablakban, hanem az is, hogy a modell mennyire tudja hatékonyan felhasználni az összeset egyszerre. Minél több irreleváns vagy elavult token marad bent, annál kevesebb büdzsé jut a valóban fontos részletekre.
Mit jelent ez a gyakorlatban
A gyakorlati következtetés az, hogy a cél nem a kontextusablak maximális kitöltése, hanem a lehető legkisebb, magas jelzésű token halmaz megtalálása, ami maximalizálja a kívánt kimenet valószínűségét. Ez az elv vezérli a rendszerpromptok megírását, az eszközök tervezését, és a hosszú beszélgetések kezelését is, amikről a következő leckékben lesz szó.
Forrás
Anthropic "Effective context engineering for AI agents" és "Demystifying evals for AI agents" című cikkeinek magyar feldolgozása.
Workshop
AI Transformation Day
Egésznapos, vezetőknek szóló program. Feltérképezzük, hol tart a szervezet, mi az első reális lépés, és milyen belső feltételek szükségesek a sikerhez. A nap végén konkrét, prioritizált cselekvési lista.
Érdekel a program →