Context engineering és evalok · Lecke 06

Mi az az eval

Egy AI ágens fejlesztése méréssel kezdődik. Task, grader, transcript, outcome, ezek az alapfogalmak nélkül nem lehet objektíven eldönteni, hogy egy változtatás tényleg javított-e valamin.

Vissza a tananyaghoz


Task és Trial

Egy task egyetlen konkrét feladatot jelent, amit az ágensnek végre kell hajtania. Mivel egy ágens kimenetei futtatásonként változnak, ugyanazt a taskot általában több próbán, azaz trialon keresztül futtatják, hogy megbízhatóbb képet kapjanak a teljesítményről egyetlen futtatás véletlenszerűsége helyett.


Task Trial 1 Trial 2 Trial 3 Grader kiértékeli a transcriptot és az outcome-ot
Egy taskhoz több trial tartozik, mert a kimenetek futtatásonként változnak.

Grader, Transcript, Outcome

A grader a pontozó logika, ami eldönti, hogy egy adott próba sikeres volt-e. Egy taskhoz akár több grader is tartozhat, ha több szempontból is értékelni akarjuk a teljesítményt. A transcript a teljes rekord, ami tartalmazza a kimeneteket, az eszközhívásokat, és a modell gondolkodási lépéseit is.

Az outcome a végső környezeti állapot, ami sokszor fontosabb, mint amit az ágens állít magáról. Ha az ágens azt mondja, hogy sikeresen lefoglalt egy időpontot, az outcome azt vizsgálja, hogy a foglalás tényleg létrejött-e az adatbázisban, nem csak azt, hogy az ágens ezt állította.


Transcript kimenet, eszközhívás, reasoning Outcome tényleges környezeti állapot Grader pass / fail ítélet
A grader mindkét forrást felhasználja, a transcript folyamatát és a valós outcome-ot is.

Harness és Suite

Az evaluation harness az az infrastruktúra, ami az egész folyamatot futtatja, a taskok kiválasztásától a graderek lefuttatásán át az eredmények összesítéséig. Az agent harness, más néven scaffold, az a rendszer, ami lehetővé teszi, hogy egy nyelvi modell egyáltalán ágensként működjön, eszközöket hívjon, és sok lépésen át dolgozzon.

Az evaluation suite egymáshoz kapcsolódó taskok gyűjteménye, amik együtt adnak átfogó képet egy adott képességről vagy viselkedésről. A fogalmak pontos ismerete nélkül könnyű összekeverni, hogy éppen mit mérünk, és ez félrevezető következtetésekhez vezethet.


Forrás

Anthropic "Effective context engineering for AI agents" és "Demystifying evals for AI agents" című cikkeinek magyar feldolgozása.


← Előző lecke Következő lecke →

Workshop

AI Transformation Day

Egésznapos, vezetőknek szóló program. Feltérképezzük, hol tart a szervezet, mi az első reális lépés, és milyen belső feltételek szükségesek a sikerhez. A nap végén konkrét, prioritizált cselekvési lista.

Érdekel a program →