Task és Trial
Egy task egyetlen konkrét feladatot jelent, amit az ágensnek végre kell hajtania. Mivel egy ágens kimenetei futtatásonként változnak, ugyanazt a taskot általában több próbán, azaz trialon keresztül futtatják, hogy megbízhatóbb képet kapjanak a teljesítményről egyetlen futtatás véletlenszerűsége helyett.
Grader, Transcript, Outcome
A grader a pontozó logika, ami eldönti, hogy egy adott próba sikeres volt-e. Egy taskhoz akár több grader is tartozhat, ha több szempontból is értékelni akarjuk a teljesítményt. A transcript a teljes rekord, ami tartalmazza a kimeneteket, az eszközhívásokat, és a modell gondolkodási lépéseit is.
Az outcome a végső környezeti állapot, ami sokszor fontosabb, mint amit az ágens állít magáról. Ha az ágens azt mondja, hogy sikeresen lefoglalt egy időpontot, az outcome azt vizsgálja, hogy a foglalás tényleg létrejött-e az adatbázisban, nem csak azt, hogy az ágens ezt állította.
Harness és Suite
Az evaluation harness az az infrastruktúra, ami az egész folyamatot futtatja, a taskok kiválasztásától a graderek lefuttatásán át az eredmények összesítéséig. Az agent harness, más néven scaffold, az a rendszer, ami lehetővé teszi, hogy egy nyelvi modell egyáltalán ágensként működjön, eszközöket hívjon, és sok lépésen át dolgozzon.
Az evaluation suite egymáshoz kapcsolódó taskok gyűjteménye, amik együtt adnak átfogó képet egy adott képességről vagy viselkedésről. A fogalmak pontos ismerete nélkül könnyű összekeverni, hogy éppen mit mérünk, és ez félrevezető következtetésekhez vezethet.
Forrás
Anthropic "Effective context engineering for AI agents" és "Demystifying evals for AI agents" című cikkeinek magyar feldolgozása.
Workshop
AI Transformation Day
Egésznapos, vezetőknek szóló program. Feltérképezzük, hol tart a szervezet, mi az első reális lépés, és milyen belső feltételek szükségesek a sikerhez. A nap végén konkrét, prioritizált cselekvési lista.
Érdekel a program →