Context engineering és evalok · Lecke 07

Grader típusok

Kód alapú, modell alapú vagy emberi grader, a választás nem technikai részletkérdés, hanem alapvetően meghatározza, mennyire megbízható és mennyire skálázható a mérés.

Vissza a tananyaghoz


Kód alapú graderek

A kód alapú graderek string egyezést, bináris teszteket, vagy statikus elemzést használnak. Gyorsak, olcsók, és teljesen objektívek, hiszen determinisztikus szabályokat futtatnak. Ugyanakkor törékenyek lehetnek, ha a feladatnak több érvényes megoldási variációja is van, amit a merev szabály nem ismer fel helyesnek.


Kód alapú Modell alapú Emberi gyors, olcsó objektív törékeny variációkra rugalmas, skálázható rubrika, páros összevetés nem-determinisztikus, drága kalibrálást igényel arany-standard minőség szakértő review drága és lassú string match, teszt rubrika pontozás crowdsourcing
A három grader típus a sebesség és a rugalmasság közötti kompromisszum két végén helyezkedik el.

Modell alapú és emberi graderek

A modell alapú graderek rubrika alapú pontozást, természetes nyelvi állításokat, vagy páros összehasonlítást használnak. Rugalmasabbak és jobban skálázhatók, mint a kód alapú megoldás, de nem-determinisztikusak, drágábbak, és gondos kalibrálást igényelnek, hogy megbízhatóan tükrözzék az emberi ítéletet.

Az emberi graderek szakértői review-t vagy crowdsourcingot alkalmaznak, arany standard minőséget adva, de ez a legdrágább és leglassabb módszer, ezért jellemzően csak korlátozott mennyiségű taskra, vagy kalibrációs mintaként érdemes alkalmazni.


Melyik graderre mikor van szükség

A gyakorlatban a legtöbb eval csomag mindhárom típust kombinálja. A kód alapú grader ellenőrzi a determinisztikus, egyértelmű részeket, a modell alapú grader kezeli a nyitottabb, szubjektívebb szempontokat, az emberi review pedig a kalibrációt és a legkritikusabb esetek végső ellenőrzését végzi. A cél mindig a determinisztikus grader előnyben részesítése ott, ahol lehetséges, hiszen az objektivitás és a megbízhatóság ára a rugalmasság csökkenése.


Kódoló ágens eval stabil teszt-környezet unit tesztek, SWE-bench determinisztikus grader kimenetet, nem lépést értékel Beszélgető ágens eval állapot és eszközhasználat szimulált felhasználó (τ-Bench) verifikálható végállapot rubrika az interakció minőségére
A kódoló és a beszélgető ágensek eval csomagjai eltérő grader hangsúlyt igényelnek.

Forrás

Anthropic "Effective context engineering for AI agents" és "Demystifying evals for AI agents" című cikkeinek magyar feldolgozása.


← Előző lecke Következő lecke →

Workshop

AI Transformation Day

Egésznapos, vezetőknek szóló program. Feltérképezzük, hol tart a szervezet, mi az első reális lépés, és milyen belső feltételek szükségesek a sikerhez. A nap végén konkrét, prioritizált cselekvési lista.

Érdekel a program →