Grader típusok

Kód alapú graderek

A kód alapú graderek string egyezést, bináris teszteket, vagy statikus elemzést használnak. Gyorsak, olcsók, és teljesen objektívek, hiszen determinisztikus szabályokat futtatnak. Ugyanakkor törékenyek lehetnek, ha a feladatnak több érvényes megoldási variációja is van, amit a merev szabály nem ismer fel helyesnek.

A három grader típus a sebesség és a rugalmasság közötti kompromisszum két végén helyezkedik el.

Modell alapú és emberi graderek

A modell alapú graderek rubrika alapú pontozást, természetes nyelvi állításokat, vagy páros összehasonlítást használnak. Rugalmasabbak és jobban skálázhatók, mint a kód alapú megoldás, de nem-determinisztikusak, drágábbak, és gondos kalibrálást igényelnek, hogy megbízhatóan tükrözzék az emberi ítéletet.

Az emberi graderek szakértői review-t vagy crowdsourcingot alkalmaznak, arany standard minőséget adva, de ez a legdrágább és leglassabb módszer, ezért jellemzően csak korlátozott mennyiségű taskra, vagy kalibrációs mintaként érdemes alkalmazni.

Melyik graderre mikor van szükség

A gyakorlatban a legtöbb eval csomag mindhárom típust kombinálja. A kód alapú grader ellenőrzi a determinisztikus, egyértelmű részeket, a modell alapú grader kezeli a nyitottabb, szubjektívebb szempontokat, az emberi review pedig a kalibrációt és a legkritikusabb esetek végső ellenőrzését végzi. A cél mindig a determinisztikus grader előnyben részesítése ott, ahol lehetséges, hiszen az objektivitás és a megbízhatóság ára a rugalmasság csökkenése.

A kódoló és a beszélgető ágensek eval csomagjai eltérő grader hangsúlyt igényelnek.

Forrás

Anthropic "Effective context engineering for AI agents" és "Demystifying evals for AI agents" című cikkeinek magyar feldolgozása.

← Előző lecke Következő lecke →

Workshop

AI Transformation Day

Egésznapos, vezetőknek szóló program. Feltérképezzük, hol tart a szervezet, mi az első reális lépés, és milyen belső feltételek szükségesek a sikerhez. A nap végén konkrét, prioritizált cselekvési lista.

Érdekel a program →