Kód alapú graderek
A kód alapú graderek string egyezést, bináris teszteket, vagy statikus elemzést használnak. Gyorsak, olcsók, és teljesen objektívek, hiszen determinisztikus szabályokat futtatnak. Ugyanakkor törékenyek lehetnek, ha a feladatnak több érvényes megoldási variációja is van, amit a merev szabály nem ismer fel helyesnek.
Modell alapú és emberi graderek
A modell alapú graderek rubrika alapú pontozást, természetes nyelvi állításokat, vagy páros összehasonlítást használnak. Rugalmasabbak és jobban skálázhatók, mint a kód alapú megoldás, de nem-determinisztikusak, drágábbak, és gondos kalibrálást igényelnek, hogy megbízhatóan tükrözzék az emberi ítéletet.
Az emberi graderek szakértői review-t vagy crowdsourcingot alkalmaznak, arany standard minőséget adva, de ez a legdrágább és leglassabb módszer, ezért jellemzően csak korlátozott mennyiségű taskra, vagy kalibrációs mintaként érdemes alkalmazni.
Melyik graderre mikor van szükség
A gyakorlatban a legtöbb eval csomag mindhárom típust kombinálja. A kód alapú grader ellenőrzi a determinisztikus, egyértelmű részeket, a modell alapú grader kezeli a nyitottabb, szubjektívebb szempontokat, az emberi review pedig a kalibrációt és a legkritikusabb esetek végső ellenőrzését végzi. A cél mindig a determinisztikus grader előnyben részesítése ott, ahol lehetséges, hiszen az objektivitás és a megbízhatóság ára a rugalmasság csökkenése.
Forrás
Anthropic "Effective context engineering for AI agents" és "Demystifying evals for AI agents" című cikkeinek magyar feldolgozása.
Workshop
AI Transformation Day
Egésznapos, vezetőknek szóló program. Feltérképezzük, hol tart a szervezet, mi az első reális lépés, és milyen belső feltételek szükségesek a sikerhez. A nap végén konkrét, prioritizált cselekvési lista.
Érdekel a program →