Hogyan építs eval csomagot

Az első négy lépés, alapozás

A nulladik lépés, hogy korán el kell kezdeni. Elég 20-50 task valós hibákból összeállítva, nem kell megvárni, amíg száz task összegyűlik, mert az eval hiánya közben vakon repülést jelent. Az első lépés a kézi teszteléssel indulás, vagyis a meglévő manuális ellenőrzések és hibakövető issue-k átalakítása test case-szé.

A második lépés az egyértelmű taskok megírása referenciamegoldással, ahol a szakértők egyet tudnak érteni a pass vagy fail ítéletben, és van bizonyíték arra, hogy a task valóban megoldható. A harmadik lépés a kiegyensúlyozott feladatkészlet építése, tesztelve azt is, ahol egy viselkedésnek kellene történnie, és azt is, ahol nem, elkerülve az osztály egyensúlytalanságot.

Az első lépések az alapozásról szólnak, a későbbiek a hosszútávú megbízhatóságról.

Az infrastruktúra és a graderek

A negyedik lépés a robusztus eval infrastruktúra építése, ahol minden próba tiszta környezetből indul, elkerülve a kontaminációt egyik próba és a másik között. Az ötödik lépés a graderek gondos tervezése, előnyben részesítve a determinisztikus megoldást, részleges pontszámot is megengedve, emberi szakértőkkel kalibrálva, és mindig hagyva egy "Ismeretlen" menekülőutat, amikor a grader nem tud biztosat mondani.

Ellenőrzés, szaturáció, fenntartás

A hatodik lépés a transcriptok ellenőrzése, mert a hibáknak igazságosnak kell tűnniük, ha egy jó megoldást a grader hibásnak minősít, az magának a grendernek a hibája. A hetedik lépés a szaturáció figyelése, hiszen ha az ágens minden megoldható taskot teljesít, a suite többé nem ad javulási jelzést, ekkor nehezebb taskokat kell fejleszteni.

A nyolcadik lépés a suite-ok hosszútávú fenntartása, egy dedikált csapattal a core infrastruktúráért, domain szakértőkkel, akik új taskokkal járulnak hozzá, és az eval driven development elvével, vagyis hogy az evalt még azelőtt megépítjük, mielőtt az ágens ténylegesen teljesítené az adott képességet.

Ha a teljesítmény eléri a szaturációt, a suite tovább nem jelez javulást, nehezebb taskok kellenek.

Forrás

Anthropic "Effective context engineering for AI agents" és "Demystifying evals for AI agents" című cikkeinek magyar feldolgozása.

← Előző lecke

Workshop

AI Transformation Day

Egésznapos, vezetőknek szóló program. Feltérképezzük, hol tart a szervezet, mi az első reális lépés, és milyen belső feltételek szükségesek a sikerhez. A nap végén konkrét, prioritizált cselekvési lista.

Érdekel a program →