Context engineering és evalok · Lecke 08

Hogyan építs eval csomagot

Nyolc lépés, amivel egy valós hibákból induló, kis eval csomagból hosszútávon fenntartott, megbízható mérőrendszer épül, ami tényleg jelzi, ha az ágens fejlődik vagy visszaesik.

Vissza a tananyaghoz


Az első négy lépés, alapozás

A nulladik lépés, hogy korán el kell kezdeni. Elég 20-50 task valós hibákból összeállítva, nem kell megvárni, amíg száz task összegyűlik, mert az eval hiánya közben vakon repülést jelent. Az első lépés a kézi teszteléssel indulás, vagyis a meglévő manuális ellenőrzések és hibakövető issue-k átalakítása test case-szé.

A második lépés az egyértelmű taskok megírása referenciamegoldással, ahol a szakértők egyet tudnak érteni a pass vagy fail ítéletben, és van bizonyíték arra, hogy a task valóban megoldható. A harmadik lépés a kiegyensúlyozott feladatkészlet építése, tesztelve azt is, ahol egy viselkedésnek kellene történnie, és azt is, ahol nem, elkerülve az osztály egyensúlytalanságot.


0. Korán kezdj, 20-50 task 1. Kézi teszteléssel indulj 2. Egyértelmű task referenciamegoldással 3. Kiegyensúlyozott feladatkészlet 4. Robusztus eval infrastruktúra 5. Gondosan tervezett graderek 6-8. Transcript ellenőrzés, szaturáció, fenntartás
Az első lépések az alapozásról szólnak, a későbbiek a hosszútávú megbízhatóságról.

Az infrastruktúra és a graderek

A negyedik lépés a robusztus eval infrastruktúra építése, ahol minden próba tiszta környezetből indul, elkerülve a kontaminációt egyik próba és a másik között. Az ötödik lépés a graderek gondos tervezése, előnyben részesítve a determinisztikus megoldást, részleges pontszámot is megengedve, emberi szakértőkkel kalibrálva, és mindig hagyva egy "Ismeretlen" menekülőutat, amikor a grader nem tud biztosat mondani.


Ellenőrzés, szaturáció, fenntartás

A hatodik lépés a transcriptok ellenőrzése, mert a hibáknak igazságosnak kell tűnniük, ha egy jó megoldást a grader hibásnak minősít, az magának a grendernek a hibája. A hetedik lépés a szaturáció figyelése, hiszen ha az ágens minden megoldható taskot teljesít, a suite többé nem ad javulási jelzést, ekkor nehezebb taskokat kell fejleszteni.

A nyolcadik lépés a suite-ok hosszútávú fenntartása, egy dedikált csapattal a core infrastruktúráért, domain szakértőkkel, akik új taskokkal járulnak hozzá, és az eval driven development elvével, vagyis hogy az evalt még azelőtt megépítjük, mielőtt az ágens ténylegesen teljesítené az adott képességet.


100% 0% idő, egymást követő eval futtatások v1 v2 v3 v4 szaturáció v5 nincs jelzés
Ha a teljesítmény eléri a szaturációt, a suite tovább nem jelez javulást, nehezebb taskok kellenek.

Forrás

Anthropic "Effective context engineering for AI agents" és "Demystifying evals for AI agents" című cikkeinek magyar feldolgozása.


← Előző lecke

Workshop

AI Transformation Day

Egésznapos, vezetőknek szóló program. Feltérképezzük, hol tart a szervezet, mi az első reális lépés, és milyen belső feltételek szükségesek a sikerhez. A nap végén konkrét, prioritizált cselekvési lista.

Érdekel a program →