Multi-agent workflowk · Lecke 06

Kiértékelés és minőség

Egy több ügynökből álló rendszer minőségét nem elég egyetlen módszerrel mérni. Kis mintás tesztelés, automatikus kiértékelés és emberi felülvizsgálat együtt adja a teljes képet.

Vissza a tananyaghoz


Kis mintával induló tesztelés

A csapat nem várt egy hatalmas tesztkészletre, hanem mindössze körülbelül 20 reprezentatív lekérdezéssel kezdte a kiértékelést. Ez elég volt ahhoz, hogy a nagyobb, egyértelmű hibákat gyorsan felszínre hozzák, mielőtt a rendszert nagyobb léptékben tesztelték volna.


LLM-as-judge módszer

A válaszok minőségét egy másik AI ügynök értékelte ki, több szempont alapján. Ezek közé tartozott a tényszerű pontosság, a hivatkozások pontossága, a válasz teljessége, a felhasznált források minősége, valamint az, mennyire hatékonyan használta az ügynök az elérhető eszközöket. Ez a módszer sokkal gyorsabb, mint ha minden egyes választ ember nézne át, ugyanakkor nem helyettesíti teljesen az emberi ellenőrzést.


LLM-AS-JUDGE ÉRTÉKELÉSI SZEMPONTOK Tényszerű pontosság Hivatkozás pontossága Teljesség Forrásminőség Eszközhatékonyság
Az LLM-as-judge módszer öt szempont szerint pontozza a subagentek válaszait.

Amit csak emberek vettek észre

Bármennyire is hasznos az automatikus kiértékelés, az emberi tesztelők olyan él-eseteket fogtak meg, amiket az LLM-as-judge módszer átsiklott. Az egyik legfontosabb ilyen eset az volt, amikor egy ügynök egy SEO-optimalizált, de tartalmilag gyengébb forrást részesített előnyben egy hiteles akadémiai forrással szemben. Ez rávilágított arra, hogy a minőségi kiértékelésbe mindig be kell építeni emberi felülvizsgálatot is, különösen a forrásválasztás megbízhatóságának ellenőrzésére.


~20 lekérdezés kis mintás induló teszt LLM-as-judge gyors, nagy volumenű mérés Emberi tesztelő él-esetek felfedezése
A három módszer együtt ad teljes képet a rendszer minőségéről.

Forrás

Anthropic "How we built our multi-agent research system" (anthropic.com/engineering/multi-agent-research-system) és "Building Effective AI Agents" (anthropic.com/research/building-effective-agents) című cikkeinek magyar feldolgozása.


← Előző lecke Következő lecke →

Workshop

AI Transformation Day

Egésznapos, vezetőknek szóló program. Feltérképezzük, hol tart a szervezet, mi az első reális lépés, és milyen belső feltételek szükségesek a sikerhez. A nap végén konkrét, prioritizált cselekvési lista.

Érdekel a program →