Kiértékelés és minőség

Kis mintával induló tesztelés

A csapat nem várt egy hatalmas tesztkészletre, hanem mindössze körülbelül 20 reprezentatív lekérdezéssel kezdte a kiértékelést. Ez elég volt ahhoz, hogy a nagyobb, egyértelmű hibákat gyorsan felszínre hozzák, mielőtt a rendszert nagyobb léptékben tesztelték volna.

LLM-as-judge módszer

A válaszok minőségét egy másik AI ügynök értékelte ki, több szempont alapján. Ezek közé tartozott a tényszerű pontosság, a hivatkozások pontossága, a válasz teljessége, a felhasznált források minősége, valamint az, mennyire hatékonyan használta az ügynök az elérhető eszközöket. Ez a módszer sokkal gyorsabb, mint ha minden egyes választ ember nézne át, ugyanakkor nem helyettesíti teljesen az emberi ellenőrzést.

Az LLM-as-judge módszer öt szempont szerint pontozza a subagentek válaszait.

Amit csak emberek vettek észre

Bármennyire is hasznos az automatikus kiértékelés, az emberi tesztelők olyan él-eseteket fogtak meg, amiket az LLM-as-judge módszer átsiklott. Az egyik legfontosabb ilyen eset az volt, amikor egy ügynök egy SEO-optimalizált, de tartalmilag gyengébb forrást részesített előnyben egy hiteles akadémiai forrással szemben. Ez rávilágított arra, hogy a minőségi kiértékelésbe mindig be kell építeni emberi felülvizsgálatot is, különösen a forrásválasztás megbízhatóságának ellenőrzésére.

A három módszer együtt ad teljes képet a rendszer minőségéről.

Forrás

Anthropic "How we built our multi-agent research system" (anthropic.com/engineering/multi-agent-research-system) és "Building Effective AI Agents" (anthropic.com/research/building-effective-agents) című cikkeinek magyar feldolgozása.

← Előző lecke Következő lecke →

Workshop

AI Transformation Day

Egésznapos, vezetőknek szóló program. Feltérképezzük, hol tart a szervezet, mi az első reális lépés, és milyen belső feltételek szükségesek a sikerhez. A nap végén konkrét, prioritizált cselekvési lista.

Érdekel a program →