Kis mintával induló tesztelés
A csapat nem várt egy hatalmas tesztkészletre, hanem mindössze körülbelül 20 reprezentatív lekérdezéssel kezdte a kiértékelést. Ez elég volt ahhoz, hogy a nagyobb, egyértelmű hibákat gyorsan felszínre hozzák, mielőtt a rendszert nagyobb léptékben tesztelték volna.
LLM-as-judge módszer
A válaszok minőségét egy másik AI ügynök értékelte ki, több szempont alapján. Ezek közé tartozott a tényszerű pontosság, a hivatkozások pontossága, a válasz teljessége, a felhasznált források minősége, valamint az, mennyire hatékonyan használta az ügynök az elérhető eszközöket. Ez a módszer sokkal gyorsabb, mint ha minden egyes választ ember nézne át, ugyanakkor nem helyettesíti teljesen az emberi ellenőrzést.
Amit csak emberek vettek észre
Bármennyire is hasznos az automatikus kiértékelés, az emberi tesztelők olyan él-eseteket fogtak meg, amiket az LLM-as-judge módszer átsiklott. Az egyik legfontosabb ilyen eset az volt, amikor egy ügynök egy SEO-optimalizált, de tartalmilag gyengébb forrást részesített előnyben egy hiteles akadémiai forrással szemben. Ez rávilágított arra, hogy a minőségi kiértékelésbe mindig be kell építeni emberi felülvizsgálatot is, különösen a forrásválasztás megbízhatóságának ellenőrzésére.
Forrás
Anthropic "How we built our multi-agent research system" (anthropic.com/engineering/multi-agent-research-system) és "Building Effective AI Agents" (anthropic.com/research/building-effective-agents) című cikkeinek magyar feldolgozása.
Workshop
AI Transformation Day
Egésznapos, vezetőknek szóló program. Feltérképezzük, hol tart a szervezet, mi az első reális lépés, és milyen belső feltételek szükségesek a sikerhez. A nap végén konkrét, prioritizált cselekvési lista.
Érdekel a program →