AI rendszerek termelésben · Lecke 02

Hibakezelés és checkpointok

Egy ágens sok eszközhívás során tartja fenn az állapotát, és minden hívás egy újabb esély a hibára. Ez a lecke bemutatja, hogyan lehet a felhalmozódó hibákat kezelhető méretben tartani.

Vissza a tananyaghoz


A felhalmozódó hiba jelensége

Egy ágens egy komplex feladat közben tíz, húsz, néha száz eszközhívást végez egymás után. Minden egyes hívásnál van esély egy apró hibára, egy rosszul értelmezett válaszra, egy időtúllépésre. Külön-külön ezek a hibák jelentéktelennek tűnnek, de sok lépésen keresztül összeadódnak, és a végén egy teljesen hibás eredményhez vezethetnek.

Ha a rendszer nem tud különbséget tenni egy apró, javítható hiba és egy súlyos, a teljes feladatot érvénytelenítő hiba között, akkor minden hibánál nulláról kell újrakezdeni a munkát. Ez termelési környezetben elfogadhatatlanul drága és lassú.


Checkpoint Eszköz- hívás Hiba adaptáció a ciklus a legutóbbi checkpointtól folytatódik, nem a feladat elejétől
Checkpoint alapú helyreállítás, hiba esetén csak az utolsó biztos pontig kell visszalépni.

Retry logika és adaptáció

A jó termelési rendszer nem egyszerűen újrapróbálja ugyanazt a lépést hiba esetén, hanem adaptálódik. Ha egy eszközhívás hibát ad vissza, az ágensnek fel kell tudnia ismerni a hiba típusát, és ennek megfelelően kell reagálnia, például más paraméterekkel próbálkozni, más eszközt választani, vagy jelezni, hogy emberi beavatkozás szükséges.

A checkpoint azt jelenti, hogy a rendszer időről időre elmenti az addig elvégzett munka állapotát. Ha egy hiba történik, a rendszer nem a feladat elejéről indul újra, hanem a legutóbbi biztos ponttól folytatja. Ez drámaian csökkenti a hiba miatt elveszett munka mennyiségét és a költséget is.


Checkpoint nélkül hiba esetén a teljes munka nulláról indul drága, lassú, kiszámíthatatlan Checkpointtal hiba esetén az utolsó biztos ponttól folytat olcsó, gyors, kiszámítható
A mérleg egyik oldalán az elveszett munka, a másikon a checkpointtól folytatott, olcsó helyreállítás.

Mit érdemes elmenteni checkpointként

Nem minden lépés érdemel checkpointot, mert a túl sűrű mentés felesleges terhet ró a rendszerre. Érdemes checkpointot tenni minden olyan pontra, ahol jelentős, nehezen reprodukálható munka történt, például egy hosszú keresés vagy elemzés után, mielőtt a rendszer a következő, kockázatosabb lépésre lép.


Forrás

Anthropic "How we built our multi-agent research system", "Writing effective tools for AI agents" és a hivatalos Claude Code best practices dokumentáció magyar feldolgozása.


← Előző lecke Következő lecke →

Workshop

AI Transformation Day

Egésznapos, vezetőknek szóló program. Feltérképezzük, hol tart a szervezet, mi az első reális lépés, és milyen belső feltételek szükségesek a sikerhez. A nap végén konkrét, prioritizált cselekvési lista.

Érdekel a program →