Multimodális alkalmazások · Lecke 06

Gyakorlati alkalmazások

Az utolsó lecke összegzi, hol érdemes bevetni Claude vision képességét, mikor éri meg a magas felbontás, és milyen apró tanácsokkal javítható az eredmény minősége.

Vissza a tananyaghoz


Mikor éri meg a magas felbontás

A magas felbontás akkor indokolt, ha a feladat aprólékos munkát igényel, mint egy sűrű, apró betűs dokumentum elolvasása, egy diagram pontos adatainak kiolvasása, vagy egy felület elemeinek pontos beazonosítása, amilyen a computer use jellegű feladatoknál szokott előfordulni. Ezzel szemben egyszerűbb feladatoknál, mint egy termékfotó általános leírása vagy egy kép hangulatának megállapítása, a standard felbontás is elég, és jelentősen olcsóbb.


Standard gyors leírás, hangulat Magas felbontás apró szöveg, precíz adat mérlegelés
A feladat pontossági igénye dönti el, megéri-e a magasabb token költséget vállalni.

Konkrét üzleti alkalmazások

A leggyakoribb gyakorlati esetek közé tartozik a beérkező számlák vagy nyugták adatainak kinyerése egy fotó alapján, egy termékkatalógus képeinek automatikus leírása és kategorizálása, egy technikai hibaüzenetről készült képernyőkép elemzése ügyfélszolgálati kontextusban, valamint egy több oldalas szerződés vagy jelentés beszkennelt oldalainak feldolgozása egyszerre. Mindegyik esetben a közös pont, hogy a kép önmagában hordozza az információt, amit korábban kézzel kellett volna kiolvasni és begépelni.


Számla adatkinyerés Termékfotó kategorizálás Hibaüzenet képernyőkép Szerződés oldalai
Négy tipikus üzleti eset, ahol a kép önmagában hordozza a feldolgozandó információt.

Képminőségi tanácsok

A jó eredmény érdekében érdemes tiszta, nem homályos képet küldeni, amelyen a szöveg, ha van, olvashatóan látszik. A tömörítés, mint a JPEG vagy WebP veszteséges tömörítése, csökkenti a fájlméretet, de ronthatja a szövegolvashatóságot, ezért szöveget tartalmazó dokumentumoknál érdemes óvatosan bánni vele. Végül fontos emlékezni arra is, hogy a képfeltöltések efemerek, nem tárolódnak a kérés feldolgozása utáni időn túl, és az Anthropic nem használja fel a feltöltött képeket modell tanításhoz.


Forrás

Az Anthropic hivatalos Claude Vision dokumentációjának (platform.claude.com/docs/en/build-with-claude/vision) magyar feldolgozása.


← Előző lecke

Workshop

AI Transformation Day

Egésznapos, vezetőknek szóló program. Feltérképezzük, hol tart a szervezet, mi az első reális lépés, és milyen belső feltételek szükségesek a sikerhez. A nap végén konkrét, prioritizált cselekvési lista.

Érdekel a program →