Multimodális alkalmazások · Lecke 02

Képek küldése Claude-nak

Háromféle módon lehet képet eljuttatni Claude-hoz egy API kérésben. Ez a lecke bemutatja mindhármat, és azt is, mikor melyik éri meg jobban.

Vissza a tananyaghoz


A három megadási mód

A Claude API háromféleképpen fogad el képet egy kérésben. Az első a base64 kódolt kép, amely közvetlenül a kérés törzsében utazik. A második egy URL hivatkozás, amely egy interneten elérhető képre mutat, ezt a modell maga tölti le. A harmadik a Files API használata, ahol a képet előre feltöltjük, kapunk hozzá egy file_id azonosítót, és a továbbiakban erre az azonosítóra hivatkozunk, ahányszor csak szükséges. Fontos kivétel, hogy Amazon Bedrock és Google Cloud platformon jelenleg csak a base64 forrás érhető el.


Base64 kép a kérés törzsében minden platformon elérhető nagyobb kérésméret URL online elérhető kép hivatkozás, nem tényleges fájl egyszerű, gyors Files API egyszer feltöltve, file_id-vel hivatkozva ismételt használatnál hatékonyabb nincs kódolási overhead
Bedrock és Google Cloud platformon jelenleg csak a base64 forrás használható.

A Files API előnye ismételt felhasználásnál

Ha ugyanazt a képet több kéréshez is felhasználjuk, vagy el akarjuk kerülni a base64 kódolás miatti overheadet, a Files API a legjobb választás. Egyszer töltjük fel a képet, utána csak a file_id-re hivatkozunk, ahányszor szükséges. Ez különösen többfordulós beszélgetéseknél számít sokat, mert minden egyes kérés újraküldi a teljes eddigi előzményt. Ha ez az előzmény base64 kódolt képet tartalmaz, a kérés mérete minden fordulóval nő. A Files API ezt a növekedést elkerüli, mert a képre csak egy rövid azonosítóval hivatkozunk.


Kép feltöltve egyszer történik Claude modell file_id hivatkozás minden további kérésnél csak a file_id utazik
A file_id sokkal kisebb, mint a kép maga, ezért minden további kérés könnyebb marad.

Hol legyen a kép a promptban

Legjobb gyakorlat, ha a kép a szöveges kérés előtt szerepel a promptban, hasonlóan ahhoz, ahogy hosszú dokumentumoknál is a szöveg kerül a kérdés elé. Ez segíti a modellt abban, hogy előbb lássa a vizuális kontextust, és csak utána értelmezze rá a konkrét kérdést. Ugyanakkor a gyakorlatban a modell jól teljesít akkor is, ha a kép a szöveg után, vagy akár a szöveg közepébe ékelve szerepel, tehát ez inkább ajánlás, nem szigorú szabály.


Forrás

Az Anthropic hivatalos Claude Vision dokumentációjának (platform.claude.com/docs/en/build-with-claude/vision) magyar feldolgozása.


← Előző lecke Következő lecke →

Workshop

AI Transformation Day

Egésznapos, vezetőknek szóló program. Feltérképezzük, hol tart a szervezet, mi az első reális lépés, és milyen belső feltételek szükségesek a sikerhez. A nap végén konkrét, prioritizált cselekvési lista.

Érdekel a program →