A három megadási mód
A Claude API háromféleképpen fogad el képet egy kérésben. Az első a base64 kódolt kép, amely közvetlenül a kérés törzsében utazik. A második egy URL hivatkozás, amely egy interneten elérhető képre mutat, ezt a modell maga tölti le. A harmadik a Files API használata, ahol a képet előre feltöltjük, kapunk hozzá egy file_id azonosítót, és a továbbiakban erre az azonosítóra hivatkozunk, ahányszor csak szükséges. Fontos kivétel, hogy Amazon Bedrock és Google Cloud platformon jelenleg csak a base64 forrás érhető el.
A Files API előnye ismételt felhasználásnál
Ha ugyanazt a képet több kéréshez is felhasználjuk, vagy el akarjuk kerülni a base64 kódolás miatti overheadet, a Files API a legjobb választás. Egyszer töltjük fel a képet, utána csak a file_id-re hivatkozunk, ahányszor szükséges. Ez különösen többfordulós beszélgetéseknél számít sokat, mert minden egyes kérés újraküldi a teljes eddigi előzményt. Ha ez az előzmény base64 kódolt képet tartalmaz, a kérés mérete minden fordulóval nő. A Files API ezt a növekedést elkerüli, mert a képre csak egy rövid azonosítóval hivatkozunk.
Hol legyen a kép a promptban
Legjobb gyakorlat, ha a kép a szöveges kérés előtt szerepel a promptban, hasonlóan ahhoz, ahogy hosszú dokumentumoknál is a szöveg kerül a kérdés elé. Ez segíti a modellt abban, hogy előbb lássa a vizuális kontextust, és csak utána értelmezze rá a konkrét kérdést. Ugyanakkor a gyakorlatban a modell jól teljesít akkor is, ha a kép a szöveg után, vagy akár a szöveg közepébe ékelve szerepel, tehát ez inkább ajánlás, nem szigorú szabály.
Forrás
Az Anthropic hivatalos Claude Vision dokumentációjának (platform.claude.com/docs/en/build-with-claude/vision) magyar feldolgozása.
Workshop
AI Transformation Day
Egésznapos, vezetőknek szóló program. Feltérképezzük, hol tart a szervezet, mi az első reális lépés, és milyen belső feltételek szükségesek a sikerhez. A nap végén konkrét, prioritizált cselekvési lista.
Érdekel a program →