Hogyan látja Claude a képet
Claude a képet 28x28 pixeles blokkokban dolgozza fel, ezeket nevezzük vizuális tokeneknek. A token költség kiszámítása egyszerű, a kép szélességét és magasságát elosztjuk 28-cal, mindkét eredményt felfelé kerekítjük, majd a két számot összeszorozzuk. Két felbontási szint létezik. A magas felbontás a Claude Sonnet 5 és az Opus 4.7 vagy 4.8 típusú modelleknél érhető el, legfeljebb 2576 pixeles hosszú éllel és legfeljebb 4784 vizuális tokennel. A standard felbontás minden más modellnél érvényes, legfeljebb 1568 pixeles hosszú éllel és legfeljebb 1568 tokennel.
Mennyibe kerül ez dollárban
A token költséget a modell árazása szorozza meg. Egy 1000x1000 pixeles, vagyis nagyjából 1 megapixeles kép Claude Haiku 4.5-nél, ahol a standard felbontás 1 dollár milliónkénti token áron számol, körülbelül 1,30 dollárba kerül ezer képenként. Ugyanez a kép Claude Opus 4.8-nál, ahol a magas felbontás 5 dollár milliónkénti token áron számol, már körülbelül 6,48 dollárba kerül ezer képenként. Egy 4K felbontású kép a legdrágább esetben akár 23,92 dollárig is felmehet ezer képenként.
Mikor éri meg lekicsinyíteni a képet
Ha a feladathoz nincs szükség extra részletgazdagságra, mint például egy nem computer use jellegű, egyszerű képleírásnál vagy nem sűrű dokumentumnál, érdemes a képet lekicsinyíteni a token költség csökkentése érdekében. Ezzel szemben, ha a feladat aprólékos szövegolvasást vagy pontos koordináták azonosítását igényli, a magas felbontás megtartása indokolt, még ha ez több tokenbe is kerül.
Forrás
Az Anthropic hivatalos Claude Vision dokumentációjának (platform.claude.com/docs/en/build-with-claude/vision) magyar feldolgozása.
Workshop
AI Transformation Day
Egésznapos, vezetőknek szóló program. Feltérképezzük, hol tart a szervezet, mi az első reális lépés, és milyen belső feltételek szükségesek a sikerhez. A nap végén konkrét, prioritizált cselekvési lista.
Érdekel a program →