Multimodális alkalmazások · Lecke 04

Felbontás és token költség

Minden kép, amit elküldünk Claude-nak, tokenekbe kerül, és a token szám a kép méretétől függ. Ez a lecke bemutatja a pontos számítást és a valós dollárköltséget.

Vissza a tananyaghoz


Hogyan látja Claude a képet

Claude a képet 28x28 pixeles blokkokban dolgozza fel, ezeket nevezzük vizuális tokeneknek. A token költség kiszámítása egyszerű, a kép szélességét és magasságát elosztjuk 28-cal, mindkét eredményt felfelé kerekítjük, majd a két számot összeszorozzuk. Két felbontási szint létezik. A magas felbontás a Claude Sonnet 5 és az Opus 4.7 vagy 4.8 típusú modelleknél érhető el, legfeljebb 2576 pixeles hosszú éllel és legfeljebb 4784 vizuális tokennel. A standard felbontás minden más modellnél érvényes, legfeljebb 1568 pixeles hosszú éllel és legfeljebb 1568 tokennel.


TOKEN KÖLTSÉG KÉPMÉRET SZERINT 200x200px 64 1000x1000px 1296 4K (3840x2160) 4784 token
Egy 1000x1000px kép mindkét felbontási szinten 1296 token, egy 4K kép akár 4784 tokent is felhasználhat.

Mennyibe kerül ez dollárban

A token költséget a modell árazása szorozza meg. Egy 1000x1000 pixeles, vagyis nagyjából 1 megapixeles kép Claude Haiku 4.5-nél, ahol a standard felbontás 1 dollár milliónkénti token áron számol, körülbelül 1,30 dollárba kerül ezer képenként. Ugyanez a kép Claude Opus 4.8-nál, ahol a magas felbontás 5 dollár milliónkénti token áron számol, már körülbelül 6,48 dollárba kerül ezer képenként. Egy 4K felbontású kép a legdrágább esetben akár 23,92 dollárig is felmehet ezer képenként.


Mikor éri meg lekicsinyíteni a képet

Ha a feladathoz nincs szükség extra részletgazdagságra, mint például egy nem computer use jellegű, egyszerű képleírásnál vagy nem sűrű dokumentumnál, érdemes a képet lekicsinyíteni a token költség csökkentése érdekében. Ezzel szemben, ha a feladat aprólékos szövegolvasást vagy pontos koordináták azonosítását igényli, a magas felbontás megtartása indokolt, még ha ez több tokenbe is kerül.


Standard max 1568px Magas felbontás max 2576px 4K kép akár 4784 token kevesebb token több token
Minél nagyobb a kép hosszabbik éle, annál több vizuális token, és annál magasabb a költség.

Forrás

Az Anthropic hivatalos Claude Vision dokumentációjának (platform.claude.com/docs/en/build-with-claude/vision) magyar feldolgozása.


← Előző lecke Következő lecke →

Workshop

AI Transformation Day

Egésznapos, vezetőknek szóló program. Feltérképezzük, hol tart a szervezet, mi az első reális lépés, és milyen belső feltételek szükségesek a sikerhez. A nap végén konkrét, prioritizált cselekvési lista.

Érdekel a program →