Mi a multimodalitás

Egy modell, két bemeneti forma

A Claude modellcsalád úgynevezett vision képességgel rendelkezik, ami azt jelenti, hogy a szöveges kérés mellett képeket is tud fogadni és értelmezni ugyanabban a kérésben. Nem egy külön "kép felismerő" modulról van szó, hanem magának a modellnek a részéről, amely a képet és a szöveget együtt, egy közös értelmezési keretben dolgozza fel. Ez teszi lehetővé, hogy a modell ne csak leírja, mit lát egy képen, hanem összefüggésbe is hozza azt a mellékelt szöveges kérdéssel vagy dokumentummal.

A kép és a szöveg egyetlen közös kérésben, együtt kerül a modellhez.

Mire jó ez a gyakorlatban

A multimodális képesség sokféle üzleti feladatot old meg, amit korábban külön eszközzel vagy emberi munkával kellett elvégezni. Ilyen például egy dokumentum vagy számla lefotózása és tartalmának kinyerése, egy termékfotó leírása vagy kategorizálása, egy diagram vagy táblázat értelmezése, esetleg egy hibaüzenetről készült képernyőkép elemzése. A közös pont mindegyikben, hogy a felhasználó nem szöveget ír le a képről, hanem magát a képet küldi el, és a modell abból dolgozik.

Mit NEM tud Claude

Fontos tisztázni már itt az elején, hogy Claude képeket megérteni tud, de generálni vagy szerkeszteni nem. Ha valaki képet szeretne létrehozni vagy módosítani, ahhoz más típusú, kifejezetten képgenerálásra épített eszközre van szükség. Claude ereje az elemzésben, leírásban és a képekhez kapcsolódó gondolkodásban van, nem a képek előállításában.

Claude a képek megértésében erős, a képek létrehozása más típusú eszköz feladata.

Forrás

Az Anthropic hivatalos Claude Vision dokumentációjának (platform.claude.com/docs/en/build-with-claude/vision) magyar feldolgozása.

Következő lecke →

Workshop

AI Transformation Day

Egésznapos, vezetőknek szóló program. Feltérképezzük, hol tart a szervezet, mi az első reális lépés, és milyen belső feltételek szükségesek a sikerhez. A nap végén konkrét, prioritizált cselekvési lista.

Érdekel a program →