Zpět na slovníček
Základy AI

Multimodální AI.

Multimodal AI

Typ umělé inteligence schopný zpracovávat a generovat více typů dat najednou – text, obrázky, zvuk i video – a kombinovat informace z těchto různých zdrojů.

Multimodální AI označuje modely a systémy, které dokáží pracovat s více než jedním typem dat (modalitou). Zatímco dřívější AI modely byly specializované – jeden pro text, jiný pro obrázky – moderní multimodální modely jako GPT-4, Claude nebo Gemini zvládají kombinovat různé vstupy a výstupy.

V praxi to znamená, že můžete AI modelu poslat fotografii a zeptat se na ni v textu, nahrát zvukový záznam schůzky a nechat ho analyzovat, nebo popsat obrázek slovy a nechat ho vygenerovat. Model přitom chápe souvislosti mezi modalitami – na fotce jídla rozpozná ingredience a navrhne recept.

Multimodální schopnosti otevírají firmám nové možnosti automatizace. Analýza produktových fotek, zpracování naskenovaných dokumentů, transkripce a analýza hovorů se zákazníky nebo vizuální kontrola kvality – to vše dříve vyžadovalo specializované systémy, zatímco dnes stačí jeden multimodální model.

Chcete se dozvědět více? Podívejte se na mé služby.

Související pojmy.