Co je Multimodální AI | Filip Oborník

Multimodální AI označuje modely a systémy, které dokáží pracovat s více než jedním typem dat (modalitou). Zatímco dřívější AI modely byly specializované – jeden pro text, jiný pro obrázky – moderní multimodální modely jako GPT-4, Claude nebo Gemini zvládají kombinovat různé vstupy a výstupy.

V praxi to znamená, že můžete AI modelu poslat fotografii a zeptat se na ni v textu, nahrát zvukový záznam schůzky a nechat ho analyzovat, nebo popsat obrázek slovy a nechat ho vygenerovat. Model přitom chápe souvislosti mezi modalitami – na fotce jídla rozpozná ingredience a navrhne recept.

Multimodální schopnosti otevírají firmám nové možnosti automatizace. Analýza produktových fotek, zpracování naskenovaných dokumentů, transkripce a analýza hovorů se zákazníky nebo vizuální kontrola kvality – to vše dříve vyžadovalo specializované systémy, zatímco dnes stačí jeden multimodální model.

Multimodální AI.

Související pojmy.

Umělá inteligence

Velký jazykový model (LLM)

Gemini

Claude