Co je Inference | Filip Oborník

Inference (odvozování) je fáze, kdy natrénovaný AI model skutečně „pracuje“ – přijímá vstupní data a na jejich základě generuje výstup. Zatímco trénování modelu probíhá jednou a vyžaduje obrovský výpočetní výkon, inference probíhá při každém použití modelu a je výrazně rychlejší a levnější.

Když pošlete dotaz do ChatGPT nebo Claude, spouštíte inferenci – model zpracovává vaše slova přes své natrénované váhy a generuje odpověď token po tokenu. Rychlost inference (jak rychle model odpovídá) a její náklady jsou klíčovými faktory při nasazování AI v produkci.

Pro firmy plánující AI nasazení je pochopení inference důležité z hlediska nákladů a výkonu. Inference se účtuje podle počtu zpracovaných tokenů (vstupních i výstupních). Optimalizace inference – výběr správné velikosti modelu, efektivní prompty, cachování častých dotazů – může výrazně snížit provozní náklady AI řešení.

Inference.

Související pojmy.

Velký jazykový model (LLM)

Token

API

Fine-tuning

Strojové učení