Co je Token | Filip Oborník

Tokeny jsou základní stavební jednotky, se kterými pracují velké jazykové modely. Před zpracováním se vstupní text rozdělí na tokeny pomocí procesu zvaného tokenizace. V angličtině je jeden token přibližně jedno slovo nebo jeho část (například slovo „understanding" se rozloží na „under" + „standing"). V češtině, kvůli diakritice a delším slovům, je poměr odlišný – jeden token odpovídá zhruba 3–4 znakům.

Tokeny jsou důležité ze dvou praktických důvodů. Za prvé určují kapacitu kontextového okna – model s kontextem 128 000 tokenů dokáže najednou zpracovat přibližně 100 000 slov anglického textu. Za druhé se podle počtu tokenů často účtuje cena za používání API – platíte za vstupní i výstupní tokeny.

Při optimalizaci nákladů a efektivity práce s AI je užitečné rozumět tokenizaci. Efektivnější prompty (méně tokenů na vstupu) znamenají rychlejší odpovědi a nižší náklady, aniž by se snížila kvalita výstupu.

Token.

Související pojmy.

Kontextové okno

Velký jazykový model (LLM)

API