Zpět na slovníček
Prompt Engineering

Token.

Základní jednotka textu, kterou AI model zpracovává – může to být celé slovo, část slova nebo interpunkční znaménko. V češtině jeden token odpovídá přibližně 3–4 znakům.

Tokeny jsou základní stavební jednotky, se kterými pracují velké jazykové modely. Před zpracováním se vstupní text rozdělí na tokeny pomocí procesu zvaného tokenizace. V angličtině je jeden token přibližně jedno slovo nebo jeho část (například slovo „understanding" se rozloží na „under" + „standing"). V češtině, kvůli diakritice a delším slovům, je poměr odlišný – jeden token odpovídá zhruba 3–4 znakům.

Tokeny jsou důležité ze dvou praktických důvodů. Za prvé určují kapacitu kontextového okna – model s kontextem 128 000 tokenů dokáže najednou zpracovat přibližně 100 000 slov anglického textu. Za druhé se podle počtu tokenů často účtuje cena za používání API – platíte za vstupní i výstupní tokeny.

Při optimalizaci nákladů a efektivity práce s AI je užitečné rozumět tokenizaci. Efektivnější prompty (méně tokenů na vstupu) znamenají rychlejší odpovědi a nižší náklady, aniž by se snížila kvalita výstupu.

Chcete se dozvědět více? Podívejte se na mé služby.

Související pojmy.