Token.
Základní jednotka textu, kterou AI model zpracovává – může to být celé slovo, část slova nebo interpunkční znaménko. V češtině jeden token odpovídá přibližně 3–4 znakům.
Tokeny jsou základní stavební jednotky, se kterými pracují velké jazykové modely. Před zpracováním se vstupní text rozdělí na tokeny pomocí procesu zvaného tokenizace. V angličtině je jeden token přibližně jedno slovo nebo jeho část (například slovo „understanding" se rozloží na „under" + „standing"). V češtině, kvůli diakritice a delším slovům, je poměr odlišný – jeden token odpovídá zhruba 3–4 znakům.
Tokeny jsou důležité ze dvou praktických důvodů. Za prvé určují kapacitu kontextového okna – model s kontextem 128 000 tokenů dokáže najednou zpracovat přibližně 100 000 slov anglického textu. Za druhé se podle počtu tokenů často účtuje cena za používání API – platíte za vstupní i výstupní tokeny.
Při optimalizaci nákladů a efektivity práce s AI je užitečné rozumět tokenizaci. Efektivnější prompty (méně tokenů na vstupu) znamenají rychlejší odpovědi a nižší náklady, aniž by se snížila kvalita výstupu.
Chcete se dozvědět více? Podívejte se na mé služby.
Související pojmy.
Kontextové okno
Maximální množství textu (měřené v tokenech), které AI model dokáže najednou zpracovat – zahrnuje jak váš prompt, tak odpověď modelu.
Zjistit víceZáklady AIVelký jazykový model (LLM)
Typ neuronové sítě natrénované na obrovském množství textu, která dokáže generovat, překládat a analyzovat přirozený jazyk s pozoruhodnou přesností.
Zjistit víceAI AgentiAPI
Rozhraní, které umožňuje různým softwarovým aplikacím komunikovat mezi sebou. V kontextu AI slouží k programovému přístupu k jazykovým modelům a jejich integraci do vlastních aplikací.
Zjistit více