Transformer.
Transformer
Architektura neuronové sítě, která revolucionizovala zpracování jazyka díky mechanismu pozornosti (attention). Je základem prakticky všech moderních jazykových modelů.
Transformer je architektura neuronové sítě představená v roce 2017 v přelomovém článku „Attention Is All You Need“ od výzkumníků Googlu. Na rozdíl od předchozích architektur (rekurentních sítí) dokáže transformer zpracovávat celé sekvence textu paralelně, což dramaticky urychlilo trénování a umožnilo vytvoření mnohem větších modelů.
Klíčovou inovací transformeru je mechanismus pozornosti (self-attention), který modelu umožňuje při zpracování každého slova „vidět“ a zvažovat vztahy se všemi ostatními slovy ve větě. Díky tomu model lépe chápe kontext a význam – rozumí například, že v „Jana dala Petrovi knihu, protože ji přečetla“ se „ji“ vztahuje ke knize, ne k Janě.
Dnes je transformer základem prakticky všech velkých jazykových modelů – GPT, Claude, Gemini i dalších. Pochopení této architektury není nutné pro běžné používání AI, ale pomáhá chápat, proč jsou současné modely tak schopné a kde mají své limity.
Chcete se dozvědět více? Podívejte se na mé služby.
Související pojmy.
Neuronová síť
Matematický model inspirovaný strukturou lidského mozku, složený z propojených vrstev umělých neuronů, který se dokáže učit rozpoznávat vzorce v datech.
Zjistit víceZáklady AIVelký jazykový model (LLM)
Typ neuronové sítě natrénované na obrovském množství textu, která dokáže generovat, překládat a analyzovat přirozený jazyk s pozoruhodnou přesností.
Zjistit víceZáklady AIGPT
Řada velkých jazykových modelů od společnosti OpenAI. Nejnovější verze pohánějí ChatGPT a jsou dostupné také přes API pro vývojáře.
Zjistit vícePrompt EngineeringToken
Základní jednotka textu, kterou AI model zpracovává – může to být celé slovo, část slova nebo interpunkční znaménko. V češtině jeden token odpovídá přibližně 3–4 znakům.
Zjistit víceZáklady AIDeep learning
Podoblast strojového učení, která využívá vícevrstvé neuronové sítě (hluboké sítě) schopné automaticky se učit rozpoznávat složité vzorce v datech.
Zjistit více