Co je Transformer | Filip Oborník

Transformer je architektura neuronové sítě představená v roce 2017 v přelomovém článku „Attention Is All You Need“ od výzkumníků Googlu. Na rozdíl od předchozích architektur (rekurentních sítí) dokáže transformer zpracovávat celé sekvence textu paralelně, což dramaticky urychlilo trénování a umožnilo vytvoření mnohem větších modelů.

Klíčovou inovací transformeru je mechanismus pozornosti (self-attention), který modelu umožňuje při zpracování každého slova „vidět“ a zvažovat vztahy se všemi ostatními slovy ve větě. Díky tomu model lépe chápe kontext a význam – rozumí například, že v „Jana dala Petrovi knihu, protože ji přečetla“ se „ji“ vztahuje ke knize, ne k Janě.

Dnes je transformer základem prakticky všech velkých jazykových modelů – GPT, Claude, Gemini i dalších. Pochopení této architektury není nutné pro běžné používání AI, ale pomáhá chápat, proč jsou současné modely tak schopné a kde mají své limity.

Transformer.

Související pojmy.

Neuronová síť

Velký jazykový model (LLM)

GPT

Token

Deep learning