Tokenek, tokenizáció közérthetően – teljes AI útmutató
A láthatatlan építőkocka: minden, amit a tokenekről tudnod kell a hatékony AI használathoz
AI oktatóként a leggyakoribb kérdések egyike, amivel találkozom: „Hogyan érti meg a gép, amit beírok neki?” Vagy még inkább: „Hogyan látja a képet, amit feltöltök?” A válasz egy apró, de annál fontosabb fogalomban, a tokenben rejlik. Gondoljunk rá úgy, mint az AI LEGO-kockájára vagy a digitális világ atomjára. Ebben a cikkben lerántjuk a leplet a tokenekről, hogy jobban megértsük, hogyan működik a mesterséges intelligencia a színfalak mögött, és miért számít ez a tudás a mindennapi munkánk során.
Mi az a token?
Képzeljük el, hogy a mesterséges intelligencia nem szavakban vagy mondatokban, hanem egy speciális egységben, tokenekben gondolkodik. A token a legkisebb értelmezhető darab, amire az AI egy szöveget vagy más információt felbont.
Ez a legfontosabb, amit meg kell jegyezni: egy token nem mindig egyenlő egy szóval. Néha egy hosszabb, összetett szó több tokenből áll. Például a „mesterséges” szót az AI valószínűleg így bontaná fel: [„mester”, „séges”]. Egy egyszerűbb, rövidebb szó, mint az „és”, lehet, hogy csak egyetlen token.
Ez az AI sajátos „nyelve”, amelyre lefordít mindent, amit kap, hogy fel tudja dolgozni.

A folyamat neve: tokenizáció
A tokenizáció az a folyamat, amikor a mesterséges intelligencia fogja a mi emberi nyelvünkön írt szövegünket (ezt hívjuk promptnak), és feldarabolja ezekre az apró tokenekre.
Gondoljunk rá úgy, mint egy fordítási lépésre:
- Ön beírja a kérdését: „Készíts egy rövid összefoglalót a negyedéves jelentésünkről.”
- Az AI tokenizál: Felbontja a mondatot a saját építőkockáira.
- Feldolgozás: Az AI ezekkel a tokenekkel kezd el dolgozni, értelmezi a köztük lévő kapcsolatokat.
- Válasz generálása: A válaszát szintén tokenekből építi fel, majd visszaalakítja számunkra olvasható, emberi szöveggé.
Minden egyes interakció ezzel a lépéssel kezdődik.
Miért fontos a kontextusablak?
A felhasznált tokenek száma azért kulcsfontosságú, mert ez szabja meg az AI „rövidtávú memóriájának” a méretét. Ezt a kapacitást, vagyis a maximálisan feldolgozható tokenek számát nevezzük kontextusablaknak.
- Az AI „memóriája” (Context Window): Minden AI modellnek van egy maximális token-kapacitása, amit egyszerre kezelni tud. Ezt hívják kontextusablaknak. Képzeljük el úgy, mint az AI rövidtávú memóriáját. Ha egy nagyon hosszú dokumentumot adunk neki, ami több tokent tartalmaz, mint a memóriája, akkor a szöveg elejét „elfelejtheti”, mire a végére ér.
- A költségek: A legtöbb professzionális AI szolgáltatás használata token-alapú. Ez azt jelenti, hogy nem a kérdések számáért, hanem a feldolgozott tokenek mennyiségéért fizetünk. Ebbe beletartozik a beírt kérdésünk (input tokenek) és az AI által generált válasz (output tokenek) is. A tokenek számának ismerete segít a hatékony és költségtudatos munkavégzésben.
Képek és videók tokenizálása
A modern AI modellek már nemcsak szöveget, hanem képeket és videókat is képesek értelmezni. De hogyan alakítja át például a Gemini a vizuális információt tokenekké?
- Hány token egy kép? Az AI nem úgy „látja” a képet, mint mi. Ehelyett a vizuális információt is lefordítja a saját, token-alapú nyelvére. A Gemini 2.0 előtt a képek fix 258 tokent használtak. A folyamat leegyszerűsítve egy alap „token-díjból” áll magáért a képért, majd a kép méretétől függően további tokenekbe kerül, ahogy kisebb-nagyobb darabokra, „csempékre” osztja. A Gemini 2.0-ban a 384 pixelnél kisebb méretű képek 258 tokennek számítanak. Az egyik vagy mindkét dimenzióban nagyobb képeket a rendszer szükség szerint 768×768 pixeles csempékre vágja és méretezi, amelyek mindegyike 258 tokennek számít.
- Hány token egy videó? A videó az AI számára nem más, mint képek gyors egymásutánja. A rendszer a videóból bizonyos időközönként „mintát vesz”, kiválaszt egy-egy képkockát, és ezeket a képkockákat tokenizálja, mintha különálló képek lennének. Egy 1 perces videó tehát lényegében sok-sok kép token-költségének összessége. A videó- és hangfájlokat a következő fix sebességgel konvertálja tokenekké: videó esetén 263 token másodpercenként,
- Hang esetén pedig 32 tokent számol másodpercenként.
A nagy csavar: miért több token egy magyar mondat?
Most érkeztünk el a legfontosabb gyakorlati tudnivalóhoz. A tokenizáció nem egyformán működik minden nyelven, a különbség az angol és a magyar között pedig jelentős.
Az ok a nyelvek szerkezetében rejlik:
- Az angol analitikus nyelv: a szavak sorrendjére és különálló segédszavakra épít (in, on, with, for).
- A magyar agglutináló, azaz „ragasztó” nyelv: a szavak végére illesztett toldalékokkal fejezzük ki a jelentést.
Nézzük a gyakorlatban!
Angolul: „in my houses” (3 szó, valószínűleg 3-4 token).
Magyarul: „házaimban” (1 szó).
Ebben az egyetlen magyar szóban benne van a tő (ház), a birtokjel (-a), a többes szám jele (-i), a birtokos személyrag (-m) és a helyhatározórag (-ban). Az AI tokenizálója ezt nem tudja egyben kezelni, ezért kénytelen darabokra szedni. A [„ház”, „aim”, „ban”] egy lehetséges felbontás.
Egyetlen magyar szó akár 3-4 tokent is felemészthet
Az ékezetes betűk megléte önmagában nem a probléma, hanem az, hogy az ezeket tartalmazó szavak és szóelemek (ragok, képzők) mennyire gyakoriak az AI modell tanítási adatai között.
Az AI a szöveget egy előre megtanult „szótár” alapján darabolja tokenekre. Ebben a szótárban a leggyakoribb karaktersorozatok, szóelemek és szavak szerepelnek.
Jól tanított modell: Ha egy modellt rengeteg minőségi magyar szövegen tanítottak, akkor a szótárában a magyar szavak (pl. árvíz, tükörfúrógép) és a ragok (pl. -ból, -ről, -ség) ékezetekkel együtt, egyetlen egységként (tokenként) szerepelnek. Ebben az esetben a feldolgozás hatékony.
Ha a modell tanítási anyaga főleg angol volt, és csak kevés magyar szöveget látott, akkor az ékezetes szavaink „ismeretlennek” vagy „ritkának” fognak tűnni a számára. Ilyenkor előfordulhat, hogy kénytelen a szót kisebb, számára értelmezhető darabokra bontani. Egy rosszabb esetben a fő szót felbonthatja f és ő karakterekre, ami két token, míg az angol main csak egy.
A modern, nagy modelleket (mint a Gemini vagy a GPT-4) már hatalmas, többnyelvű adatbázison tanítják, így ez a probléma egyre kevésbé jelentős, de a ragozás miatti alapvető token-többlet továbbra is fennáll.
Ennek a különbségnek kézzelfogható következményei vannak:
- Magasabb token-fogyasztás: ugyanannak az információnak a leírása magyarul általában több tokent igényel, mint angolul.
- Gyorsabban betelik a „memória”: az AI modellek kontextusablaka gyorsabban megtelik magyar szöveggel. Egy 8000 tokenes ablakba kevesebb oldalnyi magyar dokumentum fér bele, mint angol.
- A minőség nem vész el: fontos, hogy ez nem az AI magyar nyelvi képességeinek hiányossága! Csupán a feldolgozás módja más. A végeredmény minőségét ez alapvetően nem befolyásolja, de a felhasznált erőforrásokat igen.
Összefoglalás
A tokenek megértése kulcsfontosságú ahhoz, hogy tudatosan és hatékonyan használjuk a mesterséges intelligenciát. Ha legközelebb egy komplex feladatot adunk az AI-nak, már tudni fogjuk, hogy a háttérben a token segítségével dolgozik – és azt is, hogy a gyönyörű, ragozó magyar nyelvünk egy kicsit több ilyen építőkockát igényel. Ezzel a tudással felvértezve már nemcsak használjuk az AI-t, hanem értjük is a működését.thumb_upthumb_down