A jutalmazási folyamat első lépése, az RPE kiszámítása

2025. július 30. szerda

Címkék: _SzürkeÁ _SzürkeÁ.Agyséta

A dopaminfelszabadulás –a jutalom-predikciós hiba (RPE, reward prediction error) kódolása összetett agyi rendszerek összehangolt működése nyomán jön létre. Ezek a rendszerek érzékelik, összevetik és értékelik a várt és a bekövetkezett kimeneteleket, és ennek alapján határozzák meg, hogy felszabadul-e dopamin, milyen mennyiségben, és mely agyterületeken. Ami fontos, hogy nem a jutalom értéke számít itt, hanem a jutalom változása és váratlansága. Ez tanít minket a legjobban, hibáinkból és sikereinkből tanulunk a legjobban, nem a kb. jó rutinszerűen megcsinált dolgokból.

A jutalmazási rendszer elemeinek elhelyezkedése az agyban. A részletek a szövegben.

A következő területek vesznek részt ebben a folyamatban:
1. Prefrontális kéreg (vmPFC, OFC) – Elvárások kiszámítása
A ventromediális prefrontális kéreg és az orbitofrontális kéreg (OFC) a korábban tanultak alapján kiszámítja a várható jutalom értékét („ezt várom”), és ezt a jóslást eljuttatja a dopamin sejtek felé (elsősorban közvetve).
2. Pedunculopontine tegmentális mag (PPTg) és a laterális hypotalamusz – Valós kimenetel érzékelése
Ezek a területek az érzékszervek felől érkező tényleges jutalom, „ezt kaptam” értékét juttatják el a dopamin sejteknek, melyek ezt összevetik az előző értékkel.
3. Laterális habenula (LHb) – Negatív kimenetelek jelzése
A laterális habenula (LHb) kulcsszereplő a negatív predikciós hiba feldolgozásában. Ha büntetést kapunk vagy egy várt jutalom elmarad, az LHb aktiválódik és gátló hatást fejt ki a ventrális tegmentális terület (VTA) dopaminerg sejtjeire. Az LHb tehát gátolja a dopamin-felszabadulást negatív tapasztalatok esetén, ezzel értesíti a tanulást a „nem érdemes” viselkedésekről. Megalapozza az elkerülő viselkedések tanulását. Fontos a NoGo típusú válaszok erősítésében, például amikor „ne nyúlj a tűzhöz” típusú szabályok tanulása történik.
De az LHb modulálja a szerotonerg rendszert is, serkenti a median raphe és dorsal raphe aktivitását és ezáltal növeli a szerotoninszintet, különösen elkerülendő (averzív) vagy frusztráló helyzetekben. A szerotonin így szerepet kap a viselkedés gátlásában, kockázatkerülésben és a negatív megerősítés hosszabb távú tanulásában. Végül az LHb, a laterális hypotalamusz és a középagy befolyásolásával hangolja az autonóm (ösztönös testi reakciók, izzadás, szívritmus) és motivációs válaszokat is. Az LHb ingerlése elkerülő viselkedést vált ki és dopaminszint-csökkenést okoz. Krónikus LHb túlműködés állatmodellekben depresszióhoz hasonló viselkedést eredményez (anhedonia, motivációhiány).
4. Hippokampusz – Kimenetel kontextusának értékelése
A hippokampusz téri és epizodikus információt szolgáltat arról, milyen környezetben (kontextusban) történt egy válasz vagy esemény. Ez információval látja el a VTA-t, segít eldönteni, hogy egy esemény várt vagy váratlan volt-e. A hippokampusz tehát nem közvetlenül dönti el, hogy kell-e dopamin, de kontextualizálja a válasz sikerességét.
5. Amigdala – Érzelmi értékelés és jutalom fontosság
A bazolaterális amigdala (BLA) értékeli, hogy egy inger vagy kimenetel mennyire releváns érzelmileg. Az érzelmileg hangsúlyos események (pl. erős pozitív vagy negatív jelentésűek) nagyobb súlyt kapnak, megnő vagy gátlódik a dopamin-felszabadulása.

Mindezeket összevetve alakul ki a jóslási (predikciós) hiba, azaz, hogy mennyi dopamin szabaduljon fel.

Összegezve: hogyan születik meg a dopaminfelszabadulás?

Predikció kialakul (OFC, vmPFC, amigdala, hippokampusz)
Tényleges kimenetel észlelése (szenzoros rendszerek, talamusz)
Predikciós hiba kiszámítása (összehasonlítás: PFC ↔ LHb ↔ VTA)
Dopaminerg sejtek válasza (VTA, subsztancia nigra kompakt része (SNc))

A dopaminerg sejtek kisülési gyakorisága a bemeneti aktivitás függvényében változik. Pozitív RPE (jutalom vártnál nagyobb vagy váratlan): serkenti a VTA dopaminsejteket, mely fokozott dopaminfelszabadulást vált ki. Ennek következményei tanulás, megerősítés, szinapszisok megerősödése a megfelelő, az adott típusú tanulásban résztvevő agyterületeken.
Negatív RPE (jutalom elmaradása vagy kisebb a vártnál): LHb aktiválódik és gátló neuronokon keresztül gátolja a VTA-t. Ennek eredményeként a dopaminfelszabadulás csökken vagy teljesen elmarad, melynek viselkedési következménye a tanulás a hibából, kioltás.
Semleges RPE (várt = kapott jutalom): dopaminaktivitás nem változik jelentősen, ilyenkor nincs megerősítés.

Szerző: Gulyás Attila

Eseménynaptár 2026. június

A jutalmazási folyamat első lépése, az RPE kiszámítása