A jutalmazási folyamat első lépése, az RPE kiszámítása

2025. július 30. szerda

A dopaminfelszabadulás –a jutalom-predikciós hiba (RPE, reward prediction error) kódolása összetett agyi rendszerek összehangolt működése nyomán jön létre. Ezek a rendszerek érzékelik, összevetik és értékelik a várt és a bekövetkezett kimeneteleket, és ennek alapján határozzák meg, hogy felszabadul-e dopamin, milyen mennyiségben, és mely agyterületeken. Ami fontos, hogy nem a jutalom értéke számít itt, hanem a jutalom változása és váratlansága. Ez tanít minket a legjobban, hibáinkból és sikereinkből tanulunk a legjobban, nem a kb. jó rutinszerűen megcsinált dolgokból.

A jutalmazási rendszer elemeinek elhelyezkedése az agyban. A részletek a szövegben.

A következő területek vesznek részt ebben a folyamatban:
1. Prefrontális kéreg (vmPFC, OFC) – Elvárások kiszámítása
A ventromediális prefrontális kéreg és az orbitofrontális kéreg (OFC) a korábban tanultak alapján kiszámítja a várható jutalom értékét („ezt várom”), és ezt a jóslást eljuttatja a dopamin sejtek felé (elsősorban közvetve).
2. Pedunculopontine tegmentális mag (PPTg) és a laterális hypotalamusz – Valós kimenetel érzékelése
Ezek a területek az érzékszervek felől érkező tényleges jutalom, „ezt kaptam” értékét juttatják el a dopamin sejteknek, melyek ezt összevetik az előző értékkel.
3. Laterális habenula (LHb) – Negatív kimenetelek jelzése
A laterális habenula (LHb) kulcsszereplő a negatív predikciós hiba feldolgozásában. Ha büntetést kapunk vagy egy várt jutalom elmarad, az LHb aktiválódik és gátló hatást fejt ki a ventrális tegmentális terület (VTA) dopaminerg sejtjeire. Az LHb tehát gátolja a dopamin-felszabadulást negatív tapasztalatok esetén, ezzel értesíti a tanulást a „nem érdemes” viselkedésekről. Megalapozza az elkerülő viselkedések tanulását. Fontos a NoGo típusú válaszok erősítésében, például amikor „ne nyúlj a tűzhöz” típusú szabályok tanulása történik.
De az LHb modulálja a szerotonerg rendszert is, serkenti a median raphe és dorsal raphe aktivitását és ezáltal növeli a szerotoninszintet, különösen elkerülendő (averzív) vagy frusztráló helyzetekben. A szerotonin így szerepet kap a viselkedés gátlásában, kockázatkerülésben és a negatív megerősítés hosszabb távú tanulásában. Végül az LHb, a laterális hypotalamusz és a középagy befolyásolásával hangolja az autonóm (ösztönös testi reakciók, izzadás, szívritmus) és motivációs válaszokat is. Az LHb ingerlése elkerülő viselkedést vált ki és dopaminszint-csökkenést okoz. Krónikus LHb túlműködés állatmodellekben depresszióhoz hasonló viselkedést eredményez (anhedonia, motivációhiány).
4. Hippokampusz – Kimenetel kontextusának értékelése
A hippokampusz téri és epizodikus információt szolgáltat arról, milyen környezetben (kontextusban) történt egy válasz vagy esemény. Ez információval látja el a VTA-t, segít eldönteni, hogy egy esemény várt vagy váratlan volt-e. A hippokampusz tehát nem közvetlenül dönti el, hogy kell-e dopamin, de kontextualizálja a válasz sikerességét.
5. Amigdala – Érzelmi értékelés és jutalom fontosság
A bazolaterális amigdala (BLA) értékeli, hogy egy inger vagy kimenetel mennyire releváns érzelmileg. Az érzelmileg hangsúlyos események (pl. erős pozitív vagy negatív jelentésűek) nagyobb súlyt kapnak, megnő vagy gátlódik a dopamin-felszabadulása.

Mindezeket összevetve alakul ki a jóslási (predikciós) hiba, azaz, hogy mennyi dopamin szabaduljon fel.
Az RPE kiszámítása a VTAban: Az érzékelő és tervező rendszer jeleket szállít számos agyterület felé (szürke nyilak). Ezek alapján a prefrontális kéreg (homloklebeny) kiszámítja a várható jutalmat, a PPTg és a laterális hypothalamus pedig a valós jutalmat. Az amigdala és a hippokampusz érzelmi töltést és kontextust ad a számításhoz. A laterális habenula (LHab) negatív esetekben aktiválódik. Az információk eljutnak a VTA dopamin sejtjeire (zöld nyilak). A LHab gátlást fejt ki a VTA-ra, de jeleket küld a raphe magvakba és a hipotalamuszba is (szaggatott nyilak). Ezen jelek összegzése váltja ki a VTA a dopamin sejtek megfelelő mértékű tüzelését.
Összegezve: hogyan születik meg a dopaminfelszabadulás?

  • Predikció kialakul (OFC, vmPFC, amigdala, hippokampusz)
  • Tényleges kimenetel észlelése (szenzoros rendszerek, talamusz)
  • Predikciós hiba kiszámítása (összehasonlítás: PFC ↔ LHb ↔ VTA)
  • Dopaminerg sejtek válasza (VTA, subsztancia nigra kompakt része (SNc))

Dopaminfelszabadulás +, 0 és - RPE hatására. A dopaminsejtek alapállapota, hogy kicsit aktívak. Ez lehetővé teszi, hogy felfelé és lefelé is módosulhasson a felszabaduló dopamin mennyisége.  A három sor a 3 lehetséges RPE forgatókönyvet mutatja. A bal oszlop a jutalom jóslás értékét, a középső, a hibát, azaz a kapott mínusz elvárt értéket mutatja (ennek felel meg a dopamin sejtek működése, a dopaminfelszabadulás mértéke). A jobb oszlop pedig a dopaminsejtek aktivitását mutatja a 3 esetben. Egymás alatt a sejtek kisülése van felpöttyözve 10-15 kísérletből, felül pedig a kisülések összege. Látni, hogy két alkalommal szabadulhat fel dopamin. Először az inger megérkezésekor, jelezve annak korábban megtanult értékét, másodszor az akcióra kapott jutalom bekövetkeztekor. Tanulás előtt (első sor), ugye még hiányik az első felszabadulás, mert nem tudjuk mire számítsunk. A második csúcs jelen van, mert váratlan jutalom érkezett. A felszabaduló dopamin jelzi az agynak, hogy tanulja meg ami kicsit korábban történt, bármi is az, mert jóra vezetett. Sikeres megerősítéskor (második sor) a második csúcs elmarad, hiszen már nem kell tanulni, mert tudjuk a választ. Amikor a jutalom elmarad (harmadik sor) az első felszabadulás a jóslát jelenti, de itt elmarad a jutalom és így a második alkalommal negatív lesz az RPE, kikapcsolnak a dopamin sejtek. Ez jelzi majd, hogy felejtsük el ezt a választ, mert nem jó.
A dopaminerg sejtek kisülési gyakorisága a bemeneti aktivitás függvényében változik. Pozitív RPE (jutalom vártnál nagyobb vagy váratlan): serkenti a VTA dopaminsejteket, mely fokozott dopaminfelszabadulást vált ki. Ennek következményei tanulás, megerősítés, szinapszisok megerősödése a megfelelő, az adott típusú tanulásban résztvevő agyterületeken.
Negatív RPE (jutalom elmaradása vagy kisebb a vártnál): LHb aktiválódik és gátló neuronokon keresztül gátolja a VTA-t. Ennek eredményeként a dopaminfelszabadulás csökken vagy teljesen elmarad, melynek viselkedési következménye a tanulás a hibából, kioltás.
Semleges RPE (várt = kapott jutalom): dopaminaktivitás nem változik jelentősen, ilyenkor nincs megerősítés.

Szerző: Gulyás Attila

Korábbi hozzászólások
Még nincsenek hozzászólások
Új hozzászólás
A hozzászólások moderáltak, csak az Admin jóváhagyása után jelennek meg!