Egyszer hopp, máskor kopp: A jutalmazási rendszer és a tanulás működése különböző esetekben

2025. augusztus 25. hétfő

Címkék: _SzürkeÁ _SzürkeÁ.Agyséta

Most hogy átvészeltük a jutalmazási rendszer irányításával működő felügyelt tanulás rendszerét és módszereit, nézzünk példákat is a működésére. Egy ingerre vagy egy cselekedetre adott válasz, vagy annak hiánya többféle kimenetellel (jutalom, büntetés, vagy ezek elmaradása) járhat, és ennek megfelelően eltérő módokon tanulnak az érintett agyi területek.

Válaszunk jó: jutalmat kaptunk rá vagy elmarad egy kellemetlen következmény.
RPE>0
Ezt a két kimenetet hívjuk pozitív és negatív megerősítésnek. Mindkettő esetben érdemes tanulni. mert az RPE pozitív (a végkifejlet jobb vagy kevésbé rossz, mínusz x mínusz= plusz). A pozitív megerősítéses tanulás (jutalmazásos tanulás) lényege, hogy egy cselekvés vagy inger következtében pozitív kimenetel (jutalom) történik, melyet követően növelni kell a viselkedés valószínűségét. A második esetet azért hívjuk negatív megerősítésnek (nem pedig „büntetés”-nek), mert megerősítésről van szó, hiszen cselekedetünkkel jobb eredményt értünk el (elmaradt a büntetés), de nem pozitívan, egy jutalommal, hanem negatívan, a büntetés elmaradása útján értesülünk a sikerről. Ilyenkor is növelni kell a viselkedés valószínűségét, hiszen sikeresen kerültünk el egy büntetést.
Agyi mechanizmusok:
Dopamin szabadul fel főként a VTA-ból, és eljut:
-a dorzális striátumba – cselekvési tanulás és szokásformálás,
-a prefrontális kéregbe (PFC) – döntéshozás és előrejelzés fejlesztése.
-amigdala – negatív inger előjelzése,
-hippokampusz – kontextus tanulása,
-a ventrális striátumba (nucleus accumbens) – motivációs jelentőség növelése,
A dopamin D1-receptorokon keresztül szinaptikus megerősítést vált ki, különösen a kéreg-striátum kapcsolatban, de a PFCben is. Ez segíti a stimulus–outcome vagy action–outcome kapcsolat megerősítését.

Ide tartozik az a kicsit nehezen végiggondolható eset is, hogy valamit nem csináltunk és emiatt jártunk jobban. Ugye ebben az esetben vagy a pozitív végkifejlet vagy a negatív elmaradása miatt (pozitív RPE) a nemcselekvés választása a helyes, ilyenkor a striátumban a NoGo pálya erősödik.

Válaszunk nem jó, büntetést kaptunk rá vagy elmaradt a jutalom.
RPE<0

Büntetés vagy a jutalom elmaradása (mínusz x plusz = mínusz)
A büntetéses tanulás (pozitív vagy negatív punishment) lényege, hogy egy válasz negatív következménnyel jár (pl. fájdalom, vagy jutalom elmaradása), negatíve RPE-t eredményez. A dopaminfelszabadulás csökken és ettől később csökken a válasz valószínűsége.
Agyi mechanizmusok:
-kellemetlen a kimenetel: laterális habenula aktiválódik és gátolja a VTA-t, melytől a dopamin-szint csökken.
-a várt jutalom elmarad: negatív predikciós hiba,
Szerepet kap:
-amigdala – félelem, elkerülés tanulása
-insula – averzív jelek feldolgozása,
-PFC – szabálykövetés, cselekedet gátlása.

Itt is van egy kicsit nehezen átgondolható eset: Valamit nem csináltunk és emiatt rosszabbul jártunk. Ilyenkor a NoGo pálya gyengül, ez az üdvözítő megoldás.

Egy korábban jutalommal járó válasz már nem kap jutalmat
RPE<=0
Hát ez üres! Ezt a választ nem érdemes ismételnünk. Ekkor következik be a kioltás.
1. Pozitív megerősítés kioltása: Ha egy korábban jutalomhoz vezető inger vagy cselekvés többé nem jár jutalommal, akkor a dopaminsejtek nem aktiválódnak, nincs pozitív megerősítés, a válasz fokozatosan gyengül.
2. Negatív megerősítés kioltása: Ha az elkerülő viselkedés már nem előzi meg a negatív kimenetelt, akkor az elkerülő válasz kihunyhat.
3. Büntetés kioltása: Ha egy válasz többé nem jár büntetéssel, a viselkedés visszatérhet. Ez érzékenyebb a környezeti kontextusra (hippokampusz és PFC szerepe).

A várt választ kapjuk
RPE=0
Ilyenkor valamennyi dopamin felszabadul, hogy megtartsa a helyesen beállított szinaptikus súlyokat. Ugye módosítani nem kell, hiszen azt kaptuk amit vártunk

Tipp: Aki még nem látta nézze meg az Éretlenek című filmet. Jelentős mennyiségű oxitocin és endorfin felszabadulással jár. Magyrul, sokat lehet nevetni.

Szerző: Gulyás Attila

Eseménynaptár 2025. szeptember

Egyszer hopp, máskor kopp: A jutalmazási rendszer és a tanulás működése különböző esetekben