A jutalmazási rendszer:
Most hogy átvettük a memóriák és a tanulás fajtáit, jön a legcikornyásabb rész, a jutalmazási rendszer (reward system) felépítésének és működésének bemutatása. A jutalmazási rendszer az agy egyik legfontosabb motivációs és tanulási rendszere, amely lehetővé teszi, hogy egy szervezet súlyozza (priorizálja), megtanulja és előnyben részesítse azokat a viselkedéseket, amelyek kellemes vagy hasznos kimenetelhez vezetnek és elkerülje azokat amik nem. A különböző típusú tanulások másként használják ezt a rendszert.
A jutalmazási rendszer állapítja meg mikor és hol kell tanulni. Ez a visszacsatolás teszi lehetővé hogy ingerekre egyre jobb válaszokat adjunk vagy egyre hatékonyabb terveket kovácsoljunk, annak alapján, hogy a jobb-sikeresebb válaszhoz vezető cselekedetek rögzülnek.
A jutalmazás megértéséhez be kell vezetni egy fogalmat, a reward prediction errort (RPE), a jutalom jóslás hibáját. Ez egy érték, az elvárt és a bekövetkezett jutalom közötti különbség. RPE=bekövetkezett jutalom értéke – az elvárt jutalom értéke. Ahhoz hogy jobban válaszoljunk nem azt kell megnéznünk, hogy a kimenetel jó-e, hanem hogy jobb-e, mint korábban. Ha ugyanolyan jó akkor nem kell tanulni, hiszen már tudjuk a választ. Ezért kell a jelenlegi kimenetel és a korábbi kimenetel jóságának különbségét venni. Ha az érték pozitív, azaz a bekövetkezett jutalom nagyobb mint az elvárt, az jó, érdemes tanulni. Ha negatív, azaz a bekövetkezett jutalom kisebb mint a várt, az nem jó, ilyenkor nem szabad tanulni (jobb törölni a balsikerű megoldást), mert nem akarunk roszabbat mint volt. Ha nulla, azaz azt kaptuk amit elvártunk, akkor nem kell tanulni, hiszen már tudjuk a tutit.
Az RPE kiértékelésében a ventrális tegmetális area (VTA) és kisebb mértékben a substantia nigra pars compacta része (SNc) vesz rész (részletesebben hamarosan). Ha jól cselekedtünk ezen területek domapinerg sejtjei dopamint öntenek a megfelelő agyterületekre. Pozitív RPE sok dopamin, nulla RPE kis mennyiségű dopain, negatív RPE semennyi dopamin felszabadulásával jár.
A második lépés, hogy dopamin hatására egyrészt bekövetkezik a tanulás a megfelelő területeken (erről is hamarosan). Másrészt a felszabaduló dopamin örömet és a siker élményét okozza, illetve motivációt vált ki a megfelelő agyterületeken keresztül a cselekvés irányába (természetesen ezt is kifejtem).
Nézzün itt egy listát a jutalmazási rendszerben résztvevő agyterületkről, majd merüljünk el a részletekben
Ventralis tegmentalis area (VTA): Dopamint termel, kulcsszereplő a jutalomjelzésben
Substantia nigra pars compacta (SNc): Főként a motoros tanulással kapcsolatos dopaminjelet biztosítja.
Nucleus accumbens (NAc, ventrális striatum): Fontos siker esetén a megerősítésben, illetve a jutalom előrejelzésében és ezáltal a motivációban.
Laterális habenula (LHb): negatív ingerek esetében aktiválódik és közvetíti ezek hatását a VTA felé.
Prefrontális kéreg (vmPFC, OFC): kiszámolja a várt jutalom értékét, részt vesz a döntéshozásban, illetve a modell-alapú, explicit tanulásban és memóriában.
Amigdala (AMY): Az ingerekhez érzelmeket rendel, illetve megtanulja legközelebb egy ingerhez milyen érzelmet rendeljen.
Hippokampusz (HIPP): Kontextust és epizodikus emlékeket társít a jutalomhoz.
Szerző: Gulyás Attila