Hogyan és hol vált ki a dopamin tanulást?
Annak a bemutatásával folytatjuk hogyan szabályozza a dopamin a tanulást?
Van itt azonban néhány bökkenő. Korábban azt tanultuk, hogy ha két sejt egyidejűleg aktív, akkor a közöttük lévő szinapszis megerősödik. Viszont a felügyelt tanulásban a jel a sikerről csak később érkezik.
Vegyük végig mi is történik amikor egy ingerre vagy egy problémára válaszolunk:
1) inger érkezik vagy megoldandó feladat merül fel
2) az érzékelő ágon az agykérgi hierarchia ezt feldolgozza, vagy a homloklebeny értelmezi a feladatot
3) ezután jönnek a tervezés hurkai (lásd feljebb), melynek során a kéreg-törzsdúcok/kisagy-talamusz körökben kiválasztásra kerül a legjobb megoldás (ugye már itt is felszabadul dopamin)
4) a megoldást a motoros rendszer végrehajtja
5) erre történik valami a környezetben, megkapjuk vagy nem kapjuk meg a büntetést vagy a jutalmat
6) agyunk a jutalmazási rendszer segítségével kiértékeli a dolgokat és az RPE-nek megfelelő mennyiségű dopamin (második alkalommal szabadul fel) tájékoztatja az agyat arról, hogy most tanuljon vagy ne, boldog legyen vagy ne.
Az első bökkenő az, hogy a jel arra hogy tanulni kell, jóval később (akár másodpercek) érkezik, mint amikor a válasz kidolgozásakor a tervezés hurkaiban az idegsejtek működnek és a Hebbi társítás kialakulására alkalmas idegsejt együtt aktiválódások bekövetkeznek. Pedig ugye ezeknek a kapcsolatoknak kellene megtanulniuk mi a helyes válasz. Azaz a Hebbi társításhoz már nincs meg a tervezőrendszerben az idegsejtek közötti aktivitás egybeesése, amikor a tanulási jel megérkezik. Ha a szinapszisok módosítása a megoldás kidolgozásakor történik, az eredménytől függetlenül, mindent megtanulunk, a rossz megoldást is, ez nem jó.
Azaz az evolúciónak meg kellett oldania azt, hogy ne akkor történjen a szinapszisok módosulása, amikor a sejtek együtt tüzelnek, hanem amikor a dopamin megérkezik. De megoldotta ezt is. Kicsit hekkelte a szinapszisok megerősödéséhez vezető molekuláris hatásláncon. Előállt a „synaptic eligibility trace”, a szinaptikus „jogosultsági nyom” címke bevezetésével. Amikor a feladat kidolgozása során megszületik az eredmény, a Hebb szabálynak eleget tevő szinapszisok kapnak egy molekuláris címkét, mely néhány másodperig érvényes, de a súly megerősödése még nem történik meg. Amikor beérkezik a kiértékelés eredménye -a pozitív RPE miatt felszabaduló nagy mennyiségű dopamin- akkor a megcímkézett szinapszisokban megindulnak a korábban vázolt molekuláris folyamatok, melynek eredményeképpen több AMPA receptor épül be a szinapszisokba (LTP), és annak súlya megnő. Ezt hívják „gated Hebbian mechanism”-nak, azaz kapuzott Hebbi tanulásnak. Ha az RPE nulla, egy kevéske dopamin szabadul fel, akkor a címkézett szinapszissal nem történik semmi. Ha viszont az RPE negatív, rossz lóra tettünk, akkor a szinapszisok gyengülnek (LTD). Ezeknek a molekuláris részleteibe nem mennék bele, mert nem kell a megértéshez. Egy érthetőbb példa: Képzeljük el, hogy a szinapszis olyan, mint egy ajtó, amely csak akkor nyílik ki (változik meg), ha előbb kopogtál rajta (aktiválódott), és aztán érkezik egy jelszó (dopamin). A kopogás után az ajtó pár másodpercig „figyel”, várja a jelszót. Ha megkapja, kinyílik (megerősödik a kapcsolat). Ha nem, bezárul.
A másik bökkenő az, hogy a folyamatban kétszer is van dopamin felszabadulás (3. és 6. lépés). Mint azt a tervezés hurkai részben írtuk, először a helyes megoldás kiválasztásánál szabadul fel dopamin. Ezután ismét felszabadul dopamin (vagy nem), amikor a válasz kiértékelése megérkezik, fél-egy másodperccel később. Az első esetben nem történik tanulás, a dopamin a helyesnek vélt megoldást serketi vagy gátolja, a Go vagy NoGo pálya kapuzásával. A második esetben a dopamin a helyes vagy helytelen Go vagy NoGo kapcsolatokat erősíti vagy gyengíti. Az evolúció megoldotta, hogy az agy és a szinapszisok tudják, az első vagy a második felszabadulásról van szó, és ennek megfelelően reagáljanak.Akció kiválasztása előtt / közben: a dopamin elősegíti mit válasszunk. Ilyenkor, elsősorban az SNc ből származó dopamin lassan, egyenletesen szabadul fel (tónikus dopaminszint), vagy korábbról maradt a szinapszisok közelében. A törzsdúcok direkt és indirekt pályái (D1- és D2-receptoros sejtek) a dopamin jelenlétében könnyebben engedik át vagy erősebben vétózzák a kérgi terveket. Ez a „kapuzó” hatás. Ha megfelelő a dopaminszint, a striatum elősegíti a kiválasztott viselkedést. Ez nem tanulás, hanem állapotmoduláció – pl. motivált vagy, energikus vagy, nagyobb eséllyel hajtasz végre akciót.
Az akció következményének értékelése után (RPE= jutalom, hiba, váratlanság), a VTA dopaminsejtjei tüzelnek, de nem egyenletesen, hanem burst-ökben, gyors kisüléssorozatokban (fázisos, szakaszos dopaminszint) és ilyen mintázatban szabadítanak fel dopamint. A tüzeléssorozat erőssége a predikciós hiba nagyságától függően változik. Ez a fázisos aktivitás megérkezik a striatumba (és az agykéregbe), ahol módosítja a szinaptikus hatékonyságot, azáltal, hogy a tervezés során címkézett (tagelt) szinapszisokban jutalom esetén megerősíti az adott kéreg–striátum (kéreg-kéreg) kapcsolatokat, ellenkező esetben gyengíti. Ez a „tanuló” hatás, mely nem az akció végrehajtását segíti, hanem a jövőbeli döntések tanulását.
Szerző: Gulyás Attila