Hogyan és hol vált ki a dopamin tanulást?

2025. augusztus 12. kedd

Annak a bemutatásával folytatjuk hogyan szabályozza a dopamin a tanulást? 

A dopamin a striátumban és különböző kérgi területeken felszabadulva engedélyezi a tanulást (világoskék nyilak).

Van itt azonban néhány bökkenő. Korábban azt tanultuk, hogy ha két sejt egyidejűleg aktív, akkor a közöttük lévő szinapszis megerősödik. Viszont a felügyelt tanulásban a jel a sikerről csak később érkezik.

 

Vegyük végig mi is történik amikor egy ingerre vagy egy problémára válaszolunk:


1)    inger érkezik vagy megoldandó feladat merül fel
2)    az érzékelő ágon az agykérgi hierarchia ezt feldolgozza, vagy a homloklebeny értelmezi a feladatot
3)    ezután jönnek a tervezés hurkai (lásd feljebb), melynek során a kéreg-törzsdúcok/kisagy-talamusz körökben kiválasztásra kerül a legjobb megoldás (ugye már itt is felszabadul dopamin)
4)    a megoldást a motoros rendszer végrehajtja
5)    erre történik valami a környezetben, megkapjuk vagy nem kapjuk meg a büntetést vagy a jutalmat
6)    agyunk a jutalmazási rendszer segítségével kiértékeli a dolgokat és az RPE-nek megfelelő mennyiségű dopamin (második alkalommal szabadul fel) tájékoztatja az agyat arról, hogy most tanuljon vagy ne, boldog legyen vagy ne.


Az első bökkenő az, hogy a jel arra hogy tanulni kell, jóval később (akár másodpercek) érkezik, mint amikor a válasz kidolgozásakor a tervezés hurkaiban az idegsejtek működnek és a Hebbi társítás kialakulására alkalmas idegsejt együtt aktiválódások bekövetkeznek. Pedig ugye ezeknek a kapcsolatoknak kellene megtanulniuk mi a helyes válasz. Azaz a Hebbi társításhoz már nincs meg a tervezőrendszerben az idegsejtek közötti aktivitás egybeesése, amikor a tanulási jel megérkezik. Ha a szinapszisok módosítása a megoldás kidolgozásakor történik, az eredménytől függetlenül, mindent megtanulunk, a rossz megoldást is, ez nem jó.

Azaz az evolúciónak meg kellett oldania azt, hogy ne akkor történjen a szinapszisok módosulása, amikor a sejtek együtt tüzelnek, hanem amikor a dopamin megérkezik. De megoldotta ezt is. Kicsit hekkelte a szinapszisok megerősödéséhez vezető molekuláris hatásláncon. Előállt a „synaptic eligibility trace”, a szinaptikus „jogosultsági nyom” címke bevezetésével. A dopamin által kapuzott Hebb szabály működése, mely lehetővé teszi a késleltetett, felügyelt tanulást: A) A peszinaptikus axon aktivációja kombinálva a posztszinaptikus sejt tüzelésével (i) vagy annak depolarizációjával (ii) a klasszikus esetben elég az LTP beindulásához, a szinaptikus súly megnövekedéséhez. A kapuzott tanulásnál azonban csak akkor történik súlymódosulás, ha a bemeneti és a sejtaktivitás egybeesését meghatározott időn belül dopaminfelszabadulás követi (iii). B) A kapuzott tanuls lépései: (i) A zöld pályán érkező akciós potenciálok a bal oldali sejtben egybeesnek a sejt tüzelésével. Ennek a sejtnek erre a szinapszisára egy címke kerül (kis zászló a ii. ábrán). A középső sejt ugyen kap bemenetet, de nem aktív, a jobboldali még bemenetet sem kap, ezért egyikük szinapszisai sem kapnak címkét. Amikor a jutamazási rendszer döntése alapján dopamin szabadul fel a kék axonokból (iii) a sejt megjelőlt szinapszisának erősség emegnő (nagyobb fekete kör).Amikor a feladat kidolgozása során megszületik az eredmény, a Hebb szabálynak eleget tevő szinapszisok kapnak egy molekuláris címkét, mely néhány másodperig érvényes, de a súly megerősödése még nem történik meg. Amikor beérkezik a kiértékelés eredménye -a pozitív RPE miatt felszabaduló nagy mennyiségű dopamin- akkor a megcímkézett szinapszisokban megindulnak a korábban vázolt molekuláris folyamatok, melynek eredményeképpen több AMPA receptor épül be a szinapszisokba (LTP), és annak súlya megnő. Ezt hívják „gated Hebbian mechanism”-nak, azaz kapuzott Hebbi tanulásnak. Ha az RPE nulla, egy kevéske dopamin szabadul fel, akkor a címkézett szinapszissal nem történik semmi. Ha viszont az RPE negatív, rossz lóra tettünk, akkor a szinapszisok gyengülnek (LTD). Ezeknek a molekuláris részleteibe nem mennék bele, mert nem kell a megértéshez. Egy érthetőbb példa: Képzeljük el, hogy a szinapszis olyan, mint egy ajtó, amely csak akkor nyílik ki (változik meg), ha előbb kopogtál rajta (aktiválódott), és aztán érkezik egy jelszó (dopamin). A kopogás után az ajtó pár másodpercig „figyel”, várja a jelszót. Ha megkapja, kinyílik (megerősödik a kapcsolat). Ha nem, bezárul.

A másik bökkenő az, hogy a folyamatban kétszer is van dopamin felszabadulás (3. és 6. lépés). Mint azt a tervezés hurkai részben írtuk, először a helyes megoldás kiválasztásánál szabadul fel dopamin. Ezután ismét felszabadul dopamin (vagy nem), amikor a válasz kiértékelése megérkezik, fél-egy másodperccel később. Az első esetben nem történik tanulás, a dopamin a helyesnek vélt megoldást serketi vagy gátolja, a Go vagy NoGo pálya kapuzásával. A második esetben a dopamin a helyes vagy helytelen Go vagy NoGo kapcsolatokat erősíti vagy gyengíti. Az evolúció megoldotta, hogy az agy és a szinapszisok tudják, az első vagy a második felszabadulásról van szó, és ennek megfelelően reagáljanak.
A dopamin két felszabadulási módja a tervezés és a kiértékelés fázisaiban. A tervezés alatt a dopamin sejtek lassan tüzelnek (bal), melynek hatására a dopamint tartalmazó szinaptikus hólyagocskák nem a szinaptikus résbe, hanem az axonvégződések oldalán szabadulnak fel. Ennek hatása, hogy a dopamin lassan és sokáig hat. Itt a rendszerben van még egy csavar. A dopamin terminálisok közelében lévő serkentő végződésekből felszabaduló glutamát hangolni tudja, hogy mennyi dopamin szabaduljon fel. A megerősítés fázisában, pozitív RPE esetén a dopamin sejtek gyors kisüléssorozatokban aktívak (jobb), melynek hatására a dopamin a szinaptikus résbe ürül, erős, rövid ideig tartó és ezért pontosan időzített hatást fejtve ki.Akció kiválasztása előtt / közben: a dopamin elősegíti mit válasszunk. Ilyenkor, elsősorban az SNc ből származó dopamin lassan, egyenletesen szabadul fel (tónikus dopaminszint), vagy korábbról maradt a szinapszisok közelében. A törzsdúcok direkt és indirekt pályái (D1- és D2-receptoros sejtek) a dopamin jelenlétében könnyebben engedik át vagy erősebben vétózzák a kérgi terveket. Ez a „kapuzó” hatás. Ha megfelelő a dopaminszint, a striatum elősegíti a kiválasztott viselkedést. Ez nem tanulás, hanem állapotmoduláció – pl. motivált vagy, energikus vagy, nagyobb eséllyel hajtasz végre akciót.
Az akció következményének értékelése után (RPE= jutalom, hiba, váratlanság), a VTA dopaminsejtjei tüzelnek, de nem egyenletesen, hanem burst-ökben, gyors kisüléssorozatokban (fázisos, szakaszos dopaminszint) és ilyen mintázatban szabadítanak fel dopamint. A tüzeléssorozat erőssége a predikciós hiba nagyságától függően változik. Ez a fázisos aktivitás megérkezik a striatumba (és az agykéregbe), ahol módosítja a szinaptikus hatékonyságot, azáltal, hogy a tervezés során címkézett (tagelt) szinapszisokban jutalom esetén megerősíti az adott kéreg–striátum (kéreg-kéreg) kapcsolatokat, ellenkező esetben gyengíti. Ez a „tanuló” hatás, mely nem az akció végrehajtását segíti, hanem a jövőbeli döntések tanulását.

Szerző: Gulyás Attila

Korábbi hozzászólások
Még nincsenek hozzászólások
Új hozzászólás
A hozzászólások moderáltak, csak az Admin jóváhagyása után jelennek meg!