Agyséta: A tanulás rendszerei az agyban

Hogyan tanul az agy. A jutalmazási rendszer által felügyelt tanulás sokkal hatákonyabb, mint a felügyelet nélküli automatikus tanulás. A bonyolult rendszer megértéséhez a memóriák és a tanulások típusait is átvesszük.

Nincs megjeleníthető elem

A visszacsatolás dícsérete IV.: A tanulás hurkai

Az elmúlt hetekben az agyi hálózatok talán egyik legbonyolultabbjának, a tanulási rendszernek a viselt dolgait szedtem össze. Belecsapunk egy sorozatba, mely bemutatja hogyan tanul agyunk.


Történetünk veleje, hogy az agy egy több szerveződési szintet magában foglaló többszörösen összetett alaposan visszacsatolt hálózat. 

Az emlékezés labirintusa: a memória fajtái

Mint láttuk, agyunk nagy hálózata megfelelően összekapcsolt, információfeldolgozásra szakosodott kishálózatokból (agykérgi területek) épül fel több szintben, visszacsatoltan.

A memória típusai

A pszichológusok az első vágást hosszútávú memóriákon annak mentén teszik, hogy tudjuk-e, el tudjuk-e magyarázni amit tanulunk vagy pedig reflex, készség szintem tanulunk és nem tudjuk elmagyarázni, legfeljebb megmutatni.

A memória időbelisége, memórialánc és megerősödés

A mindennapi hatékony túléléshez a dolgokra különböző ideig kell emlékeznünk. Van amire csak egy rövid ideig (Mit hozzak a boltból? Hova tettem a bringa zárjának a kulcsát? Mik voltak a fizika feladatban a megadott értékek és mi a kérdés?), van amire örökre kell / kellene emlékezni (születési helyem, anyukám neve, a mohácsi vész időpontja). Egy eseményről, vagy egy terv eredményének sikeréről gyakran csak utólag dől el fontos-e, érdemes-e emlékezni rá. Ezért az agy eltérő részein kialakultak különböző időtartalmú memóriák, melyek azután, hogy az információ hasznosnak bizonyult, a rövidtávú memóriákból átkerülnek a hosszabbtávú memóriákba. (korábbi cikkünk a memóriáról)

A tanulás típusai

A tanulás alapja a szinaptikus súlyok megváltozása. A neuronhálózatoknál bemutattuk a memória alapjául szolgáló sejtszintű, társításos (asszociatív) tanulást, mely a Hebb szabályt használva alakítja a szinaptikus súlyokat, és ezért a hálózat információfeldolgozó képességét. Ez ugye a (kis)hálózat szintű tanulást írja le, ami azonnali és mindig bekövekezik, ha megvan az egyidejűség.

A jutalmazási rendszer:

Most hogy átvettük a memóriák és a tanulás fajtáit, jön a legcikornyásabb rész, a jutalmazási rendszer (reward system) felépítésének és működésének bemutatása. A jutalmazási rendszer az agy egyik legfontosabb motivációs és tanulási rendszere, amely lehetővé teszi, hogy egy szervezet súlyozza (priorizálja), megtanulja és előnyben részesítse azokat a viselkedéseket, amelyek kellemes vagy hasznos kimenetelhez vezetnek és elkerülje azokat amik nem. A különböző típusú tanulások másként használják ezt a rendszert.

A jutalmazási folyamat első lépése, az RPE kiszámítása

A dopaminfelszabadulás –a jutalom-predikciós hiba (RPE, reward prediction error) kódolása összetett agyi rendszerek összehangolt működése nyomán jön létre. Ezek a rendszerek érzékelik, összevetik és értékelik a várt és a bekövetkezett kimeneteleket, és ennek alapján határozzák meg, hogy felszabadul-e dopamin, milyen mennyiségben, és mely agyterületeken. Ami fontos, hogy nem a jutalom értéke számít itt, hanem a jutalom változása és váratlansága. Ez tanít minket a legjobban, hibáinkból és sikereinkből tanulunk a legjobban, nem a kb. jó rutinszerűen megcsinált dolgokból.

A jutalmazás folyamat második lépése, a dopaminfelszabadulás többszörös hatása

Eljutottunk végre oda, hogy kiértékeltük a válasz sikerét és kaptunk egy pozitív, egy nulla vagy egy negatív reward prediction error-t (RPE). Ennek megfelelően sok dopamin szabadul fel, kevés dopamin szabadul fel vagy nem szabadul fel dopamin. Ez lesz a jel arra, hogy kell-e tanulni, a szinaptikus kapcsolatok megerősödjenek, ne változzanak vagy gyengüljenek.

Hogyan és hol vált ki a dopamin tanulást?

Annak a bemutatásával folytatjuk hogyan szabályozza a dopamin a tanulást? 

Hogyan vált ki a dopaminfelszabadulás örömet és sikerélményt

Nézzük akkor a dopamin második hatását. Ugyanis a pozitív RPE (sok dopamin)– vagyis amikor a kapott jutalom nagyobb vagy váratlanabb, mint amit előre vártunk – nemcsak tanulási jelet, hanem szubjektív élményt is kivált: örömöt, elégedettséget, "sikerérzést".

Egyszer hopp, máskor kopp: A jutalmazási rendszer és a tanulás működése különböző esetekben

Most hogy átvészeltük a jutalmazási rendszer irányításával működő felügyelt tanulás rendszerét és módszereit, nézzünk példákat is a működésére. Egy ingerre vagy egy cselekedetre adott válasz, vagy annak hiánya többféle kimenetellel (jutalom, büntetés, vagy ezek elmaradása) járhat, és ennek megfelelően eltérő módokon tanulnak az érintett agyi területek.