Système de récompense (Reward system)

Le système de récompense (le circuit mésocorticolimbique) est un groupe de structures neuronales responsables de la saillance des incitations (c'est-à-dire « vouloir », le désir ou l'envie d'un…

Le système de récompense, également connu sous le nom de circuit mésocorticolimbique, comprend un ensemble de structures neuronales qui médiatisent la saillance des incitations (définies comme « vouloir », ou le désir et l'envie d'une récompense et la motivation associée), l'apprentissage associatif (principalement par le renforcement positif et le conditionnement classique) et les émotions à valence positive, en particulier celles dont le plaisir est un élément central (par exemple, la joie, l'euphorie et le conditionnement classique). extase). Une récompense représente une propriété de stimulus attractive et motivationnelle qui suscite à la fois un comportement appétitif (ou d'approche) et un comportement de consommation. Plus précisément, un stimulus gratifiant est caractérisé comme « tout stimulus, objet, événement, activité ou situation susceptible de nous inciter à l'approcher et à le consommer ». Dans le cadre du conditionnement opérant, les stimuli enrichissants servent de renforçateurs positifs ; à l’inverse, les renforçateurs positifs sont intrinsèquement gratifiants. Ce système pousse les animaux à rechercher des stimuli ou à adopter des comportements qui améliorent leur forme physique, comme une activité sexuelle ou la consommation d’aliments riches en énergie. La survie de la plupart des espèces animales repose sur une exposition maximale aux stimuli bénéfiques tout en minimisant les contacts avec les stimuli nuisibles. La cognition de récompense contribue ainsi à augmenter la survie et le succès reproducteur en facilitant l'apprentissage associatif, en incitant à des comportements d'approche et de consommation, et en activant des émotions positivement valorisées. Par conséquent, la récompense fonctionne comme un mécanisme évolutif conçu pour augmenter la capacité d’adaptation des animaux. Dans le contexte de la toxicomanie, des substances spécifiques activent de manière excessive le circuit de la récompense, conduisant à des comportements compulsifs de recherche de substances motivés par la plasticité synaptique au sein de ce circuit.

Le système de récompense (le circuit mésocorticolimbique) est un groupe de structures neuronales responsables de la saillance des incitations (c'est-à-dire « vouloir » ; désir ou envie d'une récompense et de la motivation), de l'apprentissage associatif (principalement le renforcement positif et le conditionnement classique) et des émotions à valence positive, en particulier celles impliquant le plaisir comme composant central (par exemple, la joie, l'euphorie et l'extase). La récompense est la propriété attractive et motivationnelle d'un stimulus qui induit un comportement appétitif, également appelé comportement d'approche, et comportement de consommation. Un stimulus gratifiant a été décrit comme « tout stimulus, objet, événement, activité ou situation qui a le potentiel de nous inciter à l'approcher et à le consommer ». Dans le conditionnement opérant, les stimuli enrichissants fonctionnent comme des renforçateurs positifs ; cependant, l’affirmation inverse est également vraie : les renforçateurs positifs sont gratifiants. Le système de récompense motive les animaux à s’approcher de stimuli ou à adopter un comportement qui augmente leur forme physique (sexe, aliments riches en énergie, etc.). La survie de la plupart des espèces animales dépend de la maximisation du contact avec des stimuli bénéfiques et de la minimisation du contact avec des stimuli nuisibles. La cognition de récompense sert à augmenter les chances de survie et de reproduction en provoquant un apprentissage associatif, en suscitant une approche et un comportement de consommation et en déclenchant des émotions positivement valorisées. Ainsi, la récompense est un mécanisme qui a évolué pour contribuer à accroître la capacité d’adaptation des animaux. Dans la toxicomanie, certaines substances suractivent le circuit de récompense, conduisant à un comportement compulsif de recherche de substances résultant de la plasticité synaptique du circuit.

Les récompenses primaires constituent une catégorie de stimuli gratifiants essentiels à la survie d'un individu et de sa progéniture, englobant à la fois les récompenses homéostatiques (par exemple, une nourriture agréable au goût) et les récompenses reproductives (par exemple, le contact sexuel et l'investissement parental). Les récompenses intrinsèques sont des stimuli inconditionnés qui possèdent un attrait inhérent et motivent un comportement en raison de leurs qualités de plaisir innées. À l’inverse, les récompenses extrinsèques (par exemple, un gain monétaire ou le fait d’être témoin de la victoire d’une équipe sportive préférée) sont des stimuli conditionnés qui, bien qu’attrayants et motivants pour le comportement, ne sont pas intrinsèquement agréables. La valeur motivationnelle des récompenses extrinsèques s’acquiert grâce à des associations apprises (c’est-à-dire le conditionnement) avec des récompenses intrinsèques. Après le conditionnement classique avec des récompenses intrinsèques, les récompenses extrinsèques peuvent également induire du plaisir (par exemple, l'euphorie associée au fait de gagner un prix substantiel à la loterie).

Définition

Au sein des neurosciences, le système de récompense fait référence à un réseau de structures cérébrales et de voies neuronales qui sous-tendent la cognition liée à la récompense. Cela inclut l'apprentissage associatif (principalement le conditionnement classique et le renforcement opérant), la saillance des incitations (c'est-à-dire la motivation, le « vouloir », le désir ou l'envie d'une récompense) et les émotions à valence positive, en particulier celles impliquant le plaisir (c'est-à-dire le « goût ») hédonique.

Les activités associées à la récompense, notamment l'alimentation, l'exercice, l'activité sexuelle, la consommation de substances et les interactions sociales, contribuent à des niveaux élevés de dopamine, qui modifient ensuite le système nerveux central (SNC). La dopamine, un messager chimique crucial, joue un rôle déterminant dans la régulation de l'humeur, de la motivation, de la récompense et du plaisir.

Les comportements associés à l'aspect « vouloir » ou désir de la récompense sont fréquemment décrits à l'aide de termes tels que comportement appétitif, comportement d'approche, comportement préparatoire, comportement instrumental, comportement d'anticipation et recherche. À l'inverse, les comportements liés à la composante « aimer » ou plaisir de la récompense sont communément appelés comportement de consommation et comportement de prise.

Les récompenses possèdent trois fonctions principales, caractérisées par leur capacité à :

faciliter l'apprentissage associatif (en particulier le conditionnement classique et le renforcement opérant) ;
influencer la prise de décision et susciter un comportement d'approche (grâce à l'attribution d'une importance motivationnelle à des stimuli gratifiants) ;
déclencher des émotions positives, en particulier du plaisir.

Neuroanatomie

Vue d'ensemble

Les structures cérébrales constitutives du système de récompense sont principalement situées dans la boucle cortico-noyaux de la base-thalamo-corticale, la composante des noyaux de la base pilotant son activité. La majorité des voies reliant ces structures du système de récompense sont constituées d'interneurones glutamatergiques, de neurones épineux moyens GABAergiques (MSN) et de neurones de projection dopaminergiques ; cependant, d'autres types de neurones de projection, tels que les neurones orexinergiques, y contribuent également. Les composants clés du système de récompense comprennent l'aire tegmentale ventrale, le striatum ventral (y compris le noyau accumbens et le tubercule olfactif), le striatum dorsal (comprenant le noyau caudé et le putamen), la substance noire (en particulier la pars compacta et la pars reticulata), le cortex préfrontal, le cortex cingulaire antérieur, le cortex insulaire, l'hippocampe, l'hypothalamus (notamment le noyau orexinergique dans l'hypothalamus latéral), plusieurs noyaux thalamiques, le noyau sous-thalamique, les segments externes et internes du globus pallidus, le pallidum ventral, le noyau parabrachial, l'amygdale et l'amygdale étendue plus large. De plus, le noyau du raphé dorsal et le cervelet semblent moduler des formes spécifiques de cognition liées à la récompense, telles que l'apprentissage associatif, la saillance motivationnelle et les émotions positives, ainsi que les comportements associés. Le noyau tegmental latéro-dorsal (LDT), le noyau pédonculopontin (PPTg) et l'habenula latérale (LHb) sont également capables d'induire une saillance à la fois aversive et incitative. Cela se produit grâce à leurs projections vers l'aire tegmentale ventrale (VTA), la LHb agissant à la fois directement et indirectement via le noyau tegmental rostromédien (RMTg). Le LDT et le PPTg transmettent tous deux des projections glutaminergiques au VTA, en synapse sur les neurones dopaminergiques, un processus qui peut générer une saillance incitative. La LHb envoie des projections glutaminergiques, se synapsant principalement sur les neurones GABAergiques RMTg, qui inhibent ensuite les neurones dopaminergiques VTA. Néanmoins, certaines projections LHb se terminent également sur les interneurones VTA. Ces projections de LHb sont activées à la fois par des stimuli aversifs et par l'absence de récompenses anticipées, et leur excitation peut par conséquent induire de l'aversion.

Une partie importante des voies dopaminergiques, définies comme les neurones utilisant la dopamine pour la communication interneuronale, provenant de l'aire tegmentale ventrale, font partie intégrante du système de récompense. Au sein de ces voies, la dopamine module la production d'AMPc soit en stimulant les récepteurs de type D1, soit en inhibant les récepteurs de type D2. De plus, les neurones épineux moyens GABAergiques du striatum constituent des composants essentiels du système de récompense. Les noyaux de projection glutamatergique situés dans le noyau sous-thalamique, le cortex préfrontal, l'hippocampe, le thalamus et l'amygdale établissent des connexions avec d'autres régions du système de récompense via les voies du glutamate. Le faisceau médial du cerveau antérieur, un ensemble de nombreuses voies neuronales médiant la récompense de la stimulation cérébrale (c'est-à-dire la récompense résultant de la stimulation électrochimique directe de l'hypothalamus latéral), constitue également une partie constitutive du système de récompense.

Concernant l'activité du noyau accumbens et son rôle dans la génération du « goût » et du « désir », deux théories principales ont été proposées. L'hypothèse de l'inhibition (ou hyperpolarisation) postule que le noyau accumbens exerce des effets toniques inhibiteurs sur les structures en aval, notamment le pallidum ventral, l'hypothalamus ou la zone tegmentale ventrale. Selon cette théorie, l'inhibition des MSN au sein du noyau accumbens (NAcc) conduit à l'excitation de ces structures en aval, « libérant » ainsi un comportement lié à la récompense. Bien que les agonistes des récepteurs GABA puissent susciter à la fois des réactions de « goût » et de « désir » au sein du noyau accumbens, les apports glutaminergiques provenant de l'amygdale basolatérale, de l'hippocampe ventral et du cortex préfrontal médial sont capables de stimuler la saillance des incitations. De plus, alors que la majorité des études indiquent une réduction du déclenchement neuronal NAcc en réponse à la récompense, un sous-ensemble notable de recherches rapporte l'effet inverse. Cette divergence a conduit à la formulation de l'hypothèse de la désinhibition (ou dépolarisation), qui postule que l'excitation des neurones NAcc, ou du moins de sous-ensembles spécifiques de ceux-ci, entraîne un comportement lié à la récompense.

Des recherches approfondies s'étalant sur près de cinq décennies sur la récompense de la stimulation cérébrale ont établi que de nombreux sites cérébraux peuvent soutenir l'autostimulation intracrânienne. Les régions particulièrement efficaces comprennent l’hypothalamus latéral et les faisceaux médiaux du cerveau antérieur. La stimulation dans ces zones active les fibres constituant les voies ascendantes, parmi lesquelles la voie dopaminergique mésolimbique, se projetant de l'aire tegmentale ventrale jusqu'au noyau accumbens. Plusieurs facteurs soulignent le rôle central de la voie mésolimbique de la dopamine dans les circuits de médiation de la récompense. Premièrement, l’autostimulation intracrânienne chez les animaux est associée à une augmentation significative de la libération de dopamine par cette voie. Deuxièmement, les preuves expérimentales démontrent systématiquement que la récompense par stimulation cérébrale renforce les voies généralement activées par les récompenses naturelles. De plus, la récompense médicamenteuse et l’autostimulation intracrânienne peuvent induire une activation plus puissante des mécanismes centraux de récompense en stimulant directement le centre de récompense, en contournant les nerfs périphériques. Troisièmement, l’administration de drogues addictives ou l’adoption de comportements naturellement gratifiants, tels que l’alimentation ou l’activité sexuelle, provoquent une libération prononcée de dopamine au sein du noyau accumbens. Néanmoins, la dopamine n'est pas le seul neurochimique impliqué dans la récompense cérébrale.

Voie neuronale principale

Zone tegmentale ventrale

L'aire tegmentale ventrale (VTA) joue un rôle crucial dans le traitement des stimuli et des signaux indiquant la présence d'une récompense. Les stimuli enrichissants, y compris toutes les drogues addictives, influencent ce circuit en incitant le VTA à libérer des signaux de dopamine vers le noyau accumbens, par des mécanismes directs ou indirects. La VTA comprend deux voies importantes : la voie mésolimbique, qui se projette vers les régions limbiques (striatales) et est à la base des comportements et processus motivationnels ; et la voie mésocorticale, qui se projette vers le cortex préfrontal et soutient les fonctions cognitives, telles que l'acquisition d'indices externes.
Les neurones dopaminergiques de cette région convertissent l'acide aminé tyrosine en DOPA grâce à l'action de l'enzyme tyrosine hydroxylase, qui est ensuite transformée en dopamine par l'enzyme DOPA décarboxylase.

Striatum (Nucleus Accumbens)

Le striatum est largement impliqué dans l'acquisition et l'élicitation de comportements appris en réponse à des signaux gratifiants. Le VTA se projette vers le striatum, activant les neurones épineux moyens GABAergiques via les récepteurs D1 et D2 situés à la fois dans le striatum ventral (Nucleus Accumbens) et dorsal.
Le striatum ventral (Nucleus Accumbens) joue un rôle important dans l'acquisition du comportement lors de la réception des informations du VTA, et dans l'élicitation du comportement lors de la réception des informations du PFC. La coquille du Nucleus Accumbens (NAc) se projette vers le pallidum et le VTA, régulant ainsi les fonctions limbiques et autonomes. Cette projection module les propriétés renforçantes des stimuli et les aspects à court terme de la récompense. À l’inverse, le NAc Core se projette sur la substance noire et est impliqué dans le développement et l’expression de comportements de recherche de récompense. Il est également impliqué dans l'apprentissage spatial, la réponse conditionnelle et le choix impulsif, qui représentent les composantes à long terme de la récompense.
Le striatum dorsal participe à l'apprentissage, le striatum dorsal médial étant spécifiquement impliqué dans l'apprentissage axé sur un objectif, et le striatum latéral dorsal dans l'apprentissage stimulus-réponse, qui est fondamental pour les réponses pavloviennes. Lors d'une activation répétée par des stimuli, le noyau Accumbens peut activer le striatum dorsal via une boucle intrastriatale. Cette transition de signal du NAc au DS permet aux signaux associés à la récompense d'activer le DS même en l'absence de la récompense elle-même. Une telle activation peut induire des envies de fumer et des comportements de recherche de récompense, et constitue un mécanisme clé pour déclencher une rechute pendant l'abstinence de dépendance.

Cortex préfrontal

Les neurones dopaminergiques du projet VTA vers le PFC, activant ainsi les neurones glutamatergiques qui, à leur tour, se projettent vers diverses autres régions, notamment le striatum dorsal et le NAc. Cette connectivité complexe permet finalement au PFC d'assurer la médiation de la saillance et des comportements conditionnels en réponse aux stimuli.
De manière significative, l'abstinence de drogues addictives active la projection glutamatergique du PFC vers la NAc, ce qui induit ensuite des envies intenses et module la réintégration des comportements addictifs après l'abstinence. De plus, le PFC interagit avec le VTA via la voie mésocorticale, facilitant l'association des signaux environnementaux avec la récompense.
Plusieurs régions cérébrales associées au cortex préfrontal contribuent distinctement aux processus de prise de décision. Le cortex cingulaire antérieur dorsal (dACC) surveille la dépense d’effort, la résolution des conflits et la détection des erreurs. Le cortex préfrontal ventromédian (vmPFC) médie l'expérience subjective de récompense et facilite la prise de décision basée sur les préférences. Le cortex orbitofrontal (OFC) évalue les options potentielles et prévoit leurs conséquences pour éclairer les choix. Collectivement, ces régions s'intègrent aux voies de signalisation dopaminergiques pour traiter les récompenses et guider les réponses comportementales.

Hippocampe

L'hippocampe remplit diverses fonctions, notamment la formation et le stockage de la mémoire. Au sein du circuit de récompense, il est crucial pour le traitement des mémoires contextuelles et de leurs signaux associés. En fin de compte, cela facilite le rétablissement des comportements de recherche de récompense lorsqu'ils sont exposés à des signaux spécifiques et à des déclencheurs contextuels.

Amygdale

L'AMY reçoit des projections afférentes du VTA et des projets efférents vers le NAc. L'amygdale joue un rôle essentiel dans la formation de puissants souvenirs flash émotionnels et est supposée être à l'origine du développement de souvenirs robustes associés à des signaux. De plus, il joue un rôle déterminant dans la médiation des effets anxiogènes du sevrage et de l'escalade de la consommation de drogues observée dans la dépendance.

Centres de plaisir

Bien que le plaisir constitue une composante de la récompense, toutes les récompenses n'évoquent pas intrinsèquement des sensations agréables (par exemple, un gain monétaire ne suscite pas intrinsèquement du plaisir à moins qu'une réponse conditionnée ne soit établie). Les stimuli qui sont intrinsèquement agréables et par conséquent attrayants sont appelés récompenses intrinsèques, tandis que ceux qui sont attrayants et motivent des comportements d'approche sans être intrinsèquement agréables sont appelés récompenses extrinsèques. Les récompenses extrinsèques, comme l’argent, tirent leurs propriétés gratifiantes d’une association apprise avec une récompense intrinsèque. Par conséquent, les récompenses extrinsèques fonctionnent comme des attracteurs de motivation qui induisent principalement des réactions de « désir » (pulsion motivationnelle) plutôt que de « goût » (plaisir hédonique) lors de leur acquisition.

Le système de récompense englobe les centres du plaisir, également connus sous le nom de points chauds hédoniques, qui sont des structures cérébrales responsables de la médiation des réactions de plaisir ou de « goût » suscitées par les récompenses intrinsèques. Depuis octobre 2017, des points chauds hédoniques spécifiques ont été identifiés dans les sous-compartiments de la coquille du noyau accumbens, du pallidum ventral, du noyau parabrachial, du cortex orbitofrontal (OFC) et du cortex insulaire. Le noyau du raphé a également été impliqué dans ce contexte. Plus précisément, le point chaud hédonique au sein de la coquille du noyau accumbens réside dans le quadrant rostrodorsal de la coquille médiale, alors qu'un point froid hédonique est situé dans une région plus postérieure. De même, le pallidum ventral postérieur héberge un point chaud hédonique, tandis que le pallidum ventral antérieur contient un point froid hédonique. Des études chez le rat ont montré que les microinjections d'opioïdes, d'endocannabinoïdes et d'orexine peuvent améliorer les réactions de « goût » au sein de ces points chauds. De plus, les points chauds hédoniques de l'OFC antérieur et de l'insula postérieure chez le rat ont démontré une réactivité à l'orexine et aux opioïdes, une caractéristique également observée dans le point froid hédonique superposé situé dans l'insula antérieure et l'OFC postérieur. À l'inverse, le hotspot du noyau parabrachial a exclusivement montré une réactivité aux agonistes des récepteurs des benzodiazépines.

Les hotspots hédoniques présentent une connectivité fonctionnelle, telle que l'activation d'un hotspot conduit au recrutement d'autres, un phénomène mis en évidence par l'expression induite de c-Fos, un gène précoce immédiat. De plus, l’inhibition d’un seul hotspot atténue les effets observés lors de l’activation d’un autre. Par conséquent, l’activation simultanée de tous les points chauds hédoniques au sein du système de récompense est supposée être essentielle pour générer la sensation d’euphorie intense.

Le système de récompense pendant l'adolescence

Le système de récompense se développe jusqu'à ce que le cerveau atteigne la maturité adulte, son activité étant particulièrement accrue pendant l'adolescence. Un développement approprié des circuits neuronaux impliqués dans la récompense est crucial pour que les individus parviennent à être efficaces dans les processus de prise de décision et de résolution de problèmes. Le développement du système de récompense s'accélère généralement au cours de l'adolescence, sous l'impulsion du désir accru d'un individu pour des activités exploratoires, souvent influencé par les événements sociaux et les interactions avec ses pairs. De plus, les compétences sociales, émotionnelles et cognitives évoluent au cours de cette étape de développement, et leur progression peut être considérablement façonnée par la récompense et sa valeur perçue, contribuant ainsi à l'établissement fondamental du système de récompense.

Le système dopaminergique joue un rôle central dans le développement du système de récompense à l'adolescence. Au cours de l'adolescence, l'expression des récepteurs D1 et D2 dans le striatum atteint son apogée, sous l'effet de processus intenses de maturation neuronale tels que l'élagage synaptique, qui peuvent entraîner une altération de la sensibilité à la récompense. Par la suite, l’expression de ces récepteurs diminue avec l’âge, diminuant potentiellement la sensibilité aux récompenses au cours de la vie. La recherche indique en outre que les expériences enrichissantes provoquent une plus grande libération de dopamine à l'adolescence par rapport aux événements analogues à l'âge adulte.

Le striatum ventral sert de régulateur anatomique essentiel des comportements motivés et de recherche de récompense tout au long de l'adolescence. L'anticipation de la récompense chez les adolescents est associée à une diminution de l'activité striatale, conduisant potentiellement à des comportements à risque accrus en raison d'une signalisation interne insuffisante de la récompense. Cette désactivation striatale peut obliger les individus à rechercher des récompenses externes, augmentant ainsi l'attrait des actions impulsives et spontanées. Par conséquent, une telle désactivation est impliquée dans l’étiologie de divers troubles répandus au cours du développement de l’adolescent, notamment les troubles liés à la consommation de substances, la dépendance au jeu et la dépression. En outre, l’importance accrue des interactions sociales avec les pairs à l’adolescence peut contribuer à l’émergence de comportements inadaptés analogues à l’âge adulte. L'amygdale basolatérale, constituant du système limbique, représente un autre élément crucial dans le développement du système de récompense, compte tenu de son implication dans la régulation des émotions, de la prise de décision et des comportements associés à la récompense. On suppose qu'il s'agit d'un régulateur essentiel de l'interaction sociale, où son activation des projections neuronales vers le cortex préfrontal (PFC) atténue l'engagement social. Le comportement social est un facteur supplémentaire qui influence le développement émotionnel et cognitif de l'adolescent, et les perturbations dans ce domaine peuvent se manifester par une altération des comportements à l'âge adulte.

Des preuves empiriques indiquent que la majorité du développement du système de récompense se produit pendant l'adolescence, en grande partie parce que cette période constitue une phase critique pour la maturation globale du cerveau. La trajectoire développementale du système de récompense de l'adolescent est influencée par plusieurs facteurs clés, notamment la réorganisation des circuits neuronaux, les différences spécifiques au sexe, la maturation de la voie mésocorticolimbique et l'engagement dans de nouvelles activités liées à la récompense. Collectivement, ces éléments mettent en évidence l'adolescence comme une période cruciale pour façonner les modèles de traitement des récompenses et les comportements associés, intrinsèquement liés au développement du système de récompense du cerveau.

Vouloir et aimer

La saillance incitative, souvent appelée « vouloir » ou « désir », représente un attribut motivationnel conféré à un stimulus gratifiant par la coquille du noyau accumbens (coquille NAcc). L'étendue de la neurotransmission dopaminergique de la voie mésolimbique vers la coquille NAcc présente une forte corrélation avec l'intensité de la saillance incitative attribuée aux stimuli gratifiants.

L'activation de la région accumbens du noyau dorsorostral est en corrélation avec une augmentation du « désir » sans augmentation concomitante du « goût ». Néanmoins, la neurotransmission dopaminergique au sein de la coquille du noyau accumbens médie non seulement la saillance motivationnelle appétitive (c'est-à-dire la saillance incitative) vers des stimuli gratifiants, mais également la saillance motivationnelle aversive, qui éloigne le comportement des stimuli indésirables. Dans le striatum dorsal, l'activation des neurones épineux moyens (MSN) exprimant D1 génère une saillance incitative appétitive, tandis que l'activation des MSN exprimant D2 suscite de l'aversion. À l’inverse, dans le NAcc, cette dichotomie est moins nette ; L'activation des MSN D1 et D2 suffit à augmenter la motivation, probablement en désinhibant l'aire tegmentale ventrale (VTA) grâce à l'inhibition du pallidum ventral.

La théorie de la sensibilisation-incitation de 1993, développée par Terry Robinson et Kent Berridge, postule que la récompense comprend des composantes psychologiques distinctes : vouloir (incitation) et aimer (plaisir). Cette théorie explique l'engagement accru envers des stimuli spécifiques, tels que le chocolat, en identifiant deux facteurs indépendants : le désir d'acquérir le stimulus (vouloir) et l'impact hédonique qui en découle (aimer). Robinson et Berridge ont initialement proposé que vouloir et aimer représentent les facettes d'un processus unifié, conduisant à des récompenses généralement désirées et appréciées simultanément. Néanmoins, ces composants peuvent diverger et changer indépendamment dans des conditions spécifiques. Par exemple, les rats auxquels on a administré de la dopamine peuvent présenter une diminution du désir de nourriture, conduisant à un arrêt de la nourriture, mais leur comportement suggère une préférence persistante pour la nourriture. De même, l’activation des électrodes d’autostimulation dans l’hypothalamus latéral des rats augmente l’appétit mais provoque simultanément des réponses plus aversives aux goûts comme le sucre et le sel, ce qui indique que cette stimulation augmente le désir sans augmenter le goût. Ces résultats démontrent collectivement que le système de récompense chez les rats intègre des processus indépendants de vouloir et d’aimer. On suppose que la composante désireuse est régulée par les voies dopaminergiques, tandis que la composante appréciation serait contrôlée par les systèmes opiacés-GABA-endocannabinoïdes.

Le système anti-récompense

Koob et Le Moal ont postulé l'existence d'un circuit neuronal distinct, qu'ils ont nommé circuit anti-récompense, responsable de l'atténuation des comportements visant à rechercher des récompenses. Ce circuit fonctionne comme un mécanisme inhibiteur du système de récompense, empêchant ainsi un engagement excessif dans des comportements tels que la surconsommation de nourriture ou une activité sexuelle compulsive. Les structures clés de ce circuit comprennent diverses régions de l'amygdale, en particulier le noyau du lit de la strie terminale et le noyau central, ainsi que le noyau Accumbens, ainsi que des molécules de signalisation telles que la noradrénaline, le facteur de libération de corticotropine et la dynorphine. De plus, on suppose que ce circuit médiatise les aspects aversifs du stress et est par conséquent impliqué dans les processus de dépendance et de sevrage. Bien que le circuit de récompense assure le renforcement positif initial crucial pour le développement de la dépendance, le circuit anti-récompense prédomine ensuite par le biais du renforcement négatif, qui motive ensuite la poursuite continue de stimuli gratifiants.

Mécanismes d'apprentissage

Les stimuli enrichissants sont capables de stimuler l'apprentissage à la fois par le biais du conditionnement classique (pavlovien) et du conditionnement opérant (instrumental). Dans le conditionnement classique, une récompense fonctionne comme un stimulus inconditionné qui, lors de son association avec un stimulus conditionné, incite le stimulus conditionné à susciter à la fois des réponses musculo-squelettiques (se manifestant par des comportements d'approche et d'évitement de base) et des réponses végétatives. Dans le conditionnement opérant, une récompense sert de renforçateur, augmentant ou soutenant ainsi les actions qui aboutissent à son obtention. Les comportements acquis peuvent présenter divers degrés de sensibilité à la valeur des résultats qui en résultent ; les comportements sensibles à la fois à la contingence d'un résultat sur la performance d'une action et à la valeur du résultat sont classés comme dirigés vers un objectif, tandis que les actions suscitées indépendamment de la contingence ou de la valeur sont appelées habitudes. On pense que cette différenciation reflète deux formes distinctes d’apprentissage : sans modèle et basé sur un modèle. L'apprentissage sans modèle implique la mise en cache et la mise à jour simples des estimations de valeur. À l’inverse, l’apprentissage basé sur des modèles implique le stockage et la construction d’une représentation interne des événements, permettant un raisonnement inférentiel et une prédiction flexible. Alors que le conditionnement pavlovien est généralement présumé être sans modèle, l'importance de l'incitation attribuée à un stimulus conditionné démontre une flexibilité en réponse aux modifications des états de motivation internes.

Des systèmes neuronaux distincts sont chargés d'établir des associations entre les stimuli et les résultats, les actions et les résultats, et les stimuli et les réponses. Bien que le conditionnement classique ne se limite pas exclusivement au système de récompense, le noyau accumbens est essentiel à l'amélioration de la performance instrumentale par des stimuli, un phénomène connu sous le nom de transfert pavlovien-instrumental. L'apprentissage instrumental habituel et orienté vers un objectif dépend respectivement du striatum latéral et du striatum médial.

Au cours de l'apprentissage instrumental, des changements opposés dans le rapport entre les récepteurs AMPA et NMDA et l'ERK phosphorylé se produisent dans les MSN de type D₁ et D₂, qui constituent respectivement les voies directes et indirectes. Ces altérations de la plasticité synaptique et l'apprentissage associé dépendent de l'activation des récepteurs striataux D1 et NMDA. La cascade intracellulaire initiée par les récepteurs D1 implique le recrutement de la protéine kinase A et, par la phosphorylation ultérieure de DARPP-32, l'inhibition des phosphatases qui désactivent ERK. Les récepteurs NMDA activent ERK via une voie Ras-Raf-MEK-ERK distincte mais interdépendante. L'activation de l'ERK médiée par le NMDA est à elle seule autolimitante, car l'activation du NMDA inhibe simultanément la suppression des phosphatases désactivant l'ERK médiée par la PKA. Cependant, lorsque les cascades D1 et NMDA sont co-activées, elles présentent des effets synergiques et l'activation de l'ERK qui en résulte module la plasticité synaptique, se manifestant par une restructuration de la colonne vertébrale, le trafic des récepteurs AMPA, la régulation du CREB et une excitabilité cellulaire accrue via l'inhibition de Kv4.2.

Troubles

Dépendance

La surexpression de ΔFosB (DeltaFosB), un facteur de transcription génique, dans les neurones épineux moyens de type D1 du noyau accumbens représente un déterminant commun critique dans presque toutes les formes de dépendance (c'est-à-dire les dépendances comportementales et toxicomanes), qui précipite les comportements associés à la dépendance et la plasticité neuronale. Plus précisément, ΔFosB facilite les phénomènes d’auto-administration, de sensibilisation aux récompenses et de sensibilisation croisée relatifs à des substances et activités addictives particulières. De plus, des altérations épigénétiques spécifiques des queues de protéines des histones (c'est-à-dire des modifications des histones) dans des régions distinctes du cerveau sont reconnues comme étant essentielles aux fondements moléculaires des états de dépendance.

Les substances et les comportements caractérisés par leur potentiel de dépendance sont intrinsèquement gratifiants et renforçants (c'est-à-dire qu'ils sont addictifs), conséquence de leur impact sur la voie de récompense de la dopamine.

L'hypothalamus latéral et le faisceau médial du cerveau antérieur ont été les sites de récompense de stimulation cérébrale les plus étudiés, en particulier dans les recherches examinant les effets des médicaments sur la récompense de stimulation cérébrale. Le système dopaminergique mésolimbique, caractérisé par ses projections efférentes vers le noyau accumbens et ses afférences GABAergiques locales, est le système de neurotransmetteurs le plus clairement lié aux propriétés de dépendance des drogues. Les effets enrichissants de l’amphétamine et de la cocaïne se manifestent principalement au niveau des synapses dopaminergiques du noyau accumbens, s’étendant potentiellement au cortex préfrontal médial. De plus, les rats acquièrent un comportement de pression sur le levier pour les microinjections de cocaïne dans le cortex préfrontal médial, un mécanisme qui élève le renouvellement de la dopamine dans le noyau accumbens. L'infusion directe de nicotine dans le noyau accumbens augmente de la même manière la libération locale de dopamine, probablement par le biais d'un mécanisme présynaptique affectant les terminaisons dopaminergiques dans cette zone. Les récepteurs nicotiniques sont situés sur les corps cellulaires dopaminergiques et l'administration localisée de nicotine améliore le déclenchement des cellules dopaminergiques, un processus crucial pour la récompense nicotinique. À l’inverse, certains autres médicaments créant une dépendance peuvent réduire la production des neurones à épines moyennes, même en activant les projections dopaminergiques. En ce qui concerne les opiacés, les neurones GABAergiques de l'aire tegmentale ventrale représentent le site du seuil le plus bas pour les effets de récompense, servant de locus secondaire pour les actions de récompense induites par les opiacés sur les neurones à sortie épineuse moyenne du noyau accumbens. Par conséquent, les composants fondamentaux des circuits de récompense des médicaments actuellement caractérisés comprennent : les afférences GABAergiques aux neurones dopaminergiques mésolimbiques (le substrat principal de la récompense opiacée), les neurones dopaminergiques mésolimbiques eux-mêmes (le substrat principal de la récompense des stimulants psychomoteurs) et les efférents GABAergiques aux neurones dopaminergiques mésolimbiques (un site secondaire pour la récompense opiacée).

Motivation

Une importance motivationnelle aberrante se manifeste à travers divers symptômes et troubles psychiatriques. L'anhédonie, conventionnellement comprise comme une capacité diminuée de plaisir, a été reconceptualisée comme révélatrice d'une importance émoussée des incitations, étant donné que la plupart des individus anhédoniques conservent la capacité d'« aimer ». À l’inverse, une importance accrue des incitations, en particulier lorsqu’elles sont étroitement axées sur des stimuli spécifiques, est typique des dépendances comportementales et aux substances. Pour des conditions telles que la peur ou la paranoïa, le dysfonctionnement sous-jacent peut impliquer une saillance aversive élevée. La recherche contemporaine associe l'anhédonie à deux formes de plaisir proposées : "anticipative" et "consommatoire".

Les investigations par neuroimagerie dans diverses catégories diagnostiques associées à l'anhédonie indiquent systématiquement une diminution de l'activité au sein du cortex orbitofrontal (OFC) et du striatum ventral. De plus, une méta-analyse a révélé que l'anhédonie est en corrélation avec des réponses neuronales atténuées pour récompenser l'anticipation dans le noyau caudé, le putamen, le noyau accumbens et le cortex préfrontal médial (mPFC).

La maturation du système de récompense revêt une importance cruciale pendant l'adolescence, une période où les individus sont particulièrement sensibles à des comportements à risque accrus, à des troubles liés à la consommation de substances et à une dérégulation de l'humeur. Étant donné le rôle essentiel de la dopamine dans le traitement des récompenses, elle est impliquée dans le développement de comportements addictifs qui peuvent se manifester au cours de cette étape de développement. Des études ont démontré que les comportements à risque et l'anticipation de récompenses monétaires sont associés à une activité accrue dans le striatum ventral, une zone cruciale impliquée dans la formation des voies de récompense.

Troubles de l'humeur

Des formes spécifiques de dépression se caractérisent par une diminution de la motivation, quantifiée par la volonté de faire des efforts pour obtenir une récompense. Ces anomalies observées ont été provisoirement associées à une activité réduite dans les régions striatales. Bien que l'on suppose que les dysfonctionnements dopaminergiques y contribuent, la plupart des recherches sur le rôle de la dopamine dans la dépression ont donné des résultats peu concluants. Bien que les études post-mortem et de neuroimagerie aient identifié des anomalies dans plusieurs régions du système de récompense, peu de résultats ont permis une réplication cohérente. Certaines recherches indiquent une activité diminuée dans le noyau accumbens (NAcc), l'hippocampe, le cortex préfrontal médial (mPFC) et le cortex orbitofrontal (OFC), ainsi qu'une activité accrue dans l'amygdale basolatérale et le cortex cingulaire sous-génuel (sgACC) lors de tâches impliquant une récompense ou des stimuli positifs. Ces anomalies de neuroimagerie sont étayées par des investigations post-mortem limitées, qui suggèrent une réduction des synapses excitatrices au sein du mPFC. La diminution de l'activité du mPFC lors des tâches liées à la récompense est apparemment confinée aux zones plus dorsales, en particulier au cortex cingulaire prégénital, tandis que le sgACC, situé plus ventralement, présente une hyperactivité dans les états dépressifs.

Les enquêtes sur les circuits neuronaux sous-jacents à l'aide de modèles animaux ont également produit des résultats contradictoires. Deux paradigmes principaux, le stress de défaite sociale chronique (CSDS) et le stress chronique léger (CMS), sont fréquemment utilisés pour simuler la dépression, parmi plusieurs modèles disponibles. Le CSDS induit une préférence diminuée pour le saccharose, des interactions sociales réduites et une immobilité accrue lors du test de nage forcée. De même, le CMS diminue également la préférence pour le saccharose et le désespoir comportemental, évalués par des tests de suspension de la queue et de nage forcée. Les animaux vulnérables au CSDS démontrent une augmentation du tir phasique de la zone tegmentale ventrale (VTA). L'inhibition des projections VTA-NAcc atténue les déficits comportementaux induits par le CSDS ; cependant, l'inhibition des projections VTA-mPFC exacerbe le retrait social. À l’inverse, les réductions de la préférence pour le saccharose et de l’immobilité associées au CMS ont été atténuées par l’excitation du VTA et exacerbées par l’inhibition du VTA, respectivement. Bien que ces divergences puissent être attribuées à des variations dans les protocoles de stimulation ou à des limitations dans les paradigmes translationnels, la variabilité des résultats peut également provenir des propriétés fonctionnelles hétérogènes des régions cérébrales liées à la récompense.

La stimulation optogénétique du cortex préfrontal médial (mPFC) provoque globalement des effets antidépresseurs. Ce résultat thérapeutique semble limité à l'homologue du cortex cingulaire antérieur prégénuel (pgACC), en particulier le cortex prélimbique, étant donné que la stimulation de l'homologue du cortex cingulaire antérieur sous-génuel (sgACC), le cortex infralimbique, ne produit aucun résultat comportemental perceptible. De plus, la stimulation cérébrale profonde au sein du cortex infralimbique, censée exercer une influence inhibitrice, provoque de la même manière une réponse antidépressive. Cette découverte est cohérente avec l'observation selon laquelle l'inhibition pharmacologique du cortex infralimbique atténue les comportements dépressifs.

Schizophrénie

La schizophrénie se caractérise par des troubles de la motivation, souvent classés parmi d'autres symptômes négatifs tels qu'une diminution de la production verbale spontanée. L'expérience subjective du « goût » est généralement rapportée comme préservée, tant au niveau comportemental que neuronal, bien que les résultats puissent dépendre de stimuli spécifiques, tels que des récompenses monétaires. De plus, l’apprentissage implicite et les tâches simples liées à la récompense restent également intacts dans la schizophrénie. Au lieu de cela, les déficiences du système de récompense deviennent évidentes lors de tâches liées à la récompense qui nécessitent un traitement cognitif plus élevé. Ces déficits sont liés à une activité aberrante du striatum et du cortex orbitofrontal (OFC), ainsi qu'à des dysfonctionnements dans des zones impliquées dans les fonctions cognitives, comme le cortex préfrontal dorsolatéral (DLPFC).

Trouble d'hyperactivité avec déficit de l'attention

Chez les personnes atteintes de TDAH, les composants essentiels du système de récompense sont sous-actifs, ce qui rend difficile la gratification des activités de routine. Les personnes atteintes de ce trouble connaissent un regain de motivation suite à des comportements de forte stimulation qui déclenchent une libération de dopamine. Suite à ce regain de motivation et à la récompense associée, un retour aux niveaux de base précipite un déclin immédiat de la motivation.

Les individus présentant une plus grande prévalence de comportements liés au TDAH démontrent des réponses neuronales atténuées à l'anticipation d'une récompense, plutôt qu'à sa délivrance, en particulier au sein du noyau accumbens. Bien qu'une impulsion motivationnelle initiale et une poussée de dopamine puissent survenir, il existe une propension élevée à une réduction prononcée de la motivation.

Les déficiences des fonctions dopaminergiques et sérotoninergiques sont considérées comme des facteurs essentiels du TDAH. Ces dysfonctionnements peuvent entraîner des déficits exécutifs, tels qu'une dérégulation du traitement des récompenses, et des troubles de la motivation, notamment l'anhédonie.

Historique

La première indication d'un système de récompense basé sur le cerveau est née d'une découverte accidentelle par James Olds et Peter Milner en 1954. Ils ont observé que les rats adoptaient des comportements, comme appuyer sur une barre, pour s'auto-administrer de brèves rafales de stimulation électrique à des sites cérébraux spécifiques. Ce phénomène est appelé autostimulation intracrânienne ou récompense de stimulation cérébrale. Généralement, les rats appuient sur un levier des centaines ou des milliers de fois par heure pour obtenir cette stimulation cérébrale, qui ne cesse qu’en raison de l’épuisement. Lors des tentatives visant à enseigner aux rats la résolution de problèmes et la navigation dans des labyrinthes, la stimulation de certaines régions du cerveau semblait induire du plaisir chez les animaux. Des résultats similaires ont été rapportés lorsque cette approche a été appliquée aux humains. L'explication sous-jacente pour laquelle les animaux adoptent des comportements dépourvus de valeur de survie pour eux-mêmes ou pour leur espèce est que la stimulation cérébrale active le système neuronal responsable de la récompense.

Une découverte fondamentale en 1954 par les chercheurs James Olds et Peter Milner a révélé que la stimulation électrique basse tension de régions spécifiques du cerveau d'un rat fonctionnait comme une récompense, facilitant l'apprentissage des animaux à naviguer dans des labyrinthes et à résoudre des problèmes. Cette stimulation de zones cérébrales particulières semblait susciter du plaisir chez les animaux, et des recherches ultérieures ont indiqué que les humains rapportaient également des sensations agréables résultant d'une telle stimulation. Lorsque les rats étaient placés dans des boîtes Skinner, où ils pouvaient activer le système de récompense en appuyant sur un levier, ils appuyaient pendant de longues périodes. Les recherches menées au cours des deux décennies suivantes ont établi que la dopamine était un neurochimique principal facilitant la signalisation neuronale dans ces régions, ce qui lui a valu la désignation de « produit chimique du plaisir » du cerveau.

Plus récemment, en 2018, Ivan De Araujo et ses collègues ont démontré la stimulation du système de récompense via le nerf vague en utilisant des nutriments présents dans l'intestin.

Histoire antérieure

Ivan Pavlov, un psychologue, a utilisé le système de récompense pour étudier le conditionnement classique à la fin du XIXe siècle. La méthodologie de Pavlov impliquait de conditionner les chiens en leur fournissant systématiquement de la nourriture, une récompense, après avoir perçu une cloche ou un autre stimulus spécifique, établissant ainsi une association entre la nourriture et le stimulus. Parallèlement, Edward Thorndike a utilisé le système de récompense dans ses études sur le conditionnement opérant. Il a lancé des expériences en plaçant des chats dans des boîtes de puzzle, avec de la nourriture placée à l'extérieur pour les inciter à s'échapper. Les chats ont travaillé activement pour sortir de la boîte à puzzle et accéder à la nourriture. Bien que les chats aient consommé la nourriture en s'échappant, Thorndike a observé qu'ils tenteraient de s'échapper de la boîte même sans la récompense immédiate de la nourriture. Thorndike a exploité les récompenses de la nourriture et de la liberté pour activer le système de récompense des chats, examinant ainsi leur processus d'apprentissage pour s'échapper de l'enclos.

Autres espèces

Les animaux apprennent rapidement à appuyer sur une barre pour obtenir des injections directes d'opiacés dans le tegmentum du mésencéphale ou le noyau accumbens. Cependant, ces mêmes animaux ne fonctionneront pas pour obtenir des opiacés si les neurones dopaminergiques de la voie mésolimbique sont inactivés. De ce point de vue, les animaux, tout comme les humains, adoptent des comportements qui améliorent la libération de dopamine.

Kent Berridge, un éminent chercheur en neurosciences affectives, a observé que les goûts sucrés (aimés) et amers (détestés) provoquaient des expressions orofaciales distinctes, qui étaient systématiquement manifestées par les nouveau-nés humains, les orangs-outans et les rats. Cette observation a fourni un soutien empirique à l'idée selon laquelle le plaisir, en particulier aimer, possède des caractéristiques objectives et est fondamentalement conservé dans diverses espèces animales. Alors que de nombreuses recherches en neurosciences ont indiqué une corrélation directe entre la quantité de dopamine libérée par une récompense et son efficacité perçue, appelée impact hédonique, qui peut être modulée par l'effort dépensé pour la récompense et les propriétés intrinsèques de la récompense, les recherches de Berridge ont révélé une divergence significative. Il a découvert que l’inhibition des systèmes dopaminergiques ne semblait pas modifier la réponse positive aux stimuli sucrés, comme l’évaluaient les expressions faciales. Cela suggère que l'impact hédonique reste indépendant de la quantité de sucre, remettant ainsi en question l'hypothèse dominante selon laquelle la dopamine est uniquement médiatrice du plaisir, même en présence de modifications dopaminergiques plus substantielles. Néanmoins, une enquête clinique menée en janvier 2019, qui a évalué l'influence d'un précurseur de la dopamine (lévodopa), d'un antagoniste (rispéridone) et d'un placebo sur les réponses de récompense musicale - englobant l'intensité du plaisir pendant les frissons musicaux, quantifiée via des changements d'activité électrodermique et des évaluations subjectives - a conclu que la modulation de la neurotransmission dopaminergique régule de manière bidirectionnelle la cognition du plaisir, en particulier l'impact hédonique de la musique, chez les participants humains. Cette étude a souligné qu'une neurotransmission accrue de la dopamine constitue une condition sine qua non pour ressentir des réponses hédoniques agréables à la musique chez les humains.

Berridge a ensuite formulé l'hypothèse de la saillance des incitations pour élucider la dimension volontaire des récompenses. Cette hypothèse rend compte de la consommation compulsive de drogues observée chez les individus toxicomanes, même lorsque la substance ne provoque plus d'euphorie, et explique les envies persistantes ressenties après le sevrage. Certaines personnes dépendantes présentent des réponses accrues à des stimuli spécifiques, un phénomène lié aux altérations neuronales induites par la drogue. Cette sensibilisation cérébrale reflète les effets de la dopamine, dans la mesure où les réponses vouloir et aimer sont impliquées. Compte tenu de la nature omniprésente des systèmes de récompense, des altérations analogues des fonctions cérébrales et du comportement sont observées chez les sujets humains et animaux.

Références

Jeune, Jared W. ; Anticevic, Alan; Barch, Deanna M. (2018). "Neurscience cognitive et motivationnelle des troubles psychotiques." Dans Charney, Dennis S. ; Sklar, Pamela ; Buxbaum, Joseph D. ; Nestler, Eric J. (éd.). Charney & Neurobiologie de la maladie mentale de Nestler (5e éd.). New York : Presses universitaires d'Oxford. ISBN 978-0-19-068142-5.
- Récompense Scholarpedia
- Signaux de récompense Scholarpedia

Système de récompense (Reward system)