Дофаминовые нейроны «знают» о будущих вознаграждениях, а не только о прошлых

Исследователи из Центра Шампалимо, Португалия показали, что дофаминовые нейроны мозга не просто сигнализируют о награде, а формируют динамическую карту возможных будущих исходов, когда и насколько велика может быть награда. Это открытие меняет представления о принятии решений и может вдохновить новые подходы в искусственном интеллекте.
Владимир Губайловский
Владимир Губайловский
Дофаминовые нейроны «знают» о будущих вознаграждениях, а не только о прошлых
Трудная победа и высокая награда. https://www.vecteezy.com/
Дофамин — ключевой нейромедиатор, участвующий в обучении через вознаграждение и формировании ожиданий. Он помогает мозгу предсказывать и оценивать будущие события, корректируя поведение на основе опыта и вероятности получения награды.

Долгое время считалось, что дофаминовые нейроны работают по принципу «среднего ожидания»: сигнализируют о разнице между ожидаемой и полученной наградой, помогая учиться на ошибках. Однако новая работа команды из Центра Шампалимо, доказывает, что все гораздо сложнее. Дофаминовые нейроны кодируют не только среднее значение, но и всю палитру возможных будущих наград — их время наступления и величину. Работа опубликована в журнале Nature.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

В эксперименте мышам предъявляли запаховые сигналы, предсказывающие разные по размеру и задержке награды. Анализ активности десятков дофаминовых нейронов показал: одни из них «нетерпеливы» и ценят быстрые награды, другие — «осторожны» и реагируют на отдаленные или меньшие по вероятности поощрения. Некоторые нейроны склонны к «оптимизму», другие — к «пессимизму», формируя коллективную карту будущих возможностей.

Главные дофаминовые пути в мозге.
Главные дофаминовые пути в мозге.
Википедия
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Джо Пэйтон, руководитель лаборатории, отмечает: «Когда мы посмотрели на всю популяцию, стало ясно: эти нейроны кодируют вероятностную карту — не просто вероятность награды, а координатную систему, где отражены время и размер награды».

Дофамин для ИИ

Такая система напоминает современные алгоритмы машинного обучения, где для принятия решений используются не средние значения, а распределения вероятностей. Это позволяет мозгу гибко адаптироваться к изменяющимся условиям, быстро менять стратегию в зависимости от ситуации и внутренних потребностей.

Основные цепи базальных ганглиев. Дофаминергический путь от substantia nigra pars compacta к стриатуму показан светло-голубым цветом.
Основные цепи базальных ганглиев. Дофаминергический путь от substantia nigra pars compacta к стриатуму показан светло-голубым цветом.
Википедия
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

По словам Дэниэла Макнами, соавтора работы, «нейроны работают как команда советников с разными профилями риска. Одни подталкивают к действию — "бери награду сейчас", другие советуют подождать. Такое разнообразие может быть ключом к принятию решений в непредсказуемом мире».

Это исследование не только объясняет индивидуальные различия в импульсивности поведения, но и открывает путь к созданию более «человечных» алгоритмов искусственного интеллекта. Система, способная учитывать всю гамму возможных исходов, а не только среднее, может лучше адаптироваться к сложным и меняющимся условиям, как это делает мозг человека.

Ученые отмечают, что дофаминовые нейроны — это не просто датчики ошибок, а архитекторы сложных карт будущего, позволяющие нам выбирать между быстрым удовлетворением и долгосрочной выгодой.