17.03.2024, 12:13

Мозг умеет ждать награду и предсказывать время ее получения

Многие нейробиологические исследования показывают, что кратковременное повышение уровня дофамина в мозгу является важнейшим сигналом для вознаграждения и создает мотивацию для получения еще большего вознаграждения. Нейробиологи из Калифорнийского университета в Сан-Франциско показали, как мозг «предсказывает» уровень вознаграждения и оценивает время его получения.

Владимир Губайловский

Теги:

Мозг

Наука

Нейробиология

Мозг умеет ждать награду и предсказывать время ее получения

Полосатое тело (стриатум). Википедия

Дофамин — это нейромедиатор, который вознаграждает мозг за удачное решение. Но награда может поступить не сразу — иногда через секунду, иногда через несколько минут, и ожидание награды для мозга не менее важно, чем она сама.

Предыдущие нейробиологические исследования показывают, что кратковременное повышение уровня дофамина в мозгу является важнейшим сигналом для вознаграждения мозга и создания мотивации к получению еще большего вознаграждения. Нейробиологи Калифорнийского университета в Сан-Франциско исследовали повышение уровня дофамина в определенных субрегионах полосатого тела (стриатума) — зоны мозга, которая отвечает за обучение и принятие решений, основанных на вознаграждении.

Ученые показали, что временные колебания дофамина в трех разных частях полосатого тела отражают прогнозы поступления вознаграждения: это может происходить через разные промежутки времени (доли секунды, десятки секунд, сотни секунд, а, возможно, и дольше).

«Выход дофамина показывает, что мы оказались в лучшей ситуации, чем ожидали, и поэтому наши предыдущие оценки вознаграждения необходимо обновить», — говорит Джош Берке, ведущий автор статьи. «Эта теория "ошибки прогнозирования вознаграждения" оказала большое влияние на нейробиологию, отчасти потому, что она связывает модели активности мозга с определенными вычислениями в машинном обучении с подкреплением, но есть несколько аспектов этой теории, которые пока недостаточно прояснены».

Светящийся дофамин

«Первоначально считалось, что сигналы дофамина передаются равномерно по всему переднему мозгу, но более поздние исследования обнаружили разные сигналы дофамина в разных зонах мозга», — говорит Берке. «Означает ли это, что нам нужно много разных теорий, чтобы объяснить эти разные сигналы дофамина?»

Чтобы подробнее разовраться в теории ошибки предсказания вознаграждения, Берке и его коллеги провели эксперименты на крысах, используя недавно разработанный молекулярный сенсор. В этом сенсоре используется генно-инженерный белок, который меняет свою флуоресценцию при связывании с дофамином.

«Мы разместили этот датчик в трех различных областях полосатого тела крысы — области мозга, которая получает наибольшее количество дофамина», — объяснил Берке. «Эти субрегионы являются частью разных крупномасштабных контуров мозга, которые обрабатывают разные типы информации».

Исследователи изучили колебания дофамина, определяемые их молекулярным сенсором, когда крысы выполняли разные поведенческие задачи. Крысы получали награды с разной скоростью и слышали сигналы, указывающие на предстоящие награды с разной задержкой и вероятностью.

Долгожданный дофамин

Ученые обнаружили, что колебания дофамина в разных субрегионах полосатого тела отражают разные временные рамки ожидания вознаграждения.

«В одной области, которая больше всего связана с контролем моторики, дофамин часто колеблется, и реакция на сигнал, предсказывающий вознаграждение, сильна только в том случае, если он предсказывает доставку вознаграждения в течение доли секунды», — сказал Берке. «Вторая область полосатого тела, по-видимому, заботится о вознаграждении в течение десятков секунд, а третья — в течение сотен секунд».

«Например, при пении между движением наших голосовых связок и восприятием приятного (или иного) результата проходит очень мало времени», — сказал Берке. «Для эффективного обучения эта обратная связь должна быть быстрой. Однако иногда мы делаем выбор и не узнаем результатов в течение значительного времени. Нам нужны механизмы мозга, чтобы преодолеть этот временной разрыв и определить, был ли выбор удачным».

Исследование объясняет и некоторые процессы, лежащие в основе принятия решений.

«Часто мы принимаем решения о том, как действовать в долгосрочной перспективе (например, похудеть), но, сталкиваясь с немедленным выбором, мы нарушаем данное себе обещание», — объяснил Берке. «Это несоответствие уже давно изучается и считается "иррациональным". Однако возможно, что это является неизбежным следствием параллельной работы нескольких подсистем принятия решений, каждая из которых связана с разной глубиной будущего и разными сроками ожидания вознаграждения. По мере приближения потенциальных результатов в работу вовлекается все больше подсистем, которые стремятся к краткосрочным вознаграждениям. Этому трудно противостоять».

Берке и его коллеги планируют использовать свои результаты для проведения дальнейших экспериментов по изучению сигналов дофамина и их взаимодействия с другими нейронными цепями.

Берке говорит: «Сейчас мы изучаем, как сигналы дофамина взаимодействуют с другими нейронными цепями, чтобы выяснить, как эти схемы работают, и почему они выходят из строя при различных зависимостях, болезни Паркинсона и синдроме Туретта».