Перенос выключателя без штробления: Как перенести выключатель света без штробления стен / Амперка

Содержание

Как перенести выключатель света без штробления стен / Амперка

Рано или поздно у всех возникает необходимость перенести выключатель света в квартире. Например, новая мебель может перекрывать доступ к управлению светом, или наоборот, выключатель мешает поставить шкаф ближе к стене. А в семье с маленькими детьми лучше перенести выключатель ниже, чтобы ребенок мог сам регулировать освещение. Рассмотрим пару способов решения этих бытовых проблем без шума и пыли.

Способ №1: Установка беспроводного выключателя

В этом случае вам совершенно не нужно заморачиваться с прокладкой новой проводки, штроблением стен и поиском подходящего инструмента. Достаточно лишь обзавестись базовым комплектом из беспроводного выключателя света и пульта дистанционного управления — узнайте про них подробнее на примере системы nooLite.

За счёт беспроводных решений схема действий заметно упрощается:

  1. Коммутировать нагрузку — то есть, комнатное освещение — будет беспроводной выключатель nooLite.
    Этот миниатюрный силовой блок можно установить прямо в стакан люстры, за подвесным потолком, в подрозетник или на место старого выключателя в стене.
  2. В качестве дистанционного управления используем пульт nooLite, который работает в паре с силовым блоком и передаёт ему команды включения-выключения. Эти модули можно крепить на любой поверхности двухсторонним скотчем без необходимости сверлить стену, а радиус действия достигает 50 метров. Нажали на кнопку — и мгновенно получили результат в другом конце комнаты или коридора.
  3. Осталось только установить заглушку на место старого выключателя — и вуаля, всё готово!

Способ №2: Перенос существующего выключателя

Хорошо, с самым читерским способом мы разобрались. А теперь задача усложняется: как быть, если очень хочется сохранить клавишный выключатель, который вы так бережно подбирали под дизайн своей комнаты? Ведь он не способен работать без проводов, а прокладывать их по стенам совсем не входит в наши планы…

Выход есть, и на помощь снова приходят беспроводные модули nooLite. Среди них есть модели, которые придуманы специально для установки под существующий клавишный выключатель. Таким образом, ваш любимый выключатель приобретает способности радиопульта и может передавать команды на дистанционный силовой блок. Ну а дальше — дело техники!

  1. Аккуратно демонтируем привычный выключатель.
  2. Выбираем новое место установки и долбим там подходящее отверстие (увы, без этого не обойтись).
  3. Ставим выключатель на новое место и подключаем к нему соответствующий встраиваемый радиопульт nooLite.
  4. Ставим беспроводной выключатель nooLite для освещения аналогично предыдущему разделу.
  5. Убираем следы работ и делаем заглушку на старом месте.

За и против

Итак, мы рассмотрели наиболее частые случаи, когда нужно перенести выключатель света в другое место и прибегнуть к дистанционному управлению. А теперь взвесим все за и против — стоит ли эта игра свеч?

Плюсы

  • Предельно лёгкий и быстрый монтаж без лишнего шума и пыли.
  • Сохраняется эстетический вид помещения вплоть до дизайнерских штучек.
  • Возможность повторно переставить выключатель при перепланировке.
  • Дополнительные фишки: плавная регулировка яркости света, выключение по таймеру, пользовательские сценарии и т. д.

Минусы

  • Требует однократного вложения средств в оборудование.
  • Необходимость менять батарейку в пульте раз в 3-5 лет.
  • Дальность переноса ограничена радиусом действия радиоканала (порядка 25-50 м).

Заключение

Как видно, современный способ управления светом через дистанционные выключатели элегантно решает проблему переноса и дарит дополнительные функции управления с диммированием и сценариями. Если у вас красивый ремонт со скрытой проводкой, то беспроводные выключатели — оптимальное решение, ведь штробление испортит отделку и распугает соседей, а открытая проводка вряд ли впишется в дизайн квартиры. В конце концов, чтобы не напортачить с перфоратором — лучше не тратиться на инструмент и насадки, а договориться с жабой и взять беспроводные выключатели.

Полезные ссылки

Лучший способ перенести выключатель: обойдемся без перфоратора

Случаются ситуации, когда жильцы квартиры или частного дома хотят перенести выключатель освещения на другое место, но чистовой ремонт был окончен.

В таком случае нужно обойтись минимальными разрушениями, без штробления стен.

Сделать это возможно двумя способами о которых и пойдет речь.

Это первый способ, который быстрее всего придет на ум. Смысл заключается том, что до нового выключателя от старой точки кабель будет проходить по поверхности стены. Существует три варианта обустройства наружной проводки.

Через кабель канал

Кабель-канал представляет собой профиль из ПВХ, который имеет квадратное или прямоугольное сечение. Для его закрепления на стене, нужно снять крышку, прикрепить П-образное основание к поверхности с помощью саморезов или дюбелей.

Далее внутри него прокладываются провода, крышка закрывается.

Важно! Если кажется, что кабель-канал только ухудшит внешний вид комнаты, можно подобрать наиболее оптимальный вариант в плане визуального оформления. Короба для проводки изготавливаются в разных оттенках, могут имитировать дерево, камень.

Декоративные провода

Их второе название – ретро провода. По внешнему виду они похожи на веревку, переплетенную бечевку. Существует различные цветовые варианты.

Перед их закреплением поверх стен, нужно установить керамические изоляторы, к которым прикрепляются провода.

ПВХ гофра и электротехническая труба

Способ похож на установку кабель канала. Однако, он лучше всего подойдет для наружной проводки по фасадам зданий, в коридорах, на лестничных площадках.

В жилых комнатах электротехнические трубы будут смотреться неуместно.

Современный способ управления освещением – с помощью дистанционного выключателя. Его преимущества:

  1. Не нужно штробление стен.
  2. Можно установить в любой точке квартиры.
  3. Нет необходимости монтировать внешние короба.
  4. Простая установка.

На сегодняшний день в продаже можно найти различные системы для управления освещением на дистанции. Контроль осуществляется с помощью пульта. Единственный недостаток такого решения – высокая цена по сравнению с наружной проводкой.

Чтобы установить дистанционную систему, изначально необходимо замкнуть старый выключатель. Для этого можно включить клавишу или соединить провода.

На том месте, где будет установлен светильник, нужно закрепить миниатюрный блок управления. Он помещается в основание любой современной люстры. Далее программируется пульт управления или дистанционный выключатель. Клавишный переключатель нужно закрепить на стене на двухсторонний скотч. После этого можно начинать пользоваться системой.

Выбор способа по переносу выключателя без штробления зависит от личных пожеланий, финансовых возможностей.


Современные системы дистанционного отключения избавят от проблем монтажа наружных коробов, но стоят они гораздо дороже.

Перенос выключателей без штробления и электрика

Выключатель в неудобном месте?

Знакомая ситуация!

Вы хотите сделать перестановку, но расположение выключателей ограничивает вашу фантазию. Или после дорогостоящего ремонта вы обнаружили, что электрики установили выключатели в неподходящих местах. Нужно снова штробить стены, глотать пыль, переклеивать обои…

А почему в комнате только один выключатель? Как было бы здорово, например, включить свет при входе в спальню, а выключить его, уже лежа в постели. Или, сделав приглушенный свет в детской, оставить ребенка засыпать, а полностью выключить освещение уже из другой комнаты.

Есть отличное решение система радиоуправления освещением nooLite!

Вы уже слышали про «Умный дом«, но думаете, что это слишком сложно и дорого? Невысокая цена системы nooLite, простота установки и использования, возможность поэтапного наращивания убедят вас в обратном. А для продвинутых пользователей предусмотрена возможность управления системой с компьютера, планшета,мобильного телефона.

Установить (без электропроводки, пыли и шума!) и запрограммировать nooLite легко — достаточно следовать подробной инструкции. Так же просто система nooLite демонтируется, и, например при переезде, ее без проблем и труда можно забрать с собой.

Комплекты:
Набор Перенос выключателя (SU-200, PB-211) белый
Набор №1-1 nooLite (SU111-200, PU-212) белый
Набор Проходной выключатель (SU-200, 2x PB-211) белый

Радиовыключатели:
Пульт-радиопередатчик nooLite PK314
Выключатель радиоуправляемый nooLite SB111-150
Пульт-радиопередатчик nooLite PU-311 белый
Пульт-радиопередатчик nooLite PU-212 белый
Пульт-радиопередатчик nooLite PB-411 белый
Пульт-радиопередатчик nooLite PB-211 белый
Пульт-брелок nooLite PN311

Силовые блоки:
Выключатель радиоуправляемый nooLite SU111-200
Выключатель радиоуправляемый nooLite SU111-300
Выключатель радиоуправляемый nooLite SU111-500
Выключатель радиоуправляемый SR211-2k0

Подпишитесь на Nintendo Life на YouTube

Системные переносы уже давно стали делом теперь для консолей Nintendo. Прошли те времена, когда все ваши милые габбины хранились на игровом картридже или (ах!) Карте памяти. Теперь, когда вы получаете новую версию консоли — будь обычным Switch , удобным Switch Lite или Switch OLED-моделью — вам нужно перенести все эти данные из вашей старой системы в новую. .

К счастью, перенести все с одного коммутатора на другой относительно легко, и чтобы доказать этот факт, мы расскажем вам, как в статье вы везунчики, счастливчики.

В этом руководстве по переносу системы коммутатора мы проведем вас через все шаги по переносу всех ваших данных на новый коммутатор OLED, Switch Lite или обычный коммутатор с другой консоли коммутатора.

Хотите перенести свой остров Animal Crossing: New Horizons на новый коммутатор? Вы также захотите ознакомиться с нашим руководством по этой теме:

На этой странице:

  1. Руководство по переносу системы Nintendo Switch — переход на коммутатор OLED, Switch Lite или стандартный Switch
  2. Где все мои игры?
  3. Часто задаваемые вопросы

Руководство по переносу системы Nintendo Switch — переключение на коммутатор OLED, Switch Lite или стандартный коммутатор

Приведенные ниже инструкции должны работать для передачи данных между любыми двумя системами коммутатора, будь то обычный коммутатор на OLED-модель коммутатора, коммутатор Lite на обычный коммутатор или любая комбинация трех доступных моделей коммутаторов.

Изображение: Nintendo Life

Начало работы

Первое, что вам нужно сделать, это убедиться, что и ваша новая, и старая консоль полностью настроены. Вы можете выполнить перенос системы при настройке новой консоли, но это немного проще сделать после того, как вы введете информацию о Wi-Fi и все эти полезные вещи. Пока вы видите главный экран и у вас есть активное подключение к Интернету, вы готовы к переключению между системами Switch.

В отличие от 3DS, Switch не требует каких-либо инструментов для завершения передачи, все это выполняется программно и представляет собой гораздо более простой процесс, так что давайте углубимся в детали.

Фактический бит передачи системы

  • Подключите официальный адаптер переменного тока Nintendo Switch к каждой из двух систем.
  • Выберите Системные настройки из главного меню на обеих консолях , на что указывает шестеренка в нижнем ряду круглых значков.
  • Прокрутите вниз по на обеих консолях и выберите Пользователь в меню в левой части экрана.
  • Выберите Перенести пользователя и сохранить данные на обеих консолях в правой части экрана.
  • Прочтите информацию на экране и выберите Next в обеих системах.
  • Еще раз прочтите информацию на этом экране и выберите Next в обеих системах.
  • Если у вас активирован родительский контроль в любой из систем, введите требуемый PIN-код. Если вы не знаете PIN-код, проконсультируйтесь с лицом, установившим родительский контроль.
  • Если вам будет предложено вставить блок питания в одну или обе консоли, убедитесь, что адаптеры переменного тока правильно подключены.
  • Теперь вы увидите экран с просьбой выбрать, какое устройство будет исходной консолью, а какое — целевой.
  • На вашей старой системе с профилями пользователей, которые вы хотите передать, выберите Source Console .
  • В новой системе выберите Target Console .
  • Ваша старая система спросит вас, какой профиль пользователя вы хотите перенести. Выберите значок профиля пользователя, который вы хотите отправить в новую систему .
  • Ваша новая система попросит вас войти в учетную запись Nintendo, связанную с профилем пользователя, который вы хотите передать. Выберите Войти , а затем выберите метод, который вы использовали для первоначального создания учетной записи, обычно это Вход с использованием адреса электронной почты или идентификатора входа . введите адрес электронной почты и пароль, которые вы выбрали при настройке профиля пользователя, который вы выбрали на своей старой консоли, затем выберите Войти .
  • Если вы успешно вошли в систему, теперь вы увидите значок профиля пользователя, который вы хотите перенести на обе консоли , а также текст, который будет различать их.
  • Выберите Продолжить на старой консоли .
  • Выберите Next на новой консоли .
  • Обе консоли теперь будут пытаться обнаружить друг друга, что не должно занимать больше 10 секунд. Убедитесь, что консоли расположены близко друг к другу, чтобы обеспечить быстрое обнаружение.
  • После того, как обе системы обнаружили друг друга, выберите Перенести на своей старой консоли .
  • Теперь системы начнут обмен данными, который может занять до или более 30 минут в зависимости от объема имеющихся у вас сохраненных данных. Убедитесь, что и обе консоли подключены к официальному источнику питания на время этой передачи.
  • После завершения передачи ваша старая система сообщит вам, что ваш профиль пользователя был успешно перенесен. Вашей новой системе может потребоваться немного больше времени, чтобы также объявить, что процесс завершен
  • Как только обе системы завершат передачу и отобразят синюю галочку, выберите Конец на обеих консолях .

Перенос системы завершен. Ваш профиль, все ваши данные сохранения и покупки в интернет-магазине были перенесены в вашу новую консоль. Woohoo!

Где все мои игры?

Хотя ваши сохраненные данные были отправлены, ваши игры — нет, потому что игры Switch очень массивны, и если вы когда-либо выполняли перенос системы для 3DS или Wii U, вы можете понять, почему Nintendo сочла это «чокнутым» с переключателем.

Вместо этого вам придется повторно загрузить их из интернет-магазина, но, к счастью, это не такой болезненный процесс, как вы думаете.

Возвращение этих игр

  • В главном меню консоли new выберите Nintendo eShop, обозначенную оранжевой сумкой для покупок в нижнем ряду круглых значков.
  • Если будет предложено выбрать учетную запись пользователя, выберите учетную запись пользователя, которая сделала покупки, которые вы хотите повторно загрузить.
  • Если будет предложено войти в систему, указав адрес электронной почты и пароль для профиля пользователя, введите адрес электронной почты и пароль, связанные с профилем пользователя, и выберите Войти .
  • Когда интернет-магазин загрузится, выберите уменьшенную версию своего значка пользователя в правом верхнем углу экрана.
  • Прокрутите вниз и выберите Повторная загрузка в меню в левой части экрана.
  • Отсюда, в правой части экрана, вы увидите список игр, которые вы приобрели для этой учетной записи.
  • Выберите значок оранжевого облака справа от каждой ранее купленной игры, которую вы хотите загрузить на новую консоль.С вас больше не будет взиматься плата за загрузки из этого меню.
  • После того, как вы выбрали оранжевый значок облака рядом со всеми играми, которые хотите повторно загрузить, нажмите кнопку «Домой», чтобы вернуться в главное меню.
  • Ваши игры теперь загружаются в вашу новую систему, что может занять несколько часов, но будет продолжаться, даже когда коммутатор находится в спящем режиме (при условии, что у вас активирована соответствующая опция в меню системных настроек).

Вот и все! Как только они закончат, вы можете снова погрузиться в игру, как будто никогда не уходили, благодаря тому, что все ваши сохраненные данные были переданы ранее.

Часто задаваемые вопросы

Могу ли я просто переместить мою карту Micro SD со всеми моими играми на новую консоль, а не загружать их все заново?

К сожалению, нет, из-за особой хитрости, которую выбрала Nintendo, это просто не работает.

Могу ли я выполнить перенос системы для нескольких профилей пользователей?

Совершенно верно! Просто повторите шаги, перечисленные выше, для каждого пользователя, которого вы хотите перенести.

Нужна ли мне для всего этого подписка Nintendo Switch Online?

К счастью, нет. Вам не нужна какая-либо подписка для передачи какой-либо этой информации, даже ваших драгоценных данных сохранения Breath of the Wild .

Как насчет всех снимков экрана и видео, которые я сделал?

Пока вы извлекаете карту Micro SD из своей старой консоли и вставляете ее в новую, вы сможете сохранить все свои старые снимки экрана и видео.Просто следуйте инструкциям на экране, и вы станете золотым.

Могу ли я переключаться между двумя OLED-дисплеями Switch или двумя Switch Lites?

Пока они коммутаторы Nintendo, вы можете переключаться между двумя Lite, двумя OLED или двумя обычными, без проблем.

Могу ли я не просто перенести свой профиль, потирая обе консоли друг о друга и повторяя пение?

Если попробуете, пришлите, пожалуйста, видео.

Как перенести остров Animal Crossing: New Horizons на новый коммутатор?

Рад, что вы спросили — у нас есть для этого руководство:


Мы надеемся, что это руководство было для вас полезным.Сообщите нам ниже, если у вас есть какие-либо вопросы, и мы постараемся на них ответить.

Стробирование переноса протонов и воды дыхательным ферментом цитохром с оксидазой

Абстрактные

Мембранно-связанный фермент цитохром c оксидаза отвечает за клеточное дыхание аэробных организмов и сохраняет свободную энергию от восстановления O 2 в электрохимический протонный градиент, сочетая окислительно-восстановительную реакцию с протонной перекачкой через мембрану.O 2 при восстановлении образуется вода на биметаллическом геме a 3 / Cu B активный сайт рядом с гидрофобной полостью глубоко внутри мембраны. Было высказано предположение, что молекулы воды в этой полости играют важную роль в механизме протонной накачки. Здесь мы показываем с помощью моделирования молекулярной динамики, что консервативный аргинин / гем a 3 Ионная пара Δ-пропионата обеспечивает затвор, который имеет обратимое тепловое открытие, которое регулируется окислительно-восстановительным состоянием и молекулами воды в полости.Важная роль этих ворот в механизме протонной перекачки подтверждается экспериментами по сайт-направленному мутагенезу. Транспорт воды из фермента должен строго контролироваться, чтобы предотвратить опосредованную водой утечку протонов, которая может поставить под угрозу функцию перекачки протонов. Выход воды из продукта наблюдается через те же ворота аргинин / пропионат, что дает объяснение наблюдаемой необычайной пространственной специфичности вытеснения воды из фермента.

Цитохром c оксидаза является конечным членом дыхательных цепей митохондрий и многих бактерий и отвечает за активацию и восстановление O 2 .Его важная функция как передающего энергию протонного насоса вызывает как экспериментальный, так и теоретический интерес в течение почти трех десятилетий (1), но молекулярный механизм до сих пор не изучен. Недавно интерес был сосредоточен на возможном участии в этом механизме молекул воды, продуцируемых восстановлением O 2 на геме a 3 / Cu B (2-5), и это поднимает нетривиальный вопрос о том, как продукт воды удаляется из фермента.Как и в аквапоринах (6-10), перенос воды в оксидазе цитохрома c необходимо контролировать, чтобы не создавать утечки протонов по цепочкам транспортируемых молекул воды (11, 12).

17 О-меченные молекулы воды, продукт реакции между восстановленной цитохром c оксидазой и 17 O 2 , были обнаружены скоординированными с ионом Mg (Mn), связанным с белком в течение 8 мс после начала реакции и перед разбавлением объемной водой (13).Сайт Mg (Mn) находится над двумя группами гема в домене, богатом кристаллографически обнаруженными молекулами воды (рис. 1 и ссылки 14-16). Этот важный вывод означает, что вода в продукте действительно выбирает очень специфический путь выхода из гема a . 3 Сайт / Cu B , который находится рядом с гидрофобной полостью, которая, по прогнозам, по крайней мере временно удерживает несколько молекул воды (2-4, 17, 18), хотя они не наблюдались в кристаллических структурах.Гидрофобные полости в белках действительно могут содержать воду, которая достаточно подвижна, чтобы ее нельзя было обнаружить с помощью рентгеновской кристаллографии, но их можно обнаружить с помощью ЯМР-спектроскопии (19). Однако в статических рентгеновских структурах цитохрома c оксидазы нет очевидного пути, с помощью которого вода-продукт специфически переносилась бы из гема a . 3 / Cu B центр к сайту Mg (Mn), хотя был описан путь переноса дальше от последнего сайта (20).

Рисунок 1.

Активный центр цитохрома c оксидазы. Неправильная серая структура — это гидрофобная полость между гемом и . 3 / Cu B сайт и гем a , в котором были смоделированы четыре молекулы воды. Все остальные молекулы воды имеют кристаллическую структуру (код доступа 1v54 в банке данных белков).Также показан смоделированный гидроксидный лиганд Cu B . Ключевые остатки R438, W126, E242 (зеленые; атомы водорода желтые) и Δ-пропионат гема a Указано 3 . Гемовое железо показано зеленым цветом, а атомы кислорода и азота показаны красным и синим соответственно. ( Врезка ) Снимок выхода воды (стрелка) из полости через открытый вентиль аргинин / пропионат. Цветовая кодировка такая же, как на основном рисунке. Этот рисунок был подготовлен с помощью программы vmd (33).

Было высказано предположение, что молекулы воды в гидрофобной полости играют решающую роль в переносе протонов (происходящих с отрицательно заряженной N-стороны мембраны) от консервативного остатка глутаминовой кислоты (E242; нумерация повсюду соответствует субъединице I в оксидазе крупного рогатого скота). митохондрии сердца), которые будут потребляться для образования воды в a 3 / Cu B и прокачивается через мембрану (2-5).Для объяснения этой функциональной двойственности было предложено переключение, зависящее от окислительно-восстановительного состояния, в ориентации этих молекул воды и, следовательно, в пункте назначения переноса протона (5). Эксперименты по мутагенезу показали (21), что перекачиваемые протоны в основном передаются от E242 к Δ-пропионатной группе гема a . 3 , который образует ионную пару с консервативным аргинином, R438 (рис. 1). Tsukihara et al. (14) поставил под сомнение эту точку зрения на основании высокой стабильности такой ионной пары, и, исходя из кристаллической структуры, протонирование пропионата действительно казалось бы очень маловероятным из-за близлежащего катиона аргинина.Однако рентгеновские модели не выявляют динамики и возможных флуктуаций в этой структуре: две особенности могут фактически дестабилизировать ионную пару, а именно сильная водородная связь от консервированного триптофана (W126) с кислородом пропионата O2D и дипольный момент водяного массива в полости, если направить его на пропионат (см. 5 и рис. 1). Мы решили проверить эту возможность, исследуя конформационное пространство пары аргинин / пропионат с помощью моделирования молекулярной динамики (МД).Результаты показывают замечательную термическую диссоциацию пары, зависящую от окислительно-восстановительного состояния, которая может иметь ключевое значение как для механизма протонной помпы, так и для переноса производимой воды из фермента.

Материалы и методы

МД моделирования проводились в основном, как описано в ссылке. 5, но начиная со сферы диаметром 50 Å в структуре оксидазы бычьего цитохрома c (ссылка 14 и идентификационный код банка данных белка 1v54) с центром на границе раздела между гемовыми группами и включает большую часть субъединиц I и II (6 353 атома ).Частичные заряды для металлических центров были получены в основном с помощью полуэмпирических методов PM3 и ZINDO / 1, но также была протестирована методология теории функционала плотности. Такие вариации параметризации заряда металлических центров существенно не повлияли на результаты (5). Аспарагиновая кислота 364 и глутаминовая кислота 242 были протонированы, и все пропионаты гема были депротонированы, как предполагалось на основе электростатических расчетов (22). Четыре молекулы воды были смоделированы в гидрофобной полости, и лиганд OH был добавлен к Cu B (ссылка.5 и рис.1). Heme a 3 все время находилось в состоянии железа. В других симуляциях мы перевели электрон из гема a в феррильную форму гема a . 3 , или в так называемый P M состояние 3 / Cu B с аналогичными результатами (неопубликованные данные). Моделирование проводилось с использованием силового поля Amber99 в гиперхиме (версия 7.1, Hypercube, Гейнсвилл, Флорида), что позволяет перемещать все аминокислоты, окружающие полость, Cu B и его лиганды, Δ-пропионаты гема и Δ-метильные группы, аргинины 438 и 439, все кристаллографические молекулы воды непосредственно над гемов и добавленных в полость (всего 360 атомов). Расстояние между атомом Cγ E242 и Δ-метильным углеродом гема a 3 был ограничен 7 Å константой гармонической силы 7 ккал / моль · Å 2 для предотвращения отрыва боковой цепи E242 от гидрофобной полости (5).Перед моделированием структура была уравновешена по температуре и минимизирована по энергии.

Транслокацию протонов диким типом и мутантным W164F цитохромом c оксидазой из Paracoccus denitrificans (W126 в ферменте крупного рогатого скота), включенного в фосфолипидные везикулы, измеряли с использованием метода O 2 -импульсов, по существу, как описано в исх. 23, в 100 мМ среде KCl с добавлением 15 мкМ цитохрома сердца лошади c , 5 мМ аскорбата калия и 1 мкМ валиномицина (pH 7.0-7,4). Известные количества O 2 добавляли в виде микролитровых инъекций чистой воды, уравновешенной воздухом при 25 ° C, и изменение pH калибровали с помощью небольших аликвот анаэробной 1 мМ HCl.

Результаты и обсуждение

Наше обоснование состояло в том, чтобы смоделировать динамику вблизи активного центра в условиях, максимально имитирующих функциональные состояния фермента. Каталитический цикл цитохрома c оксидазы может быть охарактеризован как включающий четыре элементарных реакционных стадии, в каждой из которых электрон на гема a (полученный из цитохрома c через центр Cu A ) переносится на 3 / Cu B сайт, сопровождающийся перекачкой протона через мембрану и захватом протона субстрата на a 3 / Cu B с внутренней стороны мембраны (24).Были выбраны такие основные условия, чтобы моделировать динамику до и после переноса электрона. Следовательно, когда гем a был уменьшен, a 3 / Cu B сайт был окислен (железо / медь). Альтернативно, окисляли гем а , и в этом случае восстанавливали Cu B . В некоторых экспериментах мы помещали накачанный протон в различные места над гемовыми группами в этом последнем окислительно-восстановительном состоянии (с репротонированием E242), но это положение не влияло на организацию молекул воды, чтобы сформировать путь переноса протона от E242 к биядерный сайт (5) и поэтому не был включен в это исследование.Строго говоря, эта модель применима только к одной из четырех элементарных стадий цикла, а именно к той, где железо / медь и Сайт 3 / Cu B принимает электрон, но этого достаточно для настоящих целей. Однако мы также смоделировали перенос электрона в так называемые состояния F и P M биядерного центра (см. Материалы и методы ), с результатами, очень похожими на результаты базовой модели, представленной здесь.

Первое впечатление от моделирования — временная жесткость. Межатомные расстояния обычно колеблются <0,5 Å вокруг положений равновесия во время типичных симуляций 50-200 пс каждое при 300 К. Даже большое количество кристаллографических молекул воды «над» гемом a 3 (рис. 1) показали небольшой перевод или его отсутствие. Это моделирование (текущее суммарное время составляет 2,5 нс для каждого окислительно-восстановительного состояния) подтвердило, что ориентация молекул воды в полости сильно зависит от окислительно-восстановительного состояния (5).Когда гем уменьшается на , а на на 3 / Cu B сайт окислен, эти молекулы воды последовательно ориентированы, чтобы направлять протоны от E242 к Δ-пропионату гема a 3 . В этом состоянии перенос протона от E242 к a Сайт 3 / Cu B не поддерживается ориентацией молекул воды, которая возникает только тогда, когда электрон перемещается на a 3 / Cu B сайт.

На этом фоне значительные тепловые колебания выделялись как исключительные. Расстояние водород-кислород 2Hh3-O2D пары R438-пропионат воспроизводимо и обратимо флуктуирует до переходных максимумов> 4 Å от положения равновесия ≈2 Å (рис.2 и 3 A ). Время между началом открытия и завершением закрытия составляло 0,4-0,8 пс, с «временем открытия» (определяемым как расстояние> 4 Å) ≈ 0,1 пс. Интересно, что квантово-химическое моделирование с бактериородопсином (25) показывает, что этого времени достаточно для переноса протона по механизму Гроттуса (12) через заранее подготовленный водный массив.Флуктуация происходила с вероятностью ≈10 -3 при 300 К (≈4 ккал / моль) и примерно с 10-кратным увеличением частоты при 450 К. Ее наиболее замечательным свойством была сильная зависимость от окислительно-восстановительного состояния: она возникло только в окислительно-восстановительном состоянии, когда молекулы воды в полости ориентированы для переноса протонов от E242 к пропионату (рис. 3), и полностью отказало (при 300 К), даже в соответствующем окислительно-восстановительном состоянии, если эти молекулы воды были удалены. (Рис.3 B , желтый след), если W126 «мутировал» до фенилаланина (рис.3 В , синий след), или если частичные заряды индольной группы W126 были сделаны равными нулю (не показано). Ясно, что как ориентация диполя воды, так и водородная связь от W126 необходимы для дестабилизации ионной пары, как и ожидалось. Мутация, соответствующая W126F, имела интересный эффект на протонную перекачку, что было измерено с помощью включенной в везикулы цитохрома c оксидазы из P. denitrificans . Конечный восстановитель в экспериментах на рис.4 представляет собой аскорбат, при окислении которого выделяется 0,5 H + / e . Таким образом, транслокация протонов составила ≈1,0 и 0,5 H + / e для фермента дикого типа и мутантного фермента соответственно, что подтверждает роль этого триптофана в механизме протонной перекачки.

Рис. 2.

Два состояния ионной пары аргинин / пропионат. Средняя равновесная структура находится справа с небольшим расстоянием, обозначенным d, между водородом 2Hh3 аргинина и кислородом O2D пропионата. Слева показаны открытые ворота.

Инжир.3.

Колебания пары аргинин / пропионат. ( A ) Моделирование методом МД при 300 K с отслеживанием расстояния 2Hh3-O2D во времени. Зеленые следы получены при моделировании с окисленным гемом a и восстановленным Cu B ; все остальные содержат восстановленный гем a и окисленный Cu B . ( B ) Графики частоты (вероятность, обратная энергия), на которой происходит определенное расстояние. Желтый график, все молекулы воды удалены из гидрофобной полости; синий график, остаток W126 был заменен на фенилаланин.Красные и зеленые кривые получены при моделировании с гемом восстановленным / окисленным Cu B и окисленным гемом / восстановленным Cu B , соответственно (см. Также A ).

Рис. 4.

Накачка протонов мутантом W164F и ферментом дикого типа из P.Денитрификанс . Калиброванные импульсы кислорода (стрелки) подавали анаэробным суспензиям фермента дикого типа ( Left ) и мутантного фермента ( Right ; W164F соответствует W126F в структуре бычьего фермента). Для условий см. Материалы и методы . Обратите внимание, что окисление аскорбата дает выброс 0,5 H + / e , и его следует вычесть. Линейная обратная экстраполяция протонного распада была проведена, чтобы помочь глазу (пунктирная линия).

Мы пришли к выводу, что диссоциация солевого мостика запускается гидратацией пропионата и что зависимость окислительно-восстановительного состояния опосредована ориентацией молекул воды в полости, из которой происходит эта гидратация.Ожидается, что диссоциация ионной пары (рис.2) существенно повысит pK a пропионата (и снизит pK a аргинина), что может временно позволить перенос накачанного протона от E242 к пропионат (5, 21). Это, в свою очередь, может повысить сродство к электрону a . 3 / Cu B , что обеспечивает быстрый перенос электронов от гема на (26, 27) и захват протона на пропионате.Альтернативно, протонирование пропионата носит временный характер и связано с депротонированием аргинина, которое может высвободить его протон в какой-либо другой сайт, расположенный выше гемовых групп. В этом сценарии протонный обмен между пропионовой кислотой и депротонированным аргинином следует за восстановлением ионной пары. После переключения водного массива на на 3 / Cu B и репротонирование E242 со стороны N, этот второй протон будет перенесен на и 3 Сайт / Cu B , продуцирующий эквивалент воды (протонирующий кислородсодержащий лиганд), с высвобождением накачанного протона в сторону положительно заряженной Р-стороны мембраны за счет электростатического отталкивания (5).Пара аргинин / пропионат может, таким образом, функционировать как ворота в механизме, контролирующем доступ протонов с N и P сторон мембраны соответственно.

Мутация W126F снизила общую эффективность накачки, но только на 50% (рис. 4). Несмотря на то, что диссоциация аргинина / пропионата не наблюдалась с мутантным ферментом W126F при моделировании МД во временном масштабе от 0,1 до 0,2 нс (рис. 2 C ), это вполне может происходить в гораздо более медленном временном масштабе оборота ферментов, что приводит лишь к частичному отключению механизма насоса.

Если вода-продукт будет выходить из полости через открытые ворота аргинин / пропионат, она будет направляться точно в домен Mg (Mn), как наблюдали экспериментально (ссылка 13 и рис. 1). Чтобы проверить эту идею, мы добавили пятую молекулу воды в полость или удалили кристаллографическую воду над ионной парой. В обоих случаях моделирование методом МД показало открытие ворот и выход молекулы воды по этому маршруту (рис. Врезка ). При «перегрузке» молекул воды в полости зависимость окислительно-восстановительного состояния отменяется, и ворота открываются также с гемом a окисленным и a 3 / Cu B узел уменьшен.Это наблюдение подчеркивает важность правильного баланса в динамике удаления производимой воды, потому что открытие ворот в этом окислительно-восстановительном состоянии может позволить обратный поток протонов извне непосредственно в и . 3 / Cu B сайт. Фергюсон-Миллер и Миллс (28) мутировали эквивалент R438 в оксидазе цитохрома c из Rhodobacter sphaeroides (R481) в лизин. Фенотип интересен в текущем контексте, потому что он показывает нормальную эффективность протонной накачки, но, очевидно, уменьшенную скорость утечки протонов со стороны P в и . 3 / Cu B сайт.Поэтому возможно, что обсуждаемый здесь вентиль более плотно закрыт, когда аргинин заменяется лизином, плотность заряда которого намного выше. Моделирование этого мутантного фермента с помощью МД может пролить свет на эту ситуацию.

Без воды в полости не было заметной диффузии воды в направлении, противоположном области над гемами. В этом случае ворота оставались закрытыми (рис. 3 B ), что еще раз подчеркивает представление о том, что диссоциация ионной пары запускается именно «снизу» молекулами воды в полости.Наконец, можно отметить, что ранее предполагалось, что ионная пара аргинин / пропионат контролирует перенос воды в цитохроме P450 (29).

Температурные колебания имеют фундаментальное значение для функционирования биологических макромолекул, особенно молекулярных двигателей и преобразователей энергии (30-32). Обратимая зависимая от окислительно-восстановительного состояния диссоциация ионной пары аргинин / пропионат, описанная здесь, может играть фундаментальную роль в качестве долгожданного затвора и протонного переключателя в механизме протонной перекачки цитохром c оксидазы.Интересно, что вода, продукт реакции на и Сайт 3 / Cu B может играть ключевую роль в механизме протонной помпы перед вытеснением, но то, как координируются перенос протонов и воды, еще не изучено и требует дальнейшего изучения. Строгий контроль переноса протонов и воды в дыхательном ферменте необходим для обеспечения его функции в качестве первичного преобразователя энергии в биологии. Эта работа дает намек на то, как этого можно достичь с помощью определенных тепловых флуктуаций в атомной структуре.

Благодарности

Мы благодарим Герхарда Хаммера, Режиса Помеса и Арие Варшеля за ценные комментарии, а также Вивека Шарму за помощь с цифрами. Работа поддержана грантами (M.W.) Фонда Сигрид Джуселиус и Академии Финляндии (программа 44895).

Сноски

  • ↵ * Кому должна быть адресована корреспонденция.Эл. Почта: marten.wikstrom {at} helsinki.fi.

  • Этот документ был отправлен напрямую (Трек II) в офис PNAS.

  • Сокращение: MD, молекулярная динамика.

  • Copyright © 2005, Национальная академия наук

Регуляторный переключатель на цитоплазматическом интерфейсе управляет стробированием канала TRPV

Клетки

HEK293T (62312975 — ATCC) выращивали в среде DMEM с добавлением 10% FBS (Gibco), 1% пенициллина / стрептомицина (Gibco) и выдерживали при 37 ° C в 5% CO 2 .Клетки между 10-30 пассажами, выращенные в лунках диаметром 40 мм, временно трансфицировали при ~ 50% конфлюентности плазмидами, кодирующими WT, K169A, E751A, W739A, W742A, K743A, R487A, R487W, E501G, Y540W, Y565A, h526A TRPV3 и зеленый TRPV3. флуоресцентный белок (GFP) с использованием FuGene6 (Promega). Через ~ 24 часа после трансфекции клетки пересевали на круглые стеклянные покровные стекла диаметром 12 мм (Fisher) в 20-миллиметровые лунки и использовали через 12-24 часов для электрофизиологических измерений.

Запись с фиксацией напряжения выполнялась в конфигурации «патч-кламп» для всей клетки с электродами, вытянутыми из капилляров из боросиликатного стекла (Sutter Instruments) с конечным сопротивлением 2–5 МОм.Электроды заполняли внутриклеточным раствором, содержащим (в мМ) 150 CsCl, 1 MgCl 2 , 10 HEPES, 5 EGTA, и доводили до pH 7,2 (CsOH). Стеклянные покровные стекла с прилипшими трансфицированными клетками помещали в камеру открытой ванны (RC-26G, Warner Instruments) с внеклеточным промывочным раствором, содержащим (в мМ) 140 NaCl, 5 KCl, 1 MgCl 2 , 10 HEPES при pH 7,4 (NaOH ). Внеклеточные промывочные растворы использовали для приготовления растворов, содержащих; 2-аминоэтоксидифенилборат (2-APB) (Sigma) (получен ежедневно из запасов ДМСО (1 М), хранящихся при -80 ° C; конечный ДМСО 0.03%), рутениевый красный (RuR) (Sigma) (приготовленный ежедневно из воды (10 мМ), хранящейся при -80 ° C; конечный ДМСО 0,03%) и D-камфора (Sigma) (приготовленный ежедневно, как описано ранее [Xu et al., 2005] из запасов ДМСО (2 M), хранящихся при -80 ° C). Растворы локально наносили на исправленные вызовы с помощью системы перфузии под давлением (BPS-8, ALA Scientific Instruments). Текущие отклики были отфильтрованы с помощью фильтра нижних частот на 2 кГц (Axopatch 200B), дискретизированы в цифровом виде с частотой 5–10 кГц (Digidata 1440A), преобразованы в цифровые файлы в Clampex10.7 (Molecular Devices) и хранятся на внешнем жестком диске для автономных анализов (Clampfit10.7, Molecular Devices; Excel 2010, Microsoft Office; OriginPro 2016, OrginLab Corp).

экспериментов по сенсибилизации 2-APB проводили, как описано ранее (Zubcevic et al., 2018b). Вкратце, использовался 30-секундный непрерывно повторяющийся протокол (удерживающий потенциал +60 мВ), в котором клетки сначала перфузировали внеклеточной промывкой в ​​течение 1 с, а затем 15-секундным нанесением 30 мкМ внеклеточного раствора 2-APB, которому предшествовали 14 с. промывочного раствора.Записи, показавшие слабый или отсутствующий текущий ответ после ~ 25–30 раундов стимуляции 2-APB, были остановлены.

Остаточный ток сенсибилизации после вымывания 30 мкМ 2-APB измеряли сразу после протокола сенсибилизации 2-APB. Сенсибилизированные клетки подвергались протоколу (удерживающий потенциал +60 мВ), в котором внеклеточная промывка перфузировалась в течение 10 с, затем 15 с 30 мкМ 2-APB, затем снова промывалась в течение 30 с, после чего наносился 50 мкМ RuR на 10 секунд. с. Остаточный ток, чувствительный к RuR, был рассчитан по разнице между амплитудой тока второй стирки (I Wash3 ) и RuR (I RuR ) (I Wash3 — I RuR ) и представлен как плотность тока.

Спонтанная активность базальных каналов оценивалась до сенсибилизации, индуцированной 2-APB. После достижения цельноклеточной конфигурации клетки выдерживали при 0 мВ в течение 5 с и подвергались скачку напряжения +60 мВ в течение 10 с. Через 5 с после скачка напряжения до +60 мВ клетку перфузировали 50 мкМ RuR в течение последних 5 с протокола. Чувствительные к RuR базальные токи рассчитывались как разница между измеренными амплитудами тока смывки (I wash ) и тока RuR (I RuR ) (I wash — I RuR ) при +60 мВ и представлялись как плотность тока. .

Протокол скачка напряжения всей ячейки от -120 до +200 мВ (Δ 20 мВ, 500 мс) сразу же сопровождался послетестовым импульсом -160 мВ в течение 200 мс с удерживающим потенциалом -60 мВ. Пиковая амплитуда тока хвоста от импульса после испытания -160 мВ использовалась для вычисления соответствующей амплитуды проводимости для каждого шага напряжения. Поскольку хвостовые токи от ступени +200 мВ не приводили к насыщению амплитуд хвостовых токов, кривые G / Gmax не строились, и данные строились как зависимости амплитуды проводимости от ступенчатого напряжения.

Гистерезис и сенсибилизацию оценивали путем измерения изменений в EC 50 чувствительности 2-APB после последовательных циклов реакции на дозу. Клетки прошли протокол регистрации (удерживающий потенциал +60 мВ), который начинался с 1-секундной промывки с последующим 15-секундным нанесением разовой концентрации 2-APB (3, 10, 30, 50, 100 или 300 мкМ; конечный DMSO 0,03%), с последующим 15-секундным промыванием и повторением для каждого согласования в порядке от наименьшей до наибольшей концентрации для каждого цикла доза-реакция.Клетки подвергали трем последовательным циклам этого протокола зависимости реакции от дозы.

Эксперименты по тестированию сайта связывания 2-APB проводили с непрерывно повторяющимся протоколом линейного изменения напряжения (удерживающий потенциал 0 мВ, изменение напряжения 400 мс от -60 до +60 мВ), вызываемого каждые 5 с. Клетки сначала перфузировали в течение 30 с 30 мкМ 2-APB, затем 300 мкМ 2-APB и, наконец, 10 мМ камфорой, с 30-секундной промывкой между каждым нанесением лиганда. Было рассчитано соотношение между 30 и 300 мкМ 2-APB к отклику от камфорного тока при +60 мВ.Утечку оценивали в конце записи с применением 50 мкМ RuR.

Сенсибилизация характеризовалась соотношением ответа на 2-APB во время первого (I 0 ) и максимального тока (I max ) ответа (I max / I 0 ), рассчитанного как среднее значение для каждого биологически независимый эксперимент.

Анализ данных Параметры сенсибилизации 2-APB оценивали по зависимому от стимуляции увеличению амплитуды пикового тока, измеренной в конце каждого воздействия 2-APB, как описано ранее (Zubcevic et al., 2018б). Вкратце, амплитуды пикового тока ( I ) от каждой отдельной стимуляции были нормализованы до максимальной амплитуды пикового тока ( I max ) и относительного тока ( I / I max ) каждой стимуляции. был нанесен номер стимуляции для каждой отдельной записи.

Относительная степень сенсибилизации характеризовалась увеличением амплитуды тока, полученным во время первого ( I 0 ) и максимального тока ( I max ) стимуляции ( I max / I 0 ) и рассчитывается как среднее значение из каждого биологически независимого эксперимента.Первые пять стимуляций 2-APB на записи также наносили на график как плотность тока для сравнения между условиями.

Данные

2-APB «доза-ответ» для каждого отдельного раунда соответствовали уравнению Хилла из биологически независимых экспериментов. Средние значения ЕС , 50, для каждой аппроксимации рассчитывали для каждой доза-ответ. Усредненный нормированный отклик по току от каждого согласования 2-APB (3, 10, 30, 50, 100, 300 мкМ) за раунд были усреднены и согласованы с уравнением Хилла для расчета соответствующих EC 50 и коэффициента Хилла ( n H ) для каждой протестированной конструкции.

Произошла ошибка при настройке пользовательского файла cookie

Этот сайт использует файлы cookie для повышения производительности. Если ваш браузер не принимает файлы cookie, вы не можете просматривать этот сайт.


Настройка вашего браузера для приема файлов cookie

Существует множество причин, по которым cookie не может быть установлен правильно. Ниже приведены наиболее частые причины:

  • В вашем браузере отключены файлы cookie. Вам необходимо сбросить настройки вашего браузера, чтобы он принимал файлы cookie, или чтобы спросить вас, хотите ли вы принимать файлы cookie.
  • Ваш браузер спрашивает вас, хотите ли вы принимать файлы cookie, и вы отказались. Чтобы принять файлы cookie с этого сайта, используйте кнопку «Назад» и примите файлы cookie.
  • Ваш браузер не поддерживает файлы cookie. Если вы подозреваете это, попробуйте другой браузер.
  • Дата на вашем компьютере в прошлом. Если часы вашего компьютера показывают дату до 1 января 1970 г., браузер автоматически забудет файл cookie. Чтобы исправить это, установите правильное время и дату на своем компьютере.
  • Вы установили приложение, которое отслеживает или блокирует установку файлов cookie. Вы должны отключить приложение при входе в систему или проконсультироваться с системным администратором.

Почему этому сайту требуются файлы cookie?

Этот сайт использует файлы cookie для повышения производительности, запоминая, что вы вошли в систему, когда переходите со страницы на страницу. Чтобы предоставить доступ без файлов cookie потребует, чтобы сайт создавал новый сеанс для каждой посещаемой страницы, что замедляет работу системы до неприемлемого уровня.


Что сохраняется в файле cookie?

Этот сайт не хранит ничего, кроме автоматически сгенерированного идентификатора сеанса в cookie; никакая другая информация не фиксируется.

Как правило, в файлах cookie может храниться только информация, которую вы предоставляете, или выбор, который вы делаете при посещении веб-сайта. Например, сайт не может определить ваше имя электронной почты, пока вы не введете его. Разрешение веб-сайту создавать файлы cookie не дает этому или любому другому сайту доступа к остальной части вашего компьютера, и только сайт, который создал файл cookie, может его прочитать.

Гибкая рабочая память за счет селективного стробирования и внимательной маркировки | Нейронные вычисления

Сложное поведение требует гибких механизмов памяти для работы с информацией, которая больше не воспринимается органами чувств, но остается актуальной для текущих целей задачи. Например, прежде чем мы решим, что перестроиться на шоссе безопасно, мы последовательно накапливаем в памяти свидетельства, полученные с различных зеркал и дороги впереди нас.Важно отметить, что такое сложное поведение требует не только хранения, но и операций с памятью. Не каждый объект, который мы наблюдаем на шоссе, нужно запоминать, хотя часто именно определенная комбинация информации (например, несколько автомобилей и знаков) определяет, безопасно ли переключаться между полосами движения. Как показывает опыт любого начинающего водителя, обучение правильному применению этих операций по выбору, сохранению и управлению правильной информацией в памяти может потребовать значительных усилий. Тем не менее, после достаточной практики мы учимся применять эти навыки и абстрагироваться от сути в различных средах, независимо от специфики дороги или автомобилей вокруг нас.Этот пример иллюстрирует основные функции, которые определяют рабочую память (WM) и которые, говоря словами О’Рейли и Фрэнка (2006), создают WM. Во-первых, WM — это гибкий , в котором процессы управления определяют, какая информация хранится, когда она обновляется и как она применяется во время выполнения задачи. Во-вторых, правила, которые управляют этими операциями управления для данной установки задачи, обучаемые и могут быть усвоены с практикой. В-третьих, после обучения эти правила затем обобщают на одну и ту же постановку задачи с разными стимулами.Именно эта комбинация гибкости, обучаемости и универсальности делает WM краеугольным камнем познания не только у людей, но и у нечеловеческих приматов (Warden & Miller, 2007, 2010; Naya & Suzuki, 2011). Здесь мы представляем нейросетевую модель WM, которая объединяет эти основные компоненты.

Перед тем, как описать модель WorkMATe, мы кратко объясним, как она расширяет предыдущие модели, которые фокусировались либо на общем хранении произвольных сенсорных стимулов в памяти, либо на обучении операциям с памятью, зависящим от содержимого.

Ряд предыдущих моделей нейронных сетей объясняют, как мозг может временно сохранять информацию (Brunel & Wang, 2001; Amari, 1977; Mongillo, Barak, & Tsodyks, 2008; Barak & Tsodyks, 2007; Fiebig & Lansner, 2017) и как различные предметы могут храниться отдельно (Oberauer & Lin, 2017; Raffone & Wolters, 2001; Jensen & Lisman, 2005; Schneegans & Bays, 2017).С учетом их акцента на хранении одной из наиболее часто моделируемых задач WM является задача отложенного распознавания, в которой наблюдатель реагирует в зависимости от того, совпадает ли наблюдаемый стимул с запомненным стимулом.

Задачи отложенного распознавания не требуют, чтобы агент действовал в соответствии с конкретным содержанием информации в памяти. Скорее, агент производит ответ, основанный на наличии или отсутствии достаточного сходства между двумя последовательно предъявленными стимулами, которые в принципе могут быть чем угодно.Экспериментальная работа показала, что как люди, так и нечеловеческие приматы могут почти без усилий определять такие совпадения даже по стимулам, которые никогда ранее не наблюдались (Downing & Dodds, 2004; Warden & Miller, 2010, 2007; Siegel, Warden, & Miller, 2009). , и исследования продемонстрировали нейроны как лобной, так и теменной коры, активность которых зависит от соответствия между сенсорным вводом и содержанием памяти (Miller, Erickson, & Desimone, 1996; Freedman, Riesenhuber, Poggio, & Miller, 2003; Rawley & Constantinidis, 2010).Взятые вместе, эти результаты показывают, что вычисления, управляющие задачами сопоставления — определение сходства или степени совпадения — относительно независимы от содержания стимула.

Поэтому большинство моделей для задач сопоставления, распознавания и отзыва реализуют независимое от содержимого вычисление сигнала сопоставления. Ludueña и Gros (2013) продемонстрировали, что относительно простая самоорганизующаяся нейронная сеть может научиться обнаруживать коактивацию в нейронных пулах, представляющих аналогичную информацию с неперекрывающимися кодами, что позволяет сигналу совпадения между сенсорной информацией и информацией о памяти появляться при представлении.Сигналы совпадения также возникают в моделях ассоциативной памяти, которые предполагают однократное хеббийское обучение произвольной информации в гиппокампе. В этих моделях простота последующего контекстно-зависимого поиска обеспечивает индекс сходства стимула и памяти, который используется для моделирования вероятностей отзыва и времени отклика (Howard & Kahana, 2002; Lohnas, Polyn, & Kahana, 2015; Raaijmakers & Shiffrin , 1981; Howard & Eichenbaum, 2013; Norman & O’Reilly, 2003). Meyer and Rust (2018) показали, что подавление повторения в нижневисочной коре после повторного предъявления стимула предсказывает способность распознавания произвольных стимулов у макак (см. Также Engel & Wang, 2011; Sugase-Miyamoto, Liu, Wiener, Optican, И Ричмонд, 2008).Та же идея преобладает в моделях визуального поиска, где сигнал соответствия вычисляется между элементом в памяти и стимулами, присутствующими в искомой сцене, которая впоследствии используется для оптимального направления внимания (Zelinsky, 2008; Rao, Zelinsky , Hayhoe, & Ballard, 2002; Hamker, 2005).

В этих моделях сигналы совпадения автоматически вычисляются как возникающее следствие взаимодействия между восприятием и памятью, что увеличивает полезность WM без необходимости предварительного обучения конкретному содержанию стимула.Напротив, более сложные задачи требуют дополнительных операций WM, решений и двигательных действий в зависимости от конкретного содержания. В примере смены полосы движения пустое зеркало заднего вида может указывать на то, что обгон безопасен, если в боковом зеркале не указано иное. Общие модели соответствия обычно не объясняют, как контролируется содержимое памяти, как можно получить политику контроля посредством обучения и как содержимое памяти в сочетании с сенсорной информацией приводит к выбору действий. Такие обучаемые, гибкие, ориентированные на действия модели WM будут рассмотрены далее.

Довольно другой класс моделей сосредоточен на том, как научить WM решать задачи, в которых несколько различных стимулов отображаются на разные реакции, то есть как когнитивная система узнает, какое из ряда доступных действий, включая операции с памятью, является подходящим. при определенных (комбинациях) стимулов. Обучение моделей нейронной сети для решения задач означает, что, как и в примерах сетевых процессов, веса обновляются, чтобы установить желаемое сопоставление между входным и выходным потоками.В условиях обучения с подкреплением желаемое оптимальное отображение приводит к политике, которая максимизирует вознаграждение и минимизирует наказание. Для многослойных нейронных сетей это становится проблемой структурного присвоения кредитов, когда алгоритм обучения должен определить, в какой степени вес соединения повлиял на результат. Для задач с памятью существует дополнительная проблема временного присвоения кредита, поскольку результат определенных действий (например, сохранение элемента в памяти) только позже в ходе испытания приведет к успеху или неудаче.Постоянная проблема глубокого обучения заключается в том, как эти проблемы присвоения кредитов могут быть решены биологически правдоподобным образом (Lillicrap, Cownden, Tweed, & Akerman, 2016; Richards & Lillicrap, 2019; Whittington & Bogacz, 2017; Scellier & Bengio, 2018; Marblestone, Wayne, & Kording, 2016).

Одно биологически правдоподобное решение временного и структурного присвоения кредитов в задачах WM обеспечивается алгоритмом AuGMEnT (Rombouts, Bohte, & Roelfsema, 2015; Rombouts, Roelfsema, & Bohte, 2012; Rombouts, Bohte, Martinez-Trujillo, & Roelfsema, 2015), которая, в свою очередь, основана на модели перцептивного обучения AGREL (Roelfsema, van Ooyen, & Watanabe, 2010; Roelfsema & Ooyen, 2005; van Ooyen & Roelfsema, 2003).Эти модели демонстрируют, что обратная связь с вниманием может сыграть решающую роль в решении кредитного задания (Roelfsema & Holtmaat, 2018). Архитектура, используемая AuGMEnT, представляет собой многослойную нейронную сеть с повторяющимся слоем памяти для хранения информации. Выходные данные нейронной сети — это ожидаемая величина вознаграждения, связанная с каждым действием. При выборе действия механизм обратной связи с вниманием отмечает синапсы, которые способствовали этому действию. Когда действие не приносит ожидаемого вознаграждения, сигнал ошибки предсказания вознаграждения (RPE) транслируется по сети, что приводит к изменениям веса в помеченных синапсах.С помощью этих механизмов AuGMEnT реализует элементарную, но обучаемую архитектуру WM. Эта архитектура может научиться решать различные задачи памяти, в которых последовательности стимулов необходимо интегрировать с течением времени, чтобы получить правильный ответ (Rombouts, Bohte, & Roelfsema, 2015; Rombouts et al., 2012). Однако в то же время в AuGMEnT отсутствуют операции, определяющие гибкость WM приматов: его хранилище накапливает релевантную информацию, но не позволяет, например, отдельно обновлять элементы, выборочно забывать или кодировать только при определенных условиях.

Очень популярной архитектурой нейронной сети, которая действительно включает такие гибкие механизмы управления, является архитектура долгосрочной краткосрочной памяти (LSTM) (Hochreiter & Schmidhuber, 1997). Эта архитектура представляет собой стробированное хранилище памяти, реализованное через стробирующие устройства, которые открываются или закрываются в зависимости от активности в остальной части сети. Эти шлюзы позволяют агенту контролировать, какой информации разрешен ввод в память, как интегрируется новая информация и какая информация считывается в любой момент времени.Сети LSTM и аналогичные архитектуры теперь являются обычным явлением в современных системах глубокого обучения, что свидетельствует об их мощи (Gers, Schmidhuber, & Cummins, 1999; Gers, Schraudolph, & Schmidhuber, 2002; Monner & Reggia, 2012; Cho, van Merrienboer , Bahdanau, & Bengio, 2014; Costa, Assael, Shillingford, de Freitas, & Vogels, 2017; Graves & Schmidhuber, 2005; Graves et al., 2016). Однако, хотя архитектуры LSTM допускают гибкий контроль над содержимым памяти, они не были разработаны с учетом биологической правдоподобности: типичные реализации полагаются на довольно неправдоподобные правила обучения с биологической точки зрения (Graves & Schmidhuber, 2005; Hochreiter & Schmidhuber, 1997).LSTM можно обучать с использованием методов обучения с подкреплением (Bakker, 2002, 2007), но сложность повторяющейся архитектуры делает обучение невероятно неэффективным по сравнению с обучением на животных (требующим миллионов испытаний для изучения относительно простой задачи Т-образного лабиринта).

Вероятно, наиболее прочно обосновавшаяся на сегодняшний день биологически вдохновленная модель гибкого управления WM — это модель рабочей памяти префронтальной коры и базальных ганглиев (PBWM; O’Reilly & Frank, 2006; Hazy, Frank, & O’Reilly, 2006, 2007).PBWM позволяет гибко управлять памятью в манере, вдохновленной LSTM, но был разработан с упором на биологическую достоверность. PBWM только блокирует поступление сенсорных стимулов в свой магазин WM по принципу «все или ничего». В частности, базальные ганглии определяют, разрешено ли предметам входить в WM, на основе выбора внутренних стробирующих действий. Модель может изучать сложные иерархические задачи (такие как 12-AX, описанные ниже), которые требуют выборочного обновления и обслуживания соответствующих элементов в WM, предотвращая хранение отвлекающих стимулов.Однако, как отметили Тодд, Нив и Коэн (2009), точная функциональность PBWM значительно затрудняется тем фактом, что это довольно сложная модель с сильно переплетенной архитектурой ряда нейронных подсистем и несколькими алгоритмами параллельного обучения, как под наблюдением и без присмотра (O’Reilly, Frank, Hazy, & Watz, 2007; O’Reilly, 1996b, 1996a). Тодд и др. (2009) представили упрощенную модель PBWM, которая выделяет только основную особенность PBWM, а именно использование внутренних стробирующих действий для управления содержимым памяти.Эта модель заменяет все биологически вдохновленные нейронные подкомпоненты более абстрактным табличным представлением всех возможных состояний ввода и памяти. Затем состояния сопоставляются с внешними двигательными и внутренними стробирующими действиями, значение которых узнается с помощью стандартного алгоритма обучения с подкреплением, который использует трассировки соответствия. Таким образом, упрощенная модель PBWM отбрасывает большую часть биологического реализма PBWM, но демонстрирует ее основную функциональность — контроль над содержимым памяти с помощью внутренних стробирующих действий, которые можно получить, используя только обучение с подкреплением.

Таким образом, эти обучаемые, ориентированные на действия модели (AuGMEnT, LSTM и PBWM) демонстрируют функции рабочей памяти, которые выходят за рамки простого хранения и сопоставления. Как в LSTM, так и в PBWM управление памятью является гибким, поскольку несколько элементов можно кодировать, поддерживать и обновлять отдельно, а также существуют механизмы, предотвращающие помехи от не относящихся к задаче стимулов. LSTM и AuGMEnT решают задачи, создавая представления в памяти, адаптированные к поставленной задаче: сенсорная информация кодируется таким образом, чтобы связывать их с соответствующими действиями для решения поставленной задачи.Сосредоточившись на задачах, выходящих за рамки простого хранения, ориентированные на действия модели могут объяснить, как содержимое памяти может быть использовано для решения задачи. Они обеспечивают операции управления для обновления определенного содержимого и учатся применять их на основе подкрепления. Тем не менее, эти модели нелегко справляются с произвольными стимулами, которые агент никогда раньше не наблюдал, и поэтому им не хватает символического качества правил производства операций WM. Для этого моделям потребуется общий подход к хранению, который используют модели, ориентированные на сопоставление, и остается непроверенным, можно ли интегрировать обобщенные сигналы сопоставления в этот тип модели.

Уровень памяти S в WorkMATe функционально аналогичен тому, который используется в PBWM. Отдельные представления памяти поддерживаются через самовоспроизводящиеся проекции в хранилище памяти. Это сильная абстракция предполагаемых нейрофизиологических механизмов поддержания WM в мозгу приматов, поскольку в литературе нет единого мнения относительно того, организованы ли элементы в WM функционально в слоты (Zhang & Luck, 2008; Cowan, 2010), непрерывно ресурсы (Bays & Husain, 2008; Van den Berg, Awh, & Ma, 2014; Ma, Husain, & Bays, 2014), иерархически организованные наборы функций (Brady & Alvarez, 2011) или посредством взаимодействия с представлениями долговременной памяти (Орхан, Симс, Джейкобс и Нилл, 2014 г.).Здесь мы остаемся в значительной степени агностическими в отношении точного представления, но выбираем механизм, в котором элементы в памяти могут поддерживаться отдельно, могут обновляться отдельно и могут выборочно игнорироваться, чтобы предотвратить вмешательство (O’Reilly & Frank, 2006). Мы покажем, что этот подход позволяет нам исследовать, как комплексный когнитивный контроль над содержанием WM может быть приобретен с помощью обучения с подкреплением.

После завершения обработки с прогнозированием и вычисления значений Q в выходном слое агент выбирает стробирующее действие из {g1, g2, g∅}, чтобы либо заблокировать текущее сенсорное представление в блоке m1, m2, либо в предотвратить попадание стимула в хранилище памяти.Обратите внимание, что, в отличие от PBWM, представление памяти mi не является прямой копией сенсорной информации. Скорее, это сжатое представление входного представления, закодированное с помощью весов WSx⁠. Это позволяет обобщить выученные правила задания на новые стимулы.

Важно отметить, что, в отличие от других обученных проекций в модели, WSx остается фиксированным на протяжении каждого прогона модели при той силе соединения, которую он получает посредством случайной инициализации.В результате представления стимула в памяти не настраиваются на конкретную задачу и будут отличаться в зависимости от того, закодированы они в блоке 1 или блоке 2. Предыдущая работа (Барак, Сусилло, Ромо, Цодыкс, & Эбботт, 2013; Сакси et al., 2011; Bouchacourt & Buschman, 2019) продемонстрировали, что необученные случайные проекции могут быть использованы для кодирования памяти полезным способом, если могут быть сформированы диссоциируемые представления памяти. Это не означает, что кодирование памяти в мозгу обязательно случайное и необученное, но мы будем использовать эту архитектуру, чтобы проиллюстрировать, что без дополнительной настройки модель может успешно кодировать стимулы в общем виде и исследовать, обобщаются ли усвоенные политики на новые стимулы. наборы.

Обучение в модели следует алгоритму AuGMEnT (Rombouts, Bohte, & Roelfsema, 2015), который был получен из правила обучения AGREL (Roelfsema, van Ooyen, & Watanabe, 2010). На каждом временном шаге модель предсказывает значение Q каждого из своих возможных действий. Эти значения представлены в двигателе и модуле стробирования на выходном слое сети. На основе этих значений модуль стробирования выбирает внутреннее действие, а модуль двигателя — внешнее действие, параллельно.Сумма двух Q-значений, связанных с выбранными действиями, qint (t) + qext (t) ⁠, отражает общее Q-значение Qt⁠, то есть оценку сети суммы дисконтированных вознаграждений, предсказанных для оставшейся части. судебного разбирательства. Обратите внимание, что нет никаких априорных ограничений на то, как взвешиваются эти два значения, хотя во всех смоделированных здесь задачах мы обнаружили, что Q-значения в модулях внутренних и внешних действий сходятся к сопоставимым значениям, причем каждый модуль составляет примерно половину общее значение Q, связанное с выбранной парой действий.

Выбранные действия образуют двоичный вектор z⁠, который равен 1 для единиц, отражающих выбранные действия, и 0 в противном случае. После выбора действий от этих единиц исходит сигнал обратной связи по вниманию, который проходит через систему через соединения обратной связи по вниманию. Этот повторяющийся сигнал используется для пометки синапсов, которые способствовали выбранным действиям. Эти синаптические теги соответствуют следам приемлемости в традиционном обучении с подкреплением SARSA (λ).Значение этих тегов постепенно уменьшается на каждом временном шаге со скоростью α = 1-λγ⁠, где γ — временной коэффициент дисконтирования (обсуждается ниже), а λ соответствует обычному использованию, чтобы указать на постоянство следа правомочности. Обновление тега зависит от вклада синапса в выбранное действие. Формально это означает, что в каждом пластиковом соединении в весовых матрицах WSx, Whx, WhS *, Wqh⁠ каждый Tagji между пресинаптическим блоком i и постсинаптическим блоком j обновляется в соответствии с:

для соединений h → q⁠:

ΔTagjiqh = -αTagjiqh + hi · zj,

(2.4) и для соединений x → h и S → h⁠:

ΔTagjihx = -αTagjihx + x · σ ‘(hj) · wj’,

(2.5)

ΔTagjihS = -αTagjihS + S · σ ‘(hj) · wj ‘,

(2.6) с:

Здесь термин hj относится к выходу скрытого блока j⁠, а σ ‘- производная сигмовидной передаточной функции. Термин wj ‘указывает количество повторяющейся обратной связи от вектора действия z на узлы скрытого слоя. Эта обратная связь определяется весом между скрытыми узлами и выбранными действиями, где zk = 1, если действие k выбрано, и zj = 0 для всех невыбранных действий j⁠.Связи обратной связи обновляются с помощью того же правила обучения, что и прямые связи. Следовательно, прямые и обратные связи остаются или становятся реципрокными, что наблюдалось в нейрофизиологии (Mao et al., 2011).

Синаптические соединения обновляются, когда синаптические теги взаимодействуют с сигналом глобальной ошибки предсказания вознаграждения (RPE). Этот сигнал, δ (t) ⁠, моделируется на основе дофамина полосатого тела и отражает знаковую разницу между ожидаемым и полученным вознаграждением.Это выражается в правиле временной разницы SARSA:

δ (t) = r (t) + γQ (t) -Q (t-1).

(2.8) То есть модель оценивает предыдущие действия на основе полученного вознаграждения r (t) плюс сумму ожидаемого будущего вознаграждения Q (t), умноженную на временной коэффициент дисконтирования γ∈ [0,1], и сравнивает эта оценка с ранее ожидаемым значением Q (t-1) ⁠. Затем RPE запускает глобальный нейромодулирующий сигнал, который равномерно распространяется по сети и взаимодействует с синаптическими тегами для изменения весов, то есть:

ΔW (t) = βδ (t) Tag (t),

(2.9) где β — скорость обучения. Обратите внимание, что две силы, которые определяют обновления веса, — это RPE и синаптические теги. Сигнал RPE гарантирует, что после того, как модель точно прогнозирует вознаграждение, результирующее δ (t) = 0 и веса останутся неизменными, что позволяет модели сходиться к решению, основанному на политике. Синаптические теги, с другой стороны, решают проблему присвоения кредитов посредством обратной связи, управляемой вниманием: единицы в скрытом слое, активность которых оказала большее влияние на Q-значение выбранных действий, получают более сильную обратную связь и формируют более сильные теги, тогда как единицы, которые не участвовали в выбранном действии, не будут иметь обновлений веса.Предыдущая работа установила, что это правило обучения предлагает биологически возможное приближение ошибки, обратное распространение (Rombouts, Bohte, & Roelfsema, 2015).

Во всех симуляциях модель обучалась с использованием тех же общих принципов, которые соответствуют типичному обучению животных. Изменения в среде и полученное вознаграждение зависели от внешних действий агента, тогда как внутренние действия, относящиеся к обновлениям WM, никогда не вознаграждались напрямую.Испытания прекращались без вручения вознаграждения, если модель выбирала неправильную двигательную реакцию. Награда могла быть получена дважды за испытание. Во-первых, все задачи требовали, чтобы агент выполнял действие по умолчанию на протяжении всего испытания (например, удерживание взгляда в центральной точке фиксации или удерживание рычага реакции) до тех пор, пока не было принято решение с учетом памяти. Мы поощряли первоначальный выбор этого действия, предлагая небольшую награду за формирование (⁠r = 0,2⁠) за выбор этого действия на первом временном шаге.В конце испытания, если правильное решение было принято в ответ на критический стимул, выплачивалось большое вознаграждение (r = 1,5⁠). В наших оценках модели испытания считались правильными только тогда, когда были получены оба вознаграждения.

Хотя не все входные данные и вычисления были строго необходимыми или полезными в каждой задаче, сетевая архитектура, значения параметров и представление входных данных оставались неизменными во время моделирования; Для всех задач мы изменили только модуль внешних действий, чтобы представить допустимые двигательные реакции для различных задач.

Пожалуй, одной из самых центральных и в то же время простых задач WM является задача отложенного распознавания (DR). Здесь агента просят сравнить два стимула, разделенных задержкой удержания, и дать ответ в зависимости от того, совпадают они или нет. Здесь мы показываем, что случайные, необученные проекции кодирования в WorkMATe не только достаточны для такой задачи сравнения, но и что решение также обобщается на стимулы, которые агент не наблюдал раньше.Мы обучили агента простой задаче DR, где ему последовательно предъявляли крест фиксации, стимул зонда, другой крест фиксации и тестовый стимул, который либо соответствовал зонду, либо нет (см. Рисунки 2A и 2B). Стимулы состояли из уникальных бинарных паттернов из шести значений (два примера стимулов см. На Рисунке 2B). Один дополнительный седьмой вход использовался для сигнализации наличия точки фиксации. Агент должен был удерживать ответ до появления тестового стимула, а затем он должен был сделать один из двух вариантов, чтобы указать, соответствует ли тестовый стимул зонду (мы использовали саккаду влево / вправо для совпадения / несоответствия).Всего мы смоделировали 750 сетей со случайно инициализированными весами. Во время начального обучения пробный и тестовый стимулы были выбраны из набора из трех уникальных стимулов (набор 1). После того, как производительность сходилась (более 85% правильных проб), набор стимулов был заменен набором из трех новых стимулов (набор 2). Этот процесс повторялся до тех пор, пока производительность не сравнялась для шести наборов стимулов.

В этом и во всех других симуляциях мы сообщаем о степени сходимости на основе всех испытаний, включая испытания с исследовательскими действиями.

На рисунках 2C и 2D показано, как пример обученной сети решает данное испытание на соответствие и несоответствие. Крайние слева гистограммы иллюстрируют входные данные сети, состоящие из сенсорных единиц и единиц времени. Оба испытания имеют одинаковый тестовый стимул (зеленая полоса), но различаются по зонду (синяя полоса в D). Каждый из этих стимулов закодирован как уникальный, частично перекрывающийся шестибитовый паттерн. Каждая единица измерения времени (левая нижняя гистограмма) достигает пика в уникальный момент времени, и вместе они передают дрейфующее представление времени с момента начала испытания.Активность в узлах сопоставления (оранжевая и фиолетовая кривые) передает результат сравнения содержимого каждого блока памяти с текущим представленным стимулом: сопоставление 1 и сопоставление 2 для сравнения с содержимым в блоке памяти 1 и блоке памяти 2, соответственно. Политика агента заключается в том, чтобы сохранить пробный стимул в блоке 2 и поддерживать этот элемент на протяжении всего испытания, чтобы сигнал совпадения в тестовом стимуле мог определять окончательное совпадение по сравнению с решением о несоответствии (разница в активности совпадения 2 в тестовом стимуле на панелях C и D).

Значения Q, вычисленные в модулях вывода, показаны справа на рисунках 2C и 2D. Выбираются действия с наивысшим значением, и возникает политика, изображенная под обоими графиками. Отдельные значения в этих модулях не допускают прямой интерпретации: только сумма значений выбранных действий используется для ускорения обучения и приближается к истинному Q-значению. На практике, однако, мы обнаружили, что два модуля в некоторой степени поровну внесли свой вклад в общую оценку, как показано в этом примере сети.

Обратите внимание, что политика, полученная этим агентом, была одинаковой для условий совпадения и несоответствия и легко применима к той же настройке задачи с новыми стимулами. Чтобы проверить, распространяется ли политика на новые стимулы, мы оценили количество испытаний, которые требовалось агенту для схождения после каждого перехода к новому набору. Результаты на рисунке 3 показывают, что агенты смогли обобщить наборы стимулов. Сходимость по первому набору была относительно медленной (рис. 3A): среднее количество испытаний, необходимых для сходимости, составляло приблизительно 12 700%, при этом 95% агентов сходились в пределах 4379 к 46 724 испытаниям.После первого переключения конвергенция произошла намного быстрее после медианы 1066 испытаний (95% в пределах от 212 до 5288 испытаний). При каждом последующем переключении агенты отображали дальнейшее обобщение, и среднее количество испытаний, необходимых для сходимости в наборе 6, составляло всего 343,5 (95% в пределах от 90 до 1994 испытаний. Мы отмечаем, что 85 испытаний — это абсолютное минимальное количество испытаний перед любым агентом. может достичь нашего критерия точности 85%

Рисунок 3:

Выполнение и обучение задаче отложенного распознавания с новыми стимулами.(A) Скорость сходимости по 750 агентам (слева: производительность первых 6000 испытаний с каждым новым набором стимулов; справа: сходимость по всем наборам, с логарифмической шкалой времени). В первом наборе сходимость относительно медленная, но на последующих наборах агенты обучаются намного быстрее. Скорость сходимости увеличивается с каждым новым набором. (B) Производительность с новыми стимулами сразу после переключения увеличивается с каждым переключением, указывая на то, что агенты обобщают задачу на новые наборы стимулов. (C) Точность для первой встречи с новым тестовым стимулом, при первом испытании, в котором модель сохраняла фиксацию до тех пор, пока тестовый стимул не был предъявлен.Обратите внимание, что точность составляет 87,1% для набора 2 после первого переключения стимула. Затем агенты дополнительно обобщают правило для контекстов, поскольку точность составляет 90% или выше для всех последующих переключений набора.

Рисунок 3:

Выполнение и обучение задаче отложенного распознавания с новыми стимулами. (A) Скорость сходимости по 750 агентам (слева: производительность первых 6000 испытаний с каждым новым набором стимулов; справа: сходимость по всем наборам, с логарифмической шкалой времени). В первом наборе сходимость относительно медленная, но на последующих наборах агенты обучаются намного быстрее.Скорость сходимости увеличивается с каждым новым набором. (B) Производительность с новыми стимулами сразу после переключения увеличивается с каждым переключением, указывая на то, что агенты обобщают задачу на новые наборы стимулов. (C) Точность для первой встречи с новым тестовым стимулом, при первом испытании, в котором модель сохраняла фиксацию до тех пор, пока тестовый стимул не был предъявлен. Обратите внимание, что точность составляет 87,1% для набора 2 после первого переключения стимула. Затем агенты дополнительно обобщают правило для контекстов, поскольку точность составляет 90% или выше для всех последующих переключений набора.

Затем мы оценили производительность в первых 100–500 испытаниях с каждым новым набором, чтобы выяснить, насколько быстро агенты усваивают задание с новыми стимулами (рис. 3). Первоначальная производительность в наборе 1 (после 100 испытаний) была близка к вероятности: приблизительно 1% правильных ответов в задаче, требовавшей выбора четырех последовательных правильных действий из трех вариантов. Постепенно производительность увеличилась и достигла 18.Точность 5% за 500 попыток. После первого переключения (на набор 2) производительность не упала до случайности: скорее, агенты сразу выполнили 55,8% правильных результатов в первых 100 испытаниях и 66,3% правильных результатов после 500 испытаний. При каждом последующем переключении набора немедленная производительность с невиданными ранее стимулами продолжала расти, при этом производительность составила 70,3% для последнего набора. В последних двух наборах эффективность критерия (85%) была получена в течение 500 испытаний. Эти результаты предполагают, что агенты действительно смогли обобщить приобретенную политику для новых контекстов, хотя каждый переключатель набора по-прежнему требовал некоторого дополнительного обучения.

Мы подозревали, что одной из важных причин, по которой модель не удалось немедленно обобщить на новые наборы, могло быть то, что агенты нарушили фиксацию на новых стимулах. Обратите внимание, что совершенно новый шаблон ввода использует соединения, которые ранее не использовались в задаче, что может вызвать ошибочные саккады из-за их случайной инициализации. Чтобы учесть такие ошибки, мы также оценили точность агентов в первом испытании, в котором они столкнулись с новым зондом и сохранили фиксацию до тестового стимула.Мы наблюдали среднюю точность 87,1% у агентов при их первом столкновении с новым стимулом из набора 2. Этот показатель точности также увеличивался для последующих наборов, со средней точностью примерно 92,6%, правильной для первых встреч со стимулами из наборов 5 и 6. Таким образом, подавляющее большинство ошибок в новых наборах стимулов было вызвано перерывами в фиксации, и модель действительно изучила задачу сопоставления таким образом, который позволяет практически мгновенно обобщить новые наборы стимулов: подавляющее большинство ошибок в более поздних наборах были вызванные перерывами в фиксации.

Затем мы исследовали производительность WorkMATe в задаче 12-AX, задаче, которая использовалась для демонстрации способности PBWM гибко обновлять содержимое WM. Задача 12-AX — это иерархическая задача с двумя контекстами: 1 и 2. В задаче последовательно представлены буквы и числа, и для каждого требуется ответ «годен» или «нет». Всякий раз, когда 1 была представлена ​​как последняя цифра, применяется контекст 1.В этом контексте буква A, за которой следует X, должна вызывать ответную реакцию на X, в то время как любой другой стимул требует реакции запрета. Когда представлена ​​цифра 2, применяется второй контекст: теперь только буква B, за которой следует Y, должна вызывать ответ go. Агенты должны отдельно поддерживать и обновлять как контекст (1 или 2), так и последний представленный стимул, чтобы правильно реагировать на императивные стимулы X или Y.

Участники-люди могут выполнять эту иерархическую задачу после словесных инструкций, но усвоение правил, определяющих правильный ответ, исключительно путем обучения методом проб и ошибок представляет собой проблему.PBWM изучил эту задачу, используя сложную комбинацию обучения с подкреплением, обучения с учителем и методов обучения без учителя (O’Reilly et al., 2007; O’Reilly, 1996a; Aizawa & Wurtz, 1998), но Тодд, Нив и Коэн ( 2009) показали, что агенты также могут изучить эту задачу, используя более простую схему обучения с подкреплением SARSA (λ). Насколько нам известно, не было опубликовано никаких данных о людях или других приматах, изучающих задачу такой сложности только с помощью обучения с подкреплением.

Здесь мы использовали пробную версию задачи, где при каждом испытании отображается последовательность символов непредсказуемой длины, которая заканчивается знаком X или Y.Во время этой последовательности агент должен был ответить, как описано выше. Учитывая сложность задачи, мы обучили агентов по учебной программе (Bengio, Louradour, Collobert, & Weston, 2009; Zaremba & Sutskever, 2014; Graves et al., 2016), схема обучения, в которой испытания были организованы по уровням , который постепенно усложнялся. Как только агент показал достаточную производительность на уровне, началось обучение для следующего уровня. Примеры последовательностей на разных уровнях сложности показаны на рисунке 4A.Ключом к изучению учебной программы является то, что также представлены типы испытаний из предыдущих, более легких уровней, чтобы не допустить отказа от изучения более простых случаев. В нашей учебной программе 50% испытаний всегда были наивысшего уровня сложности, а остальные 50% были более простыми случаями, взятыми из одного из предыдущих уровней с равной вероятностью для всех предыдущих уровней. Сложность увеличивалась, когда результативность в последних 100 попытках была правильной более чем на 85%.

Рисунок 4:

Обучение на основе пробной версии 12AX.(A) Учебная программа, используемая для обучения агента, с примерами последовательностей испытаний для иллюстрации уровней сложности. Как только агент правильно выполнит 85% испытаний, будет введен более высокий уровень сложности и представлен в 50% испытаний (критические испытания), а остальные 50% будут взяты из более низких уровней. (B) Политика в отношении примера испытания (см. Рисунок 2E), полученного иллюстративным модельным агентом, сходящимся на самом высоком уровне сложности. Агент правильно обновляет содержимое памяти по каждому стимулу, но вознаграждается только на основе его окончательного двигательного действия в ответ на целевой символ (X / Y).Этот агент сохранил контекст задачи (1/2) в блоке памяти 1 и сохранил последний замеченный стимул, цель или отвлекающий фактор в блоке 2. (C) Кумулятивная гистограмма от 500 агентов, отображающая количество попыток, необходимых для конвергенции по каждому из них. сложный уровень. Обучение на более высоких уровнях сложности не начинается, пока не будут изучены более низкие уровни. На графике справа показаны коэффициенты сходимости с учетом только испытаний, взятых из наивысшей сложности.

Рисунок 4:

Обучение на пробной основе 12AX.(A) Учебная программа, используемая для обучения агента, с примерами последовательностей испытаний для иллюстрации уровней сложности. Как только агент правильно выполнит 85% испытаний, будет введен более высокий уровень сложности и представлен в 50% испытаний (критические испытания), а остальные 50% будут взяты из более низких уровней. (B) Политика в отношении примера испытания (см. Рисунок 2E), полученного иллюстративным модельным агентом, сходящимся на самом высоком уровне сложности. Агент правильно обновляет содержимое памяти по каждому стимулу, но вознаграждается только на основе его окончательного двигательного действия в ответ на целевой символ (X / Y).Этот агент сохранил контекст задачи (1/2) в блоке памяти 1 и сохранил последний замеченный стимул, цель или отвлекающий фактор в блоке 2. (C) Кумулятивная гистограмма от 500 агентов, отображающая количество попыток, необходимых для конвергенции по каждому из них. сложный уровень. Обучение на более высоких уровнях сложности не начинается, пока не будут изучены более низкие уровни. На графике справа показаны коэффициенты сходимости с учетом только испытаний, взятых из наивысшей сложности.

Эта основанная на испытаниях учебная программа не только облегчила обучение, но и имела еще одно преимущество по сравнению с предыдущими подходами к обучению 12-AX (O’Reilly & Frank, 2006; Todd et al., 2009; Мартинолли, Герстнер и Гилра, 2017). В предыдущих реализациях императивный стимул X / Y всегда возникал в один из нескольких критических моментов после правила контекста, тогда как здесь мы смешивали последовательности очень разной длины. Мы обнаружили, что без этой вариации модели могут соответствовать критерию сходимости только на основе времени, без фактического полного усвоения правил задачи. В текущей учебной программе агенты действительно решили задачу, применив соответствующие политики хранения ко всем уровням сложности и длительности пробной версии.

Все 500 агентов объединились и смогли точно выполнить задачу на самом высоком уровне сложности. Политика, приобретенная одним из этих агентов, изображена на рисунке 4B, который иллюстрирует пример испытания с максимальной сложностью. На протяжении всей последовательности агент выбирал действие удержания, обновляя каждый последний предъявленный стимул, кодируя их в блок 2. Однако стимулы, обозначающие контекст правила (1/2), кодировались в слот памяти 1 и обновлялись только тогда, когда контекст измененный.После предъявления императивного стимула (в данном случае Y) эта политика стробирования позволяла агенту использовать память о текущем контексте (2) и предыдущих стимулах (B), чтобы решить дать правильный ответ.

Скорость сходимости для этой задачи изображена на рисунке 4C. Несмотря на сложность этой задачи, все агенты достигли критериев эффективности в среднем примерно 62 000 испытаний (95% диапазон от 11 566 до 180 988).Большая часть этих испытаний была повторением более легких уровней, а количество критических (конечный уровень) испытаний до конвергенции было ниже, со средним значением около 42 000 испытаний (95% от 8700 до 121 208). Таким образом, модель смогла усвоить правила сложной иерархической задачи, которая требует гибкого включения элементов в WM и из них, основываясь только на относительно редких вознаграждениях, которые давались только в конце правильно выполненных испытаний.

Механизмы стробирования WorkMATe, позволяющие решить проблему 12-AX, являются производными от механизмов, предложенных для PBWM (O’Reilly & Frank, 2006), и подобны упрощенной модели PBWM, предложенной Todd et al.(2009), WorkMATe демонстрирует, что политику управления для 12-AX можно получить исключительно с помощью обучения с подкреплением. Тем не менее WorkMATe сильно отличается от этой упрощенной модели PBWM в одном критическом отношении: в то время как упрощенная PBWM использует табличную архитектуру с уникальной строкой для каждой комбинации внешнего и внутреннего состояний, WorkMATe — это нейронная сеть, которая должна полагаться на распределенные перекрывающиеся представления стимулов, а также несовершенное сжатое представление стимулов в рабочей памяти.Мы создали симуляцию, чтобы изучить, как эта разница, вместе с более тонкими различиями между двумя моделями, может повлиять на обучение. С этой целью мы сравнили 250 экземпляров WorkMATe с 250 экземплярами упрощенной модели PBWM и обучили обе группы моделей первым четырем урокам пробной задачи 12-AX. Затем мы оценили количество критических испытаний, необходимых для каждого типа модели, чтобы изучить каждый последующий уровень.

Результаты, представленные на рисунке 5, показывают, что архитектура нейронной сети изначально ставит WorkMATe в невыгодное положение по сравнению с табличной архитектурой.Поскольку WorkMATe должен полагаться на сжатые, перекрывающиеся представления, ему сначала необходимо научиться разделять соответствующие стимулы, прежде чем он сможет сопоставить эти стимулы с применимой политикой, тогда как упрощенная модель PBWM эффективно уже делает это при инициализации. Однако после того, как это было изучено на первом уровне сложности, обе модели показывают одинаковую скорость схождения для более высоких уровней сложности. То есть, как только нейронная сеть способна разделять соответствующие стимулы, WorkMATe работает аналогично символической архитектуре, где стимулы диссоциированы по определению.Обратите внимание, что хотя табличное сопоставление один-на-один между состояниями и действиями может принести пользу обучению на начальном этапе в настройке 12-AX, используемой здесь, именно эта архитектура запрещает таким моделям, как PBWM, обобщать приобретенные политики для новых контекстов с новым контекстом. стимулы, как было показано в разделе 3.1 с помощью WorkMATe. В следующем разделе показаны аналогичные возможности обобщения в более сложной иерархической постановке задачи.

Рисунок 5:

Сравнение WorkMATe с упрощенной моделью PBWM Тодда и др.(2009). На графике нанесено среднее количество критических испытаний, необходимых для схождения, вычисленное для 250 агентов каждого типа. На первом уровне табличная модель упрощенной модели PBWM явно имеет преимущество. Однако, как только WorkMATe научится разделять соответствующие стимулы, обе модели учатся одинаково быстро.

Рисунок 5:

Сравнение WorkMATe с упрощенной моделью PBWM Тодда и др. (2009). На графике нанесено среднее количество критических испытаний, необходимых для схождения, вычисленное для 250 агентов каждого типа.На первом уровне табличная модель упрощенной модели PBWM явно имеет преимущество. Однако, как только WorkMATe научится разделять соответствующие стимулы, обе модели учатся одинаково быстро.

В серии элегантных исследований Миллер и его коллеги (Warden & Miller, 2007, 2010; Siegel et al., 2009; Rigotti et al., 2013) сообщили данные о макаках, обученных задачам, в которых требовалось использовать несколько зрительных стимулов. поддерживается в WM.Например, в задании на упорядоченное распознавание обезьяна была обучена запоминать два последовательно предъявленных визуальных стимула (A и B) и сообщать, были ли стимулы предъявлены позже снова, и в том же порядке. При испытаниях на совпадение одни и те же объекты повторялись (ABAB), и обезьяна реагировала после совпадения на оба объекта; на четвертом стимуле в последовательности. Были испытания несоответствия, в которых первый или второй стимул заменяли третьим стимулом C (ABAC или ABCB), а также испытания несоответствия с теми же стимулами (A и B), но в обратном порядке (ABBA).В случае несоответствия обезьяна ждала, пока A и B не будут показаны в правильном порядке как пятый и шестой стимулы (например, ABACAB), и, таким образом, ответила на шестой стимул. В каждом сеансе записи использовались три новых визуальных стимула, чтобы сформировать последовательности, где каждый из этих стимулов мог взять на себя роль A, B или C в любом испытании.

Эта упорядоченная задача распознавания требует выборочного обновления и считывания воспоминаний таким образом, чтобы общие функции с задачами 12-AX и DR из предыдущих разделов.Как и в задаче 12-AX, два стимула необходимо поддерживать и обновлять отдельно, и задача выходит за рамки простого запоминания двух элементов: порядок стимулов также должен быть сохранен и определяет правильную последовательность действий. Как и в случае с задачей DR, обезьяны достигли разумной точности, даже несмотря на то, что в каждом сеансе предъявлялись новые стимулы, подразумевая, что они могли обобщить свою политику для новых наборов стимулов.

Мы протестировали WorkMATe на этой упорядоченной задаче распознавания.Мы обучили 750 модельных агентов, случайным образом выбирая стимулы из того же набора, который мы использовали для моделирования DR, описанного выше. Половина испытаний была последовательностью совпадений, а другая половина состояла из трех возможных последовательностей несовпадения в равной пропорции. Эффективность критерия была определена как точность не менее 85% на последних 100 испытаниях с дополнительным требованием точности не менее 75% на последних 100 испытаниях в каждом из четырех условий. В режиме статической тренировки мы поддерживали три выбранных стимула идентичными для агента на протяжении всего тренировочного цикла.В динамическом режиме три стимула были заменены тремя новыми случайно выбранными стимулами после 3000 попыток. Это означало, что каждый из трех стимулов примерно 1000 раз играл роль A, B или C, прежде чем они были заменены новым набором.

Скорости сходимости для статического режима показаны сплошными линиями на рисунке 6A. Агенты освоили полную задачу после среднего числа примерно 106 000 испытаний (95% агентов между 25 880 и 856 868 испытаниями).В статическом режиме мы обнаружили, что изучению общей задачи в первую очередь препятствовало условие Несоответствие 1 (ABCB).

Сходимость по этому условию обычно занимала гораздо больше времени (медиана: 86 390), чем по другим условиям (медианы: 3128, 24 076 и 28 858 испытаний для Match, Swap и Mismatch 2 соответственно). Увеличение сложности в динамическом режиме привело к общему времени обучения, которое было в пять-шесть раз больше (см. Рисунок 6A, пунктирные линии), чем в статическом режиме, со сходимостью после медианы примерно 641000 испытаний (95% моделей сходились. от 139 907 до 3 797 200 исследований).Интересно, что по сравнению со статическим режимом начальная сходимость была сравнительно быстрой в каждом из условий несоответствия, в среднем в пределах примерно 13 000 испытаний (75% правильных). Причина этого в том, что многие агенты изначально научились сдерживать свою реакцию до конца испытания, но не научились сохранять или обновлять соответствующие стимулы в WM. Хотя изначально все условия несовпадения сходились довольно быстро, мы заметили, что во время обучения увеличение производительности условия совпадения часто сопровождалось снижением производительности в условии несовпадения 1.

Рисунок 6:

Задача распознавания, упорядоченная ABAB. (A) Схождение 500 агентов в выполнении полной задачи (черные линии) и в разных условиях по отдельности (цветные линии) в двух режимах обучения: статическом (одинаковые стимулы используются на протяжении всего обучения) или динамическом (новые стимулы устанавливаются после каждых 3000 попыток). В обоих режимах задача обычно изучается примерно в 105 попытках, но сходимость варьируется в зависимости от условий.Обратите внимание на логарифмическую ось времени. (B) Запомненное несоответствие. (C) Запомненная политика времени хранения. Обе политики отражают общие, общие решения, найденные среди конвергентных агентов, и обсуждаются в основном тексте. Оба они построены по схеме на рис. 2C и 2D.

Рисунок 6:

Задача распознавания, упорядоченная ABAB. (A) Схождение 500 агентов в выполнении полной задачи (черные линии) и в разных условиях по отдельности (цветные линии) в двух режимах обучения: статическом (одинаковые стимулы используются на протяжении всего обучения) или динамическом (новые стимулы устанавливаются после каждых 3000 попыток).В обоих режимах задача обычно изучается примерно в 105 попытках, но сходимость варьируется в зависимости от условий. Обратите внимание на логарифмическую ось времени. (B) Запомненное несоответствие. (C) Запомненная политика времени хранения. Обе политики отражают общие, общие решения, найденные среди конвергентных агентов, и обсуждаются в основном тексте. Оба они построены по схеме на рис. 2C и 2D.

Мы качественно исследовали политику конвергентных агентов, чтобы выяснить, почему Несоответствие 1 представляет такую ​​проблему для модели.Обратите внимание, что при испытаниях других условий (совпадение, замена и несоответствие 2, которые вместе составляют 83,3% всех испытаний) правильный ответ может быть определен на основе относительно простых выводов: агенту просто нужно научиться кодировать второе стимула (B) и поддерживайте его в течение двух временных шагов, а также используйте входные данные временной ячейки для определения четвертого и шестого предъявления стимула. Затем, если стимул в момент t = 4 совпадает со стимулом, который был закодирован в момент t = 2⁠, необходим ответ «идти»; в противном случае — до t = 6⁠.Однако условие Mismatch 1 требует сложного управления памятью. Агент должен сохранить как первоначально представленные A, так и B, обнаружить несоответствие при t = 3⁠ и каким-то образом передать это несоответствие таким образом, чтобы предотвратить ответы на соответствующий стимул (B) при t = 4⁠. Однако в существующей архитектуре WorkMATe не имеет возможности кодировать это несоответствие, поэтому агент не способен к такому метапознанию.

Тем не менее агенты обычно находили решение, которое относилось к одному из двух классов.В обоих решениях первые два стимула (A / B) отдельно кодировались в двух блоках памяти. Первое решение, которое мы называем стратегией запомненного несоответствия (см. Рис. 6B), по существу следовало следующему правилу: если стимул в момент t = 3 не соответствует ни одному из стимулов в памяти, и, следовательно, испытание должно соответствовать условию несоответствия 1, агент заменил стимул B в памяти «новым» стимулом C. В результате стимул B при t = 4 больше не соответствовал никакому стимулу в памяти, что заставляло агента удерживать ответ.Второе решение, стратегия запоминания времени хранения, использует тот факт, что активность временной ячейки в момент кодирования включается в представление памяти таким образом, чтобы сеть могла научиться интерпретировать. В этой стратегии ключевым шагом было то, что если стимул в момент t = 3 не соответствовал стимулу A, несовпадающий стимул был перезаписан в памяти новым стимулом. При t = 4⁠ правильное решение может быть принято только путем ответа, если представленный стимул соответствует стимулу B в одном хранилище памяти, и если другое хранилище памяти все еще содержит временную информацию с первого временного шага.

В заключение, эти симуляции демонстрируют, что WorkMATe может получить комплексный контроль над содержимым WM, чтобы надлежащим образом решать сложные иерархические задачи с динамическим переключением контекстов стимулов — опять же, исключительно на основе сигналов подкрепления.

Чтобы сравнить WorkMATe с его предшественником без ворот, AuGMEnT (Rombouts, Bohte, & Roelfsema, 2015), мы смоделировали агентов, изучающих отложенную про / антисаккадную задачу, классическую задачу в исследованиях памяти приматов как у людей, так и у нечеловеческих, и на которой AuGMEnT также прошел обучение и оценку.Задача (см. Рисунок 7A) требует, чтобы агент поддерживал фиксацию в центральной точке фиксации. Агент должен кодировать местоположение периферийного зонда и запоминать его во время задержки. Испытания с черной точкой фиксации являются просаккадными испытаниями, и когда точка фиксации исчезает, агент совершает саккадическое движение глаза к запомненному местоположению зонда. При испытаниях против саккады точка фиксации белая, и теперь агент должен сделать движение глаза в направлении, противоположном запомненному местоположению реплики, после задержки памяти.

Рисунок 7:

(A) Иллюстрация четырех условий в задаче просаккада / антисаккада. Агент должен запомнить местонахождение зонда и произвести про- или антисаккаду после задержки, в зависимости от типа испытания, указанного сигналом (белая или черная точка фиксации). Таким образом, агент должен интегрировать информацию на протяжении всего испытания и принимать решение «исключающее ИЛИ» при предъявлении сигнала «Старт». Следует отметить, что политика стробирования в этом испытании, изображенная на панели C, применима в каждом из четырех условий в этой задаче.(B) Скорость сходимости для 2 × 500 смоделированных агентов двух разных типов. Сплошная линия показывает сходимость с WorkMATe. Пунктирная линия показывает производительность с измененной версией модели, в которой политика стробирования не изучена, а правильно предопределена и зафиксирована заранее. (C) Политика (см. Рисунок 2E) примера агента после конвергенции, во время испытания антисаккада с «левым» зондом. Эта политика стробирования применяется ко всем условиям испытаний.

Рисунок 7:

(A) Иллюстрация четырех условий в задаче просаккада / антисаккада.Агент должен запомнить местонахождение зонда и произвести про- или антисаккаду после задержки, в зависимости от типа испытания, указанного сигналом (белая или черная точка фиксации). Таким образом, агент должен интегрировать информацию на протяжении всего испытания и принимать решение «исключающее ИЛИ» при предъявлении сигнала «Старт». Следует отметить, что политика стробирования в этом испытании, изображенная на панели C, применима в каждом из четырех условий в этой задаче. (B) Скорость сходимости для 2 × 500 смоделированных агентов двух разных типов.Сплошная линия показывает сходимость с WorkMATe. Пунктирная линия показывает производительность с измененной версией модели, в которой политика стробирования не изучена, а правильно предопределена и зафиксирована заранее. (C) Политика (см. Рисунок 2E) примера агента после конвергенции, во время испытания антисаккада с «левым» зондом. Эта политика стробирования применяется ко всем условиям испытаний.

Мы обучили 500 экземпляров нашей сети, и все выучили задачу (более 85% правильных) в течение 100 000 испытаний (см. Рисунок 7B, сплошная линия).Среднее количество испытаний составило приблизительно 15 000 (95% от 6 835 до 56 155 испытаний). Эта скорость конвергенции выше, чем у обезьян, которые обычно изучают такую ​​задачу только после нескольких месяцев ежедневных тренировок с примерно 1000 попыток за сеанс. Однако обучение длилось примерно в три-четыре раза дольше, чем с исходной архитектурой AuGMEnT. Это объясняется несколькими различиями между AuGMEnT и WorkMATe. Например, параметры, управляющие Q-обучением, не были оптимизированы для WorkMATe, а были заимствованы из AuGMEnT для облегчения сравнения.Однако наиболее важное различие между моделями состоит в том, что хранилище с закрытой памятью, ядро ​​модели WorkMATe, было слишком гибким для этой задачи. Архитектура AuGMEnT без ворот закодировала все соответствующие стимулы в свою память, так что накопление соответствующей информации было доступно в сигнале запуска. Архитектура WorkMATe сначала должна была получить соответствующую политику стробирования (см. Рисунок 7C), чтобы убедиться, что правильное решение может быть принято на основе цвета фиксации и местоположения датчика на рабочем дисплее, когда информация больше не доступна.Примечательно, что политика стробирования может быть одинаковой для всех условий: если сигнал и зонд отдельно доступны в памяти, можно принять правильное решение.

Чтобы проверить, может ли дополнительная сложность изучения политики стробирования объяснить разницу в скорости обучения между WorkMATe и AuGMEnT, мы обучили новый набор «безвыходных» агентов для этой задачи. Эти агенты были идентичны WorkMATe, за исключением того, что стробирующие действия были с самого начала предопределены, чтобы соответствовать изображенным на рисунке 7C.С этой настройкой сложность была сопоставима со сложностью архитектуры AuGMEnT. Действительно, скорость сходимости для этих агентов без ворот (среднее количество испытаний, около 5000; 95% от 2076 до 20 334 испытаний) были очень похожи на таковые для AuGMEnT и были примерно в три раза быстрее, чем с закрытым WorkMATe (см. Рисунок 7B).

Эти симуляции подчеркивают сильные и слабые стороны архитектур с памятью без шлюза и со стробированием.Более простых моделей без ворот, которые проецируют все стимулы в память, достаточно для таких задач, как задача про / антисаккад. Эти задачи не требуют выборочного обновления представлений в памяти и не содержат отвлекающих стимулов, которые мешают представлению в памяти. С другой стороны, стробирование важно для задач, в которых доступ к WM должен контролироваться на основе правил. Как в задаче упорядоченного распознавания ABAB, так и в задаче 12-AX доступ стимула к памяти зависит от других элементов, которые представлены в истории испытания.Мы предполагаем, что оба типа WM, закрытые и незащищенные, могут существовать в мозгу, так что преимущества обеих стратегий могут быть использованы, когда они полезны.

Наше моделирование демонстрирует, что модель WorkMATe способна определить точную производительность для ряда популярных задач WM. Во время этих симуляций мы сохранили архитектуру модели и параметры постоянными: то есть мы использовали только минимальное количество блоков памяти (два) и одни и те же параметры обучения в каждой задаче.В этом разделе мы исследуем, насколько производительность WorkMATe зависит от этого выбора.

Во-первых, мы исследовали, в какой степени на обучение влияет количество блоков памяти. Для этого мы использовали задачу DR, в которой агенту нужно запомнить только один стимул. Поскольку эта задача может быть решена только с одним блоком памяти, это позволяет изучить влияние дополнительных, эффективно избыточных блоков. Мы обучили модели с одним-четырьмя блоками памяти (всего 500 × 4 = 2000 моделей) и обучили эти модели на трех наборах стимулов, дважды переключаясь на новый набор после сходимости.

В такой задаче, как DR, эффект добавления избыточных блоков имеет преимущества и недостатки для алгоритма WorkMATe. С одной стороны, наличие большего количества блоков для кодирования стимулов увеличивает количество политик, достаточных для решения задачи. В DR-примере на рис. 2C и 2D, например, агент научился кодировать зонд в одном хранилище памяти и кодировать стимул фиксации в другом хранилище рядом с ним.Поскольку фиксирующий стимул не имеет отношения к задаче, было бы достаточно игнорировать его. С другой стороны, большее количество блоков вызывает небольшой недостаток во время исследования, так как шанс выбора оптимального стробирующего действия уменьшается с большим количеством вариантов. Это взаимодействие отражено в результатах на Рисунке 8, который показывает, что все модели с избыточным числом блоков имеют одинаковую производительность. Подобно результатам на Рисунке 3, производительность в первом подходе длилась дольше всего (среднее количество попыток, от 12 501 до 12 659), но было быстрее в последующих подходах (от 1055 до 1137 и от 700 до 756 попыток для подходов 2 и 3, соответственно). .При наличии только одного блока памяти для схождения на начальном наборе потребовалось почти вдвое больше времени (среднее количество испытаний: 25 101), но после того, как была приобретена политика, которую можно было использовать в последующих наборах, производительность постепенно стала аналогичной производительности с избыточным набором. количество блоков (среднее количество испытаний 1418 и 892 в наборах 2 и 3 соответственно). Эти результаты показывают, что алгоритм WorkMATe легко обобщается на более крупные сети с большим количеством блоков без очевидных недостатков для его производительности.Тем не менее, существуют нейрокогнитивные причины для сохранения небольшого количества блоков памяти, к которым мы обратимся в разделе 4.

Рисунок 8:

Сходимость 500 агентов с разным количеством блоков памяти, обученных задаче DR с тремя разными стимулами. наборы (см. раздел 3.1). Сходимость по первому набору отложена на логарифмической оси абсцисс (крайний левый график). Производительность хуже, когда используется только один блок памяти, но одинаково для любого большего количества блоков.

Рисунок 8:

Сходимость 500 агентов с разным количеством блоков памяти, обученных в задаче DR с тремя различными наборами стимулов (см.1). Сходимость по первому набору отложена на логарифмической оси абсцисс (крайний левый график). Производительность хуже, когда используется только один блок памяти, но одинаково для любого большего количества блоков.

Затем мы исследовали, в какой степени параметры обучения влияют на производительность модели. Значения, используемые для этих параметров, оставались постоянными во всех моделированиях и были выбраны в соответствии с исходной моделью AuGMEnT.Эти параметры включают β⁠, который масштабирует величину обновлений синаптического веса, и параметр обучения SARSA λ⁠, который вместе с параметром временного дисконтирования γ⁠ определяет распад синаптических тегов посредством отношения α = 1-λγ⁠. Чтобы выяснить, в какой степени производительность WorkMATe зависит от точных значений этих параметров, мы выполнили поиск по сетке с различными значениями λ и β⁠.

Для этого поиска по сетке мы использовали версии задач, определенных для моделирования выше.Для задачи DR мы использовали всего три набора стимулов. Для задачи упорядоченного распознавания ABAB мы запускали только «Статический» режим обучения (сплошные линии на рисунке 6A). Для 12-AX мы снова использовали обучение по учебной программе и подсчитали только критические испытания на самом высоком уровне сложности (см. Рис. 4C). Задача pro- / anti-saccade выполнялась как есть (см. Сплошную линию на рисунке 7B). Мы оценили все комбинации β = [0,05, 0,10, 0,15,…, 1,0] и λ = [0,1, 0,2, 0,3,…, 0,9], и для каждой комбинации параметров мы запустили 100 экземпляров модели.Моделирование проводилось на кластере Peregrine High Performance Университета Гронингена. Для каждой задачи каждому экземпляру модели было выделено одинаковое количество времени на настенных часах. Предполагая сравнимую производительность всех ядер, это подразумевает одинаковое максимальное количество итераций (испытаний), проводимых для этих задач. Максимальное количество итераций в каждой задаче составляло приблизительно 1870 000 в задаче отложенного распознавания, приблизительно 1700 000 критических испытаний в задаче 12-AX, приблизительно 790 000 испытаний для упорядоченного распознавания ABAB и приблизительно 500 000 в задаче защиты / антисаккады.Число итераций, представленное на рисунке 9, представляет собой среднее число итераций, вычисленное для всех прогонов, в которых была достигнута сходимость. В целом мы обнаружили, что прогоны моделей с высоким β имели относительно низкие скорости сходимости, эффект, который был особенно заметен для задачи ABAB. Чтобы лучше понять стабильность модели для этой задачи, мы провели дополнительное моделирование, в котором мы изменили β в более мелком масштабе β = [0,025, 0,05, 0,075,…, 1,0].

Рисунок 9:

Стабильность модели при выполнении четырех различных задач.Каждая плитка представляет собой λ, β-комбинацию. Синяя заливка плиток указывает скорость сходимости, а красная заливка точек отражает среднее количество итераций, необходимых для сходимости. Обратите внимание, что оси цвета различаются для каждой задачи, а ось X отличается для упорядоченной задачи распознавания ABAB (внизу слева). Плитка с зеленым контуром указывает на комбинацию одного параметра, которая использовалась во всех симуляциях в предыдущих разделах. Можно видеть, что производительность модели в значительной степени не зависит от значений λ и что более низкие значения β обычно связаны с более быстрой сходимостью.

Рисунок 9:

Стабильность модели при выполнении четырех различных задач. Каждая плитка представляет собой λ, β-комбинацию. Синяя заливка плиток указывает скорость сходимости, а красная заливка точек отражает среднее количество итераций, необходимых для сходимости. Обратите внимание, что оси цвета различаются для каждой задачи, а ось X отличается для упорядоченной задачи распознавания ABAB (внизу слева). Плитка с зеленым контуром указывает на комбинацию одного параметра, которая использовалась во всех симуляциях в предыдущих разделах.Можно видеть, что производительность модели в значительной степени не зависит от значений λ и что более низкие значения β обычно связаны с более быстрой сходимостью.

Результаты показаны на рисунке 9. Для всех задач была обнаружена аналогичная картина: производительность была довольно устойчивой в диапазоне значений λ⁠, а более чувствительной — точное значение β⁠. Что касается β⁠, результаты показывают, что слишком высокая скорость обучения пагубно сказывается на WorkMATe.Слишком высокие значения скорости обучения обычно вредны для конвергенции в нейронных сетях, а для WorkMATe это могло быть дополнительным вредом из-за политики стробирования «все или ничего» в модели. Поскольку большие изменения веса могут привести к внезапным изменениям в политике стробирования, это эффективно изменяет пространство входных состояний модели. Следовательно, высокая скорость обучения может препятствовать сходимости, делая ранее изученные пары состояние-действие неактуальными. Хотя эти внезапные изменения также происходят при более низких значениях β, они менее часты, поэтому модели могут адаптироваться.

Эффекты параметра λ, похоже, аналогичным образом отражают неблагоприятные эффекты больших изменений веса. Обратите внимание, что большие изменения веса вызваны высокими значениями β⁠, высокими значениями тегов и большими ошибками прогнозирования. Высокие значения λ приводят к более медленному снижению веса и, следовательно, к относительно высоким значениям тегов. Вариации λ имеют наибольший эффект в задаче 12-AX и задаче про / антисаккад. Общей особенностью этих задач является то, что момент доставки вознаграждения является переменным, из-за чего агенту сложно предсказать, когда именно следует выплатить вознаграждение, даже если он ведет себя в соответствии с политикой.В результате высокие значения λ ухудшают сходимость именно в этих задачах.

Следует отметить, что влияние β и λ на обучение было аналогично тому, которое наблюдалось в предыдущих моделях (Rombouts et al., 2015; Todd et al., 2009). Мы пришли к выводу, что существуют большие области пространства параметров с успешным и стабильным выполнением всех четырех задач. В этих регионах WorkMATe работает стабильно и стабильно.

Мы представили WorkMATe, модель нейронной сети, которая учится гибко управлять своим WM-содержимым биологически приемлемым способом посредством подкрепления. Модель решает относительно простые задачи WM, такие как отложенное распознавание и отложенные задачи про / антисаккад, но также и более сложные задачи, такие как иерархическая задача 12-AX и задача упорядоченного распознавания ABAB. Кроме того, мы показываем, что агент может изучать политики стробирования, которые в значительной степени не зависят от содержания стимула, и успешно применять эти политики для решения задач со стимулами, которые ранее не встречались.Таким образом, WorkMATe демонстрирует ряд важных свойств WM: обучаемость, гибкость и универсальность.

Термины рабочая память и кратковременная память часто использовались взаимозаменяемо в когнитивных науках, хотя термин рабочая память был популяризирован, чтобы сделать дополнительный акцент на способности мозга гибко регулировать и обновлять память. содержание данной задачи требует (Baddeley, 2003).Многие предыдущие модели WM (Mongillo et al., 2008; Schneegans & Bays, 2017; Fiebig & Lansner, 2017) ориентированы на хранение предметов и их поиск. В нашем исследовании основное внимание уделялось обучению использованию и обновлению содержимого памяти в соответствии с требованиями потенциально сложных задач. Этот подход подчеркивает проблемы, с которыми сталкивается мозг, помимо простых проблем емкости и точности: решения о сохранении и извлечении — это когнитивные операции, которые необходимо усвоить для решения задачи, и организация содержимого памяти должна поддерживать обучение этим операциям.

Предыдущие модели, которые мы описали в разделе 1 как модели, ориентированные на действия, решали эту проблему на другом уровне абстракции и, таким образом, выдвигали на первый план различные аспекты этих вычислительных проблем. Модели AuGMEnT использовали базовую архитектуру нейронной сети, чтобы проиллюстрировать биологически правдоподобную реализацию принципов обучения с подкреплением, которые могут применяться к различным задачам и различным архитектурам.Модели LSTM продемонстрировали вычислительные преимущества архитектур памяти с отдельно обученными узлами управления, но, как правило, не учитывали биологическую достоверность. PBWM продемонстрировал, как такое стробирование может быть реализовано с помощью нейронных схем и паттернов активности, обнаруженных в структурах базальных ганглиев, и последующее упрощение Todd et al. (2009) показали, что основные функциональные возможности PBWM могут быть выражены в традиционной схеме обучения с подкреплением. WorkMATe основывается на всех этих предыдущих моделях и предлагает вычислительно управляемую стробированную архитектуру, которая эффективно, но биологически правдоподобным образом учится решать ряд сложных задач с рабочей памятью.

Помимо интеграции представлений этих предшественников, WorkMATe решает ключевую проблему, с которой сталкиваются модели, ориентированные на действия, а именно то, что управляющие операции, приобретенные для решения задачи, должны обобщаться в новом контексте с новыми стимулами. Нейронная схема в хранилище памяти в WorkMATe может хранить произвольные представления и имеет встроенную способность вычислять степень соответствия между представлениями в памяти и поступающей сенсорной информацией.Используя такую ​​схему, вдохновленную моделями, ориентированными на хранение, мы обнаружили, что нет необходимости сначала изучать конкретные представления памяти и что вместо этого достаточно фиксированной случайной проекции для кодирования. Свойства такой схемы кодирования были исследованы ранее (Barak et al., 2013; Saxe et al., 2011), что указывает на то, что это функционально богатый подход, который может применяться к ряду задач памяти. Наше моделирование с помощью задачи pro- / anti-saccade демонстрирует, что такого случайного кодирования с прямой связью достаточно, по крайней мере, для некоторых задач, где соответствующие функции заданы как входные данные с прямой связью для модели.Однако кажется вероятным, что этого будет недостаточно для других задач, в которых меморандум требует определенных и нелинейных комбинаций входных данных. Недавно Бушакур и Бушман (2019) предложили архитектуру хранения рабочей памяти, которая была определена двумя отдельными слоями нейронов: структурированным сенсорным слоем с пулами для отдельных элементов, которые проецировались на общий неструктурированный слой через случайные повторяющиеся соединения со сбалансированным возбуждением. и торможение для каждого нейрона как единственное ограничение.Результирующая архитектура могла также хранить произвольные представления и приводить к ограничениям емкости и забыванию динамики, которые также наблюдаются у людей. В будущей работе можно будет изучить, как WorkMATe может получить выгоду от более сложной архитектуры обслуживания памяти, будь то многоуровневая подсистема или подсистема с повторяющимися подключениями к сенсорным входам, при этом позволяя выполнять общие встроенные вычисления сопоставления.

Поскольку архитектура WorkMATe в значительной степени отделяет содержимое памяти от операций стробирования и обновления, модели приобретают политики, реализующие тип символьного управления памятью: во многих наших симуляциях полученная политика стробирования может интерпретироваться как набор применимых производственных правил. ко всем раздражителям.Предыдущие исследования отмечали, что разрыв между традиционными архитектурами искусственных нейронных сетей и символическими системами является одной из серьезных проблем, которые необходимо преодолеть искусственному интеллекту (Reggia, Monner, & Sylvester, 2014). Предыдущие модели нейронных сетей, которые пытались реализовать аналогичный подход к управлению памятью, основывались на заранее определенных, вручную закодированных последовательностях операций с памятью, жестко закодированных в модели (Sylvester, Reggia, Weems, & Bunting, 2013; Sylvester & Reggia, 2016 ; Eliasmith, 2005; но см. Graves et al., 2016). Здесь мы впервые показываем, что такой контроль над WM может быть приобретен в нейронной системе с помощью биологически правдоподобного правила обучения с подкреплением.

WorkMATe делает несколько упрощающих предположений, которые касаются спорных тем в исследованиях WM и требуют дальнейшего обсуждения. Во-первых, все наши симуляции использовали два независимо обслуживаемых блока памяти для хранения контента, которых оказалось достаточно для этих задач.Продолжаются дискуссии относительно пределов емкости хранилища WM и того, в какой степени они влияют на функциональную организацию элементов в памяти. Двумя противоположными взглядами являются модели на основе слотов (Zhang & Luck, 2008), в которых говорится, что хранилище ограничено дискретным количеством слотов в памяти, и модели на основе ресурсов, которые предполагают отсутствие ограничений на количество элементов, которые могут быть сохранены, но общая точность ограничена определенным количеством ресурсов (Van den Berg & Ma, 2018; Van den Berg et al., 2014; Bays & Husain, 2008). Хотя схема памяти WorkMATes на первый взгляд наиболее близко соответствует архитектуре на основе слотов, ее не следует воспринимать как прямое свидетельство в поддержку таких моделей. В то время как эти дебаты сосредоточены на объеме памяти и точности, наши блоки памяти служат другой функциональной цели: отдельные, независимые блоки памяти непосредственно обеспечивают независимое сопоставление, стробирование и обновление меморандумов. Вполне возможно, что аналогичные функции управления могут быть реализованы в архитектуре, основанной на ресурсах, хотя для этого потребуются дополнительные предположения о том, как элементы памяти могут быть независимо адресованы и обновлены (см. Stewart et al., 2011, для одного из возможных подходов). Напротив, настоящая работа не касается емкости и точности рабочей памяти. Мы смоделировали задачи, для которых требуется не более двух элементов в памяти, что находится в пределах возможностей рабочей памяти человека (Vogel & Machizawa, 2004; Cowan, 2010; Oberauer & Hein, 2012). Несмотря на то, что мы продемонстрировали, что функции управления WorkMATe в принципе можно масштабировать для управления большим количеством блоков, кажется, что более полная модель рабочей памяти также должна учитывать, как меморандумы ухудшаются при интерференции и распаде.

Второе упрощающее предположение, которое мы сделали здесь, заключается в том, что совпадения между сенсорными представлениями и представлениями в памяти вычисляются автоматически и параллельно. Возможность одновременного сопоставления нескольких объектов в WM с помощью одного восприятия является предметом дискуссий в когнитивной психологии (Sternberg, 1966; Banks & Fariello, 1974; Olivers, Peters, Houtkamp, ​​& Roelfsema, 2011; Wolfe, 2012; Konecky, Smith. , & Olson, 2017).Задачи, на которых мы решили сосредоточиться здесь, разворачиваются на относительно медленных скоростях, что позволяет проводить последовательные сравнения. Предыдущие исследования показали, что на высоких скоростях сопоставление нескольких целевых показателей памяти связано с затратами (Houtkamp & Roelfsema, 2009). Схема последовательного сравнения может вводить дополнительные управляющие операции, чтобы определить, какое представление должно иметь приоритет для сопоставления. Здесь мы воздержались от моделирования таких дополнительных операций. В связи с этим некоторые модели, такие как LSTM, могут также затворить вывод WM в дополнение к входу.Они могут применяться в схемах переключения задач, где необходимо поддерживать несколько целей, но только одна должна определять поведение (Monsell, 2003; Alport, Styles, & Hsieh, 1994; Chatham, Frank, & Badre, 2014; Myers et al. ., 2015; Myers, Stokes, & Nobre, 2017; Rushworth, Passingham, & Nobre, 2002), а также в задачах последовательного визуального поиска, когда в WM может храниться несколько элементов, но только один вызывает выбор внимания (Houtkamp & Roelfsema, 2006; Сото, Хамфрис и Хейнке, 2006; Оливерс и др., 2011; Орт, Фаренфорт и Оливерс, 2017; де Врис, Ван Дриэль и Оливерс, 2017 г .; де Врис, Ван Дриэль, Караджаоглу и Оливерс, 2018; де Фрис, Ван Дриэль и Оливерс, 2019 г.). Записи в PFC макак предполагают, что последовательные поисковые задачи, требующие такой приоритизации, одного элемента памяти по сравнению с другим, характеризуются повышенным кортикальным представлением приоритетного стимула при подготовке к поиску (Warden & Miller, 2007, 2010; Siegel et al., 2009 г.). В будущих расширениях WorkMATe могут быть исследованы задачи, которые могут выиграть от таких операций стробирования выходных данных, и могут ли они быть изучены с помощью правил пластичности, связанных с теми, которые изучаются здесь.

Интересно, что не для всех задач использовалась закрытая память. Примечательно, что обучение задаче про / антисаккад на самом деле заняло в три-четыре раза больше времени с моделью с закрытыми воротами, чем с моделью без этих ворот. Это важно, поскольку показывает, что для определенных задач действительно может быть полезно просто накапливать релевантную информацию в памяти и изучать политику, основанную на этих накопленных представлениях.Эти типы задач памяти на самом деле больше похожи на задачи перцептивного принятия решений, которые требуют от агента агрегировать информацию до тех пор, пока не будет достигнут порог, который запускает решение (Shadlen & Newsome, 2001; Gold & Shadlen, 2007), а не гибко хранить, обновлять и поддерживать представления памяти. Эта качественная разобщенность между различными типами задач может служить основанием для модели, которая включает отдельные пути к решению: один основан на автоматической интеграции релевантной информации, а другой описывает более контролируемый процесс, который хранит и обновляет информацию как переменные, которые будут использоваться в задаче ( Collins & Frank, 2018; см. Masse, Yang, Song, Wang, & Freedman, 2019, где аналогичный вывод сделан на основе моделирования с совершенно другим подходом).

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *