Formalizing Habit Description: Approaches Review
Table of contents
Share
Metrics
Formalizing Habit Description: Approaches Review
Annotation
PII
S042473880005782-9-1
DOI
10.31857/S042473880005782-9
Publication type
Article
Status
Published
Authors
Viktor Istratov 
Occupation: Leading Research Associate
Affiliation:
Central Economics and Mathematics Institute, Moscow
Saint Petersburg State University, Saint Petersburg
Address: Moscow, Russian Federation
Pages
128-146
Abstract

Habits play an enormous role in our life and many activities can be referred to as more or less habitual. Hence the topic of habits makes frequent appearances in scientific works. Modern research tends to be interdisciplinary prompting to compare approaches from several scientific areas. Apparently, the topic of habits sees interest from different scientific fields. And as for complex simulation of human behavior, models lose much of their explanatory power if they miss such an important behavioral component as a habit. This paper overviews those ways to formalize the concept of habit and its life cycle stages by the means of mathematical and/or programming language that are being used in various fields of knowledge, including economic theory. The adopted point of view of the topic and its interdisciplinary nature constitute the novelty of the work.The study of habit turns out to be rather unorderly which is especially pronounced at the interdisciplinary level. Literally everything can vary from work to work: from the subject area and theoretical justification to the presentation method and form (some resort to verbal descriptions, some provide mathematical functions, while the others reveal blocks of pseudocode). Such diversity makes the comparison difficult. With certain caveats, three different approaches to express a habit can be distinguished: whereby habit is expressed explicitly as a separate numerical parameter, as a set of indirect numerical parameters and as a feature of the model structure (interrelation of parameters). As of today it is difficult to point out the most preferred formal approach to represent a habit. On the other hand, the variety of available approaches and the lack of an obvious favorite among them provide researchers with tremendous freedom to create.

Keywords
habit, behavior, decision making, modeling, mathematical modeling, computer simulation
Received
13.08.2019
Date of publication
20.03.2020
Number of purchasers
25
Views
291
Readers community rating
0.0 (0 votes)
Cite Download pdf 100 RUB / 1.0 SU

To download PDF you should sign in

Full text is available to subscribers only
Subscribe right now
Only article
100 RUB / 1.0 SU
Whole issue
720 RUB / 15.0 SU
All issues for 2020
2534 RUB / 50.0 SU
1

1. Введение

2 Привычки играют колоссальную роль в нашей жизни, и многие элементы нашей деятельности в той или иной степени можно отнести к привычным. Тема привычек прежде всего занимает психологов, нейрофизиологов, экономистов, исследователей искусственного интеллекта, хотя в разной степени и в разных аспектах. В частности, экономической теории с ее вековым покровительством рациональному максимизатору1 давно не хватает реалистичной модели человека, учитывающей, в числе прочего, и привычки.
1. Концепция рационального максимизатора не учитывает влияния иррациональных факторов (в том числе привычек). С тех пор как возникла эта концепция — в конце XIX в. – альтернативные концепции были отодвинуты на периферию. И так происходит до сих пор.
3 Модели, описывающие различные аспекты человеческого поведения в комплексе (например, (Истратов, 2009)), заметно теряют объяснительную силу, если в них не представлен такой важный поведенческий компонент, как привычка. Сегодня можно найти множество работ в различных областях знаний, содержащих теории и концепции привычек или просто упоминающих привычки в качестве важного элемента другой, большей, теории. Но при этом на фоне изобилия подобных публикаций незначительными выглядят относительно малочисленные попытки преобразования неформальных концепций привычки в формальные. Еще больше усложняет общую картину ошеломляющая пестрота подходов. Они могут различаться способами представления самой привычки, типами используемого инструментария, предметными областями, и даже формой подачи (текстовые описания, математические формулы, псевдокоды) и описания. Еще больше усложняет ситуацию отсутствие явного лидера среди этих подходов. Иными словами, модель, которая считается лучшей, наиболее полной и адекватной большинством исследователей, модель, которая сразу приходит в голову, когда поднимают эту тему, — самая известная. Какой оттенок смысла ни возьми – модели не будет. Поэтому, если исследователь станет подыскивать для своей работы готовую модель привычки, то вполне может оказаться целесообразным разрабатывать собственную.
4 В данной работе будут рассмотрены способы формализации понятия привычки и этапов ее жизненного цикла в различных областях знаний при помощи языка математики и/или программирования. При этом мы не будем касаться номинально формализованных моделей, в которых привычка представляется как черный ящик. К примеру, Д. Банистер (Banister, 1978, Fig. 2) включил в свою блок-схему элемент «Формирование привычки», но не раскрыл, как происходит его формирование. Поэтому, несмотря на обращение к теме привычки и на формализацию (благодаря блок-схемам), статья Банистера не вошла в данный обзор.
5

2. О понимании сути привычки

6 Несмотря на частые упоминания привычек в научной литературе, относительно их понимания нет единодушия не только у различных научных дисциплин, но даже внутри этих дисциплин.
7 Так, например, Дж. Ходжсон, ссылаясь на работы представителей социологии, экономики и психологии, заключил, что привычка — это «предрасположенность вести себя определенным образом в определенных обстоятельствах» (Hodgson, 2010, р. 4), а не само поведение, но сделал при этом оговорку, что такой взгляд на привычку не единственный.
8 В свою очередь, Ф. Кларк с соавторами предложила девять интерпретаций привычки, взятых из работ различных научных направлений (Clark et al., 2007). Она выделила привычку как: тик; нейронные сети; обусловленная реакция; пристрастие; отдельные ежедневные виды деятельности; рутина; обычай, ритуал, обряд или церемония; черта характера; габитус. Применение данной классификации несколько осложняется тем, что эти категории не исключают друг друга и могут пересекаться.
9 Если рассматривать только экономику, то и в этой дисциплине привычка трактуется по-разному. «Экономическая литература предлагает, как минимум, три интерпретации: привычка — устоявшийся образ мыслей, привычка — ослабленная реакция на некоторый стимул и (наиболее популярная интерпретация) привычка — как действие, доведенное до исполнения, близкого к автоматическому. В литературе встречается не очень четкое деление привычек на индивидуальные и общественные» (Истратов, 2019, с. 61).
10 Очевидно, что при таком разнообразии трактовок трудно ожидать единодушия в подходах к моделированию привычек.
11

3. Прикладные подходы

12 Когда задумываешься о формализации описания привычки, одно из первых, что приходит в голову, — использовать индекс, который представляет собой количественную оценку привычки, или, точнее, степени ее выраженности в явном виде. В частности, для этих целей был разработан индекс SRHI (Self-Report Habit Index, Самоотчетный индекс привычки), состоящий из двенадцати утверждений, касающихся привычки (Verplanken, Orbell, 2003). Чтобы получить оценку, респондент должен оценить степень своего согласия с каждым из этих утверждений по шкале Лайкерта от «совершенно не согласен» до «совершенно согласен». Авторы индекса использовали семи- и одиннадцатибалльные шкалы, но допускаются и другие размерности. На основании ответов, преобразованных в числовую форму, рассчитывается итоговое число — величина индекса.
13 На основе этого индекса позже был разработан индекс SRBAI (Self-Report Behavioural Automaticity Index, Cамоотчетный индекс поведенческого автоматизма) (Gardner et al., 2012), представляющий собой сокращенный до четырех утверждений индекс SRHI. Авторы считают, что выделенные утверждения более чутко улавливают процесс формирования привычки. В свою очередь, индекс SRHI вырос из частотных оценок. Например, испытуемым предлагается ответить на десять вопросов о выборе средства передвижения в различных ситуациях. То, сколько раз из десяти они назовут автомобиль, и будет частотной оценкой их привычки к вождению автомобиля (Verplanken et al., 1994).
14 Очевидным плюсом такого подхода является естественная связь с практической сферой: опросники позволяют легко проводить полевые социологические обследования, получая удобную количественную величину выраженности привычки непосредственно путем опроса людей. То, насколько адекватно такие индексы отражают выраженность привычки, остается вопросом дискуссионным.
15

4. Традиционные аналитические подходы

16 На основе индексов, используя их значения как исходные статистические данные, можно рассчитывать математические модели. Так, например, Ф. Лэлли с соавторами исследовали на студентах формирование полезных пищевых и физкультурных привычек. Для оценки результатов они модифицировали исходный индекс SRHI, выделив «подшкалу автоматизма, используя семь из 12 пунктов SRHI (пункты 2, 3, 5, 6, 8, 9, 10) и исключив пункты по идентичности и повторам, что дало итоговый диапазон значений 0—42» (Lally et al., 2010, р. 1001).
17 Авторы установили порог наличия привычки в 21 балл: более низкий балл говорил об отсутствии привычки. «Величина 21 означает средний ответ “ни согласен, ни не согласен” на все вопросы подшкалы, и это говорит о том, что формы поведения с более низким SRHI-баллом не могут считаться привычкой. Это не означает, что суммы 21 и больше обязательно свидетельствует о наличии привычки, это лишь означает наличие у нас уверенности, что суммы меньше 21 свидетельствуют о ее отсутствии» (Ibid, р. 1001).
18 Опираясь на работы К. Халла и закон убывающей отдачи Мичерлиха, авторы вывели функцию , где y — автоматичность, х — день исследования. Поясняя смысл неизменных параметров, Ф. Лэлли с коллегами отметили, что «константы обеспечивают психологически значимые результаты: ‘а’ обозначает асимптоту […], ‘b’ — разница между асимптотой и моделируемым начальным значением y (когда х = 0), а ‘c’ — постоянная темпа, обозначающая темп, с которым достигается максимум. Все константы — положительные числа» (Ibid, р. 1001).
19 Поскольку асимптотическое значение по определению недостижимо, то авторы для расчетов времени формирования привычки использовали величину, выбранную на основании визуального обследования (Ibid, р. 1008), равную 95% асимптотического уровня:
20

21 В дальнейшем параметры уравнения степени автоматизма оценивались методом регрессии.
22 В аналогичном ключе впоследствии была выполнена работа М. Фурнье с соавторами (Fournier et al., 2017). Они исследовали на добровольцах привыкание к выполнению упражнения «потягивание». Только вместо степенной функции была использована логистическая функция, а вместо выделенной Лэлли и ее коллегами подшкалы индекса SRHI был взят индекс SRBAI. При построении регрессии они исходили из схожей посылки, что «автоматичность возникала в момент, когда достигалось 95% уровня асимптоты» (Ibid, р. 1060).
23 Впрочем, математические модели и, в частности, регрессии не обязательно основывать на подобного рода индексах. Так, А. Гербер с соавторами, исследуя активность избирателей на политических выборах, опирались на исходные статистические данные при расчете коэффициентов регрессии. Авторы сузили понятие привычки до необходимого им прикладного значения: «В контексте участия в выборах концепция привычки подразумевает, что, если два человека, чьи психологические склонности к голосованию идентичны, примут разные решения относительно того, идти ли на избирательные участки в день выборов, эти действия изменят вероятность их голосования на следующих выборах. Другими словами, при неизменных атрибутах человека и среды само по себе участие в выборах повышает шансы на возвращение» (Gerber et al., 2003, р. 542).
24 На формальном уровне авторы представили привычку в виде самостоятельного параметра δ (названного эффектом привычки, означающего «увеличение вероятности голосования вследствие голосования на предыдущих выборах» (Ibid, р. 542)) в системе уравнений:
25
26 где — вероятность того, что субъект из экспериментальной группы проголосует на выборах х (1998 или 1999) года; — вероятность того, что субъект из контрольной группы проголосует на выборах х года; — (принятая за базу) вероятность того, что субъект из контрольной группы придет на выборы 1998 г., μ отражает изменение вероятностей голосования от выборов к выборам (Ibid, р. 542).
27 Интересно, что авторы получили количественную оценку эффекта привычки тремя разными способами. Во-первых, из указанной системы уравнений по формуле на основании статистических данных по явке избирателей. И дважды с помощью регрессий: двухшаговым методом наименьших квадратов с использованием инструментальных переменных и при помощи двухшаговой пробит-модели. При этом разброс оценок получился, по мнению авторов, небольшим: первым способом эффект привычки равнялся 0,55 (т.е. при прочих равных голосование в 1998 г. повысило вероятность голосования в 1999 г. на 55 п.п. (Ibid, р. 547)); вторым способом — 0,47; третьим — 0,63.
28 За неимением подходящей статистики привычку можно описать сугубо аналитическими методами. Так, например, П. Гудвин построил вероятностную модель выбора человеком средства передвижения: машины или автобуса.
29 В модели есть параметр обобщенных издержек способа передвижения G и экономический порог Еi, т.е. значение G, отделяющее решение ехать на машине от решения ехать на автобусе. Кроме того, есть параметр h — порог привычки к определенному способу передвижения, который поначалу является константой. Как заметил Гудвин: «Удобно использовать слово “привычка” для обозначения различных источников сопротивления изменению, которое случилось бы по чисто экономическим или “рациональным” причинам» (Goodwin, 1977, р. 95). Наличие привычки непосредственно влияет на решение человека: «Значение G, при котором происходит изменение способа передвижения — […] (Ei + h), если G возрастает, и (Eih) — если G убывает. Если G находится в диапазоне (Ei – h  G  Ei + h), то индивид может использовать любой способ передвижения, и мы не можем сказать, какой, не рассмотрев предыдущие значения G» (Ibid, р. 96).
30 На основе нормального распределения автор вывел формулу доли населения, пользующейся автобусом, с учетом привычки: , и пояснил при помощи графика, как величина h задает длину промежутка, когда «не будет никаких переходов пассажиров с машины на автобус» (Ibid, р. 97), и наоборот.
31 В продвинутой версии модели — с вероятностной привычкой — константа h стала математическим ожиданием переменной Н с функцией плотности распределения вероятностей f(H). Это приводит к усложнению механизма принятия решения населением. «Сначала вовлекаются [в перемены] те путешественники, у которых низкий порог привычки и близкий экономический порог, следом — те, у которых более высокий порог привычки или более отдаленный экономический порог, под конец — те, у кого далекий экономический порог и высокий порог привычки» (Ibid, р. 97). Соответствующим образом усложняется и формула для расчета доли населения, пользующейся автобусом.
32 Дж. Стиглер и Г. Бекер (Stigler, Becker, 1977) ввели фактор привычки в оптимизационную модель, в которой домохозяйства максимизируют свои функции полезности вида U=U(Z1, …, Zm), где Zi = fi(X1i, , Xki, t1i, , tli, S1, …, Sl, Yi); — это «объекты потребления (commodity), которые они [домохозяйства] производят из рыночных товаров, из собственного времени, из умений, результатов обучения и других форм человеческого капитала и из прочих ресурсов» (Ibid, р. 77). Подобного рода производство не позволяет продукту оказаться на рынке и обзавестись рыночной ценой, но оставляет возможность рассчитать теневые цены, обусловленные стоимостью ресурсов.
33 При этом под привычкой авторами понимается увеличение использования по мере продолжения воздействия (Ibid, р. 81), а не некая форма доведенного до автоматизма поведения. Говоря об абстрактном умении ценить музыку, сделав некоторые допущения, Стиглер и Бекер получили формулу где — теневая цена; w —уровень заработной платы (не зависящий от возраста); Aj — эффект пристрастия (addiction), «измеряющий ценность сбережения входных ресурсов будущих периодов вследствие эффекта воздействия производства М в момент j на последующий музыкальный капитал» (Ibid, р. 79); tm — время, посвященное музыке.
34 Несмотря на то что авторы воспользовались термином «пристрастие», они поясняли, что «не требуется один вид теории для объяснения пристрастия и другой вид для объяснения привычного или обычного поведения. Одна и та же теория, основанная на устойчивых предпочтениях, может объяснить оба типа поведения и может вместить как привычное поведение, так и отступления в сторону от него» (Ibid, р. 83).
35 Эффект пристрастия вычисляется так (в соответствии с формулой (8) из (Stigler, Becker, 1977, р. 79)):
36

37 где r — процентная ставка; n — продолжительность жизни; Sm — обучение и другие формы человеческого капитала, помогающие ценить музыку; М — объем произведенного и потребленного умения ценить музыку, где M = Mm(tm, Sm). Нулевое значение параметра Аj говорит об отсутствии пристрастия (привычки), положительное — о его наличии и степени выраженности, а отрицательным Аj быть не может.
38 Для решения еще одной оптимизационной задачи — изучения взаимовлияния экономического роста и роста сбережений — К. Кэрролл, Д. Оверлэнд и Д. Вейл (Carroll, Overland, Weil, 2000) остановились на двухпараметрическом выражении привычки: через ее величину и важность. Как и предыдущие авторы, Кэрролл с коллегами по существу под привычкой понимают изменение реакции. Потребитель в их модели максимизирует функцию полезности вида где h — величина привычки (habit stock); c — одномоментное потребление; σ — коэффициент относительного неприятия риска; γ — важность привычки.
39 Величина привычки изменяется в соответствии с правилом , где ρ определяет относительные веса потребления в разные периоды времени. Считается, что привычки нет, если значение h равно нулю, в противном случае привычка есть, и значение h показывает ее силу.
40 Схожим образом интерпретировали (как изменение реакции) и ввели в модель привычку Ж.Р. Фариа и М. Леон-Ледесма (Faria, León-Ledesma, 2004), но для другой предметной области. Они обратились к классической модели экономического роста, изучая влияние привычек на рынок труда. Их участник рынка труда, имея бюджетное ограничение, максимизирует функцию полезности , где с — потребление; l — труд, а 1 – l — свободное время; Н — привычка к труду; γ — «психологическое удовольствие от привычки к труду» (Ibid, p. 406). Динамика привычки к труду определяется по формуле , где ρ — относительные веса труда в разные периоды времени.
41 Как и в работе (Carroll et al., 2000), нулевое значение H означает отсутствие привычки, а ненулевое — ее наличие. Привычка в модели также описывается двумя параметрами: кроме Н, есть еще параметр γ, по своей математической сути схожий с параметром γ в модели Кэрролла, несмотря на разную содержательную интерпретацию.
42 Несколько особняком среди оптимизационных моделей стоят модели, основанные на идее устойчивости привычки (habit persistence). Их объединяет предпосылка весьма общего толка, а именно: прошлое потребление влияет на текущее. Формально это выражается в том, что привычка должна учитывать прошлое потребление. Более поздние разработки концепции устойчивости привычки зачастую все дальше уходят от обычного понимания привычки по пути самодостаточной математической абстракции. При этом математическая форма зависимости может быть весьма разнообразной.
43 Пожалуй, самое простое формальное выражение идеи устойчивости привычки — через равенство привычки потреблению предыдущего периода. Так, например, Р. Хирагучи предложил экономическую модель эндогенного роста, которая включает следующее уравнение st+1 = ct, где сt — потребление; st — привычка (Hiraguchi, 2011, р. 431), а индексы обозначают временной период.
44 С. Шмитт-Грое и М. Урибе (Schmitt-Grohé, Uribe, 2008) описали разностную форму выражения принципа устойчивости привычки2. «Устойчивость привычки (habit persistence) […] это спецификация предпочтений, согласно которой периодическая функция полезности зависит от квазиразницы потребления. В частности, если […] ct обозначает потребление в период t, U обозначает периодическую функцию полезности, а обозначает субъективный дисконт, то функция полезности с устойчивостью привычки задается . Параметр обозначает интенсивность формирования привычки и вводит неделимость предпочтений по времени. […] Более общие спецификации позволяют величине привычки быть функцией потенциально всех прошлых потреблений. В этом случае функция полезности задается , где обозначает величину привычки в момент t» (Ibid, p. 814).
45 Р. Поллак (Pollak, 1970) усложнил разностное представление устойчивости привычки, заменив параметр прошлого потребления на функцию, производную от этого потребления. Сравнивая краткосрочные и долгосрочные функции полезности, он предложил выделять необходимое потребление в рамках общего потребления, которое может испытывать влияние привычки. Он остановился на простой функции полезности:
46

47 где xi — уровень потребления блага i; а bi — «может трактоваться как необходимый набор благ, и нет предположения о том, необходимы ли они скорее физиологически, чем психологически» (Ibid, р. 749). Для выбранной функции полезности он в общем виде сформулировал идею о формировании привычки , где t — индекс временного периода; интерпретируется как физиологически необходимая часть благ, а — как психологически необходимая часть. При этом в частной форме параметр βi называется коэффициентом формирования привычки (Ibid, р. 749).
48 Для математического представления устойчивости привычки используются и степенные функции. Так, например, для решения загадки премии по акциям (equity premium puzzle) Дж. Константинидес (Constantinides, 1990) применил идею устойчивости привычки в неоклассической модели экономического роста с рациональными ожиданиями:
49

50 где c(t) — потребление; x(t) — прожиточный уровень потребления, зависящий только от прошлого потребления
51

52 Встречаются и более сложные мультипликативные выражения принципа устойчивости привычки. К примеру, занимаясь той же загадкой премии по акциям, Э. Абель (Abel, 1990) использовал функцию полезности вида , где ct — уровень потребления в момент t; vt — параметр предпочтений в момент t, рассчитываемый как , где ct — собственное потребление потребителя в момент t; Ct — агрегированное потребление на душу в период t.
53 «Если γ > 0, а D = 1, то параметр vt зависит только от прошлого потребления потребителя. Это формулировка модели формирования привычки» (Ibid, p. 38).
54 При γ = 0 функция полезности становится делимой по времени при том, что ее неделимость по времени называется признаком устойчивости привычки (см., например, (Constantinides, 1990; Schmitt-Grohé, Uribe, 2008)).
55 Получила формальное воплощение и идея деления привычек на внутренние и внешние в рамках той же концепции устойчивости привычки. Так, например, Дж. Корниотис объединил эти две группы привычек: «Привычный уровень потребления включает внутреннюю и внешнюю составляющую» (Korniotis, 2010, р. 149). Исследуя факторы роста потребления, на основании функции полезности вида
56

57 он пришел к уравнению вида где с — потребление; γ — параметр, связанный с коэффициентом избегания рисков; — фактор предпочтения времени; βi — норма дисконта (βi 
58 «Потребление с лагом Ci,t-1 является мерой формирования внутренней привычки. Мера внешней компоненты привычки […] — это [Wict-1]. […] Внешнюю привычку можно интерпретировать как уровень жизни, которого пытаются достичь потребители» (Ibid, р. 149).
59 Вдобавок уравнение подходило для регрессионных расчетов, которые и были проведены для нескольких конфигураций матрицы W. Значимые коэффициенты при регрессорах, означающих привычки, свидетельствовали, исходя из логики метода, о наличии привычки, тогда как незначимые коэффициенты говорили о том, что привычка не сформировалась.
60

5. Компьютерные подходы

61 Но формальное описание привычки не ограничивается одними лишь классическими математическими подходами. Это направление получило серьезное развитие благодаря применению компьютеров. Например, в агентных компьютерных моделях также фигурируют привычки, благодаря чему их формулировки приобретают своеобразие алгоритмических интерпретаций.
62 Так, в частности, в (Linkola et al., 2013) изучались вопросы потребления воды домохозяйствами и была предложена агентная модель на эту тему. Величину привычки использования воды они, по сути, свели к темпам расходования воды или, как они сами пишут, к вероятностным частотам (Ibid, р. 1086): «У агентов есть ежедневные привычки, которые описывают [среднюю] частоту, с которой они занимаются определенными видами деятельности, связанными с потреблением воды». В свою очередь, каждый вид деятельности имеет несколько способов реализации. Список видов деятельности и способов реализации определен авторами и не меняется по ходу работы модели. Значения частот получаются из внешних расчетов и задаются экзогенно как число выполнений за один такт модельного времени, равный одному часу реального времени, например, агент ест и пьет 0,4375 раза в такт (Ibid, Table 2, р. 1088). По всей видимости (четко в работе это не указывается), эти значения частот осуществления деятельности остаются неизменными на протяжении работы модели.
63 Привычка не единственный фактор, влияющий на окончательное поведение, и процедура этого влияния реализована своеобразно. Программа последовательно в заданном авторами порядке проверяет все возможные действия агента на предмет необходимости их выполнения. При этом, «частота, с которой агент моется, ест и пьет, а также справляет естественную нужду (т.е. осуществляет тот или иной вид деятельности), стохастична. Восприятие агентом своих потребностей (полученных из привычек) и размышление о том, что делать, основаны на случайном испытании. Модель выбирает случайное число от 0 до 1, и, если это число больше, чем вероятность выполнения агентом того, над чем он размышляет, агент выбирает исполнение действия» (Ibid, р. 1089).
64 Привычка не обязательно экзогенна, она может быть легко эндогенизирована. Например, в агентной модели Ш. Робертс и Дж. Ли (Roberts, Lee, 2012), посвященной безопасности поведения подростков за рулем, «величина […] привычки задавалась случайным образом на основе равномерного распределения в диапазоне от нуля до единицы. […] Уровень привычки возрастал на 0,01 с каждым временным шагом, например, привычка к безопасному вождению усиливалась по мере того, как агенты продолжали водить машину в безопасной манере […] Важно заметить, что уровень привычки изначально устанавливался на низкое значение, чтобы агенты были восприимчивы к поведенческим изменениям» (Ibid, р. 2272).
65 Механизм влияния привычки на поведение в модели был таков: «В каждый момент времени каждый агент оценивал свои индивидуальные характеристики (т.е. отношение, поведенческий контроль, субъективную норму и привычку) и затем решал, хочет ли он/она безопасно вести» (там же) машину. […] Учитывая, что привычки формируются в среднем за 66 дней […], если уровень привычки был меньше двух, она считалась слабой, и поведение агента определялось намерением. Если привычка была больше двух, поведение определялось привычкой» (Ibid, р. 2272).
66 Возможны более сложные способы эндогенизации привычки. Так, Дж. Ходжсон и Т. Кнудсен (Hodgson, Knudsen, 2004) для изучения влияния привычек на институты, построили агентную модель водителей, выбирающих, по какой стороне дороги ездить. Авторы отметили, что «концепция и роль привычки в этой модели сильно расходится с определением привычки у кого-либо еще […], определяя привычку как склонность или предрасположенность, а не как коррелированное поведение» (Ibid, р. 35). И в первую очередь они полемизировали с работой Г. Бекера и с его определением привычного поведения как того, «что демонстрирует положительную связь между прошлым и текущим потреблением» (Becker, 1992, p. 328).
67 Для описания привычки Дж. Ходжсон и Т. Кнудсен ввели сразу несколько переменных. Первая из них называется геном привычки (habit gene) и обозначает «инстинктивное стремление водителя принимать в расчет приобретенное привыкание. Ген привычки не может изменяться, а привыкание может. […] Ген привычки водителя n описывается коэффициентом Habitgenen» (Hodgson, Knudsen, 2004, р. 24).
68 Вторая переменная — привыкание (habituation), характеризующее степень выраженности привычки. «Каждый водитель начинает с нулевого значения переменной привыкания. По мере прохождения времени эта переменная будет пересматриваться в соответствии с тем, как движется машина. Например, если машина часто ездила по левой стороне дороги, тогда значение переменной привыкания, скорее всего, будет положительным, а если машина обычно двигалась по правой стороне дороги, тогда значение переменной привыкания, скорее всего, будет отрицательным. Коэффициент гена привычки выражает степень, с которой водитель n принимает свое привыкание в расчет. Привыкание водителя n в момент времени t описывается коэффициентом Habituationn,t» (Ibid, р. 24).
69 Привыкание исчисляется по формуле
70 ,
71 где LRn,tположение машины n в момент времени t (на левой (LRn,t = 1) или на правой стороне (LRn,t = −1) дороги); K — произвольная положительная константа; Movesn,tобщее число перемещений, совершенных водителем до момента времени t, включая сам момент времени t. Habituationn,t принимает значения от –1 до 1. «Ясно, что стремление менять привычку ослабевает с увеличением числа перемещений; функция привычки — кумулятивная с убывающим возрастанием» (Hodgson, Knudsen, 2004, р. 25).
72 Обе введенные переменные используются при принятии решения, по какой стороне дороги ездить, для чего рассчитывается следующее выражение:
73

74 «Коэффициенты wX (wSdirection, wOdirection, wAvoidance, wHabit) — это фиксированные, неотрицательные веса, общие для всех 40 водителей. Веса определяют, в какой мере компоненты уникального набора когнитивных и поведенческих предрасположенностей каждого водителя повлияют на субъективную оценку водителя и тем самым на выбор, ехать ли слева или справа в момент t. Коэффициент wHabit обозначает “вес привычки”. Слагаемое wHabit × Habitgenen × Habituationn,t обозначает “силу привычки” машины» (Ibid, р. 25). LREvaluationn — субъективная оценка каждой машины: «если LREvaluationn больше нуля, то машина намерена ехать слева. В противном случае она намерена ехать справа» (Ibid, р. 26). Остальные переменные уравнения для целей данной статьи несущественны.
75 По результатам вычислительных экспериментов авторы сделали вывод, что «привычка есть нечто большее, чем средство экономии при принятии решения для индивидов; это средство, при помощи которого социальные соглашения и институты формируются и сохраняются» (Ibid, р. 25).
76 Более того, влияние привычки оказалось, по мнению Ходжсона и Кнудсена, настолько важным, что они ввели понятие эффекта привычки (habit effect), «определяемого как степень схождения при единичном значении wHabit минус степень схождения при нулевом значении wHabit. Другими словами, эффект привычки представляет собой разницу между C1 и C0, где C1 и C0 — степени схождения для нулевого и единичного значений веса привычки» (Ibid, р. 30), а «степень схождения (С) для m перемещений с машин — общее число перемещений, во время которых машина находится на левой/правой стороне, поделенное на » (Ibid, р. 29).
77 Иногда привычку вводят в модель не напрямую, а через посредников, т.е. через содержательно близкие концепции. Так, например, в (Amouroux et al., 2014) была описана агентная модель потребления домохозяйствами электроэнергии. «Для выражения привычек людей в метамодель была внесена концепция ритма (rythm). Ритм w (wW) позволяет для каждого действия определить частоту и предпочтительные периоды. Предпочтительный период позволяет задать месяц, день недели и временной интервал, в которые агент может выполнить задание. С каждой из этих характеристик связана сила, указывающая, должна ли система в большей или меньшей степени принимать во внимание эти периоды. Более формально ритм — это кортеж perw, freqw, varw, PРw, где per {день, неделя, месяц, год} — рассматриваемый период; freq N+ — частота за тот же период; […] var {малая, средняя, большая} — вариативность частоты; РР — набор предпочтительных подпериодов в рассматриваемом периоде. Каждый предпочтительный период ppi является кортежем [d1, d2], strength, где d1 и d2 задают подпериод; strength {малая, средняя, императивная} — сила предпочтительного периода» (Ibid, р. 198).
78 Модель использует два механизма поведенческой адаптации: «1) ежедневные обязанности или сильные привычки представлены при помощи ритмов с императивными частотами и/или предпочтительными периодами (РР); 2) привычки могут возникать благодаря контролируемой мобильности действий» (Ibid, р. 203).
79 Если первый способ описания привычки представляет собой, по сути, ее экзогенное определение через качественную переменную, то во втором случае речь идет о постоянстве времени выполнения того или иного действия. Реализуется второй механизм «путем автоматического создания неимперативных ритмов во время имитации. На практике, если действие было инициировано в данный период, то этот период станет предпочтительным в последующие дни (при ограниченном окне памяти). Как следствие, всем действиям с неуказанными РР позволяется найти наиболее подходящие периоды выполнения и сохранить их за собой, пока они приемлемы» (Ibid, р. 203).
80 Можно говорить о формировании привычки, когда время исполнения того или иного действия становится более или менее (четкие критерии не приведены) постоянно. Например, когда «индивиды в основном смотрят телевизор перед ужином, хотя медленное изменение привычки от “после ужина” к “после завтрака” обнаруживается на протяжении всего месяца» (Ibid, р. 207).
81 Способов неявного представления привычки в модели может быть много. Например, в (Klein et al., 2011) была представлена вычислительная модель формирования привычки для агентной модели, помогающей людям менять образ жизни. Их «вычислительная модель — когнитивного уровня, [находящегося] между нейрологическим и поведенческим уровнем» (Ibid, p. 140).
82 Авторы исходили из понимания привычки как «автоматического поведения, которое может быть выработано и поддержано бессознательно. Привычки могут сохраняться в отсутствие ясной и определенной цели, и их очень трудно пересилить» (Ibid, p. 130). При анализе экспериментальных данных именно сохранение поведения при наличии сигнала, который стал ассоциироваться с целью, в отсутствие самой цели, и прекращение поведения без сигнала и цели определяло появление привычки.
83 В модели представлено два альтернативных способа выработки поведения. Первый начинается с активации долгосрочной цели, затем — соответствующей краткосрочной, после чего формируется намерение и выполняется действие. «Второй путь идет напрямую через активацию сигнала в определенной связи с активацией конкретного намерения, которое ведет к исполнению действия. Этот путь соответствует привычке, которая вырабатывается со временем: связь между сигналом и намерением меняется динамически после их одновременной активации в соответствии с принципом обучения Хебба» (Ibid, p. 132).
84 Возникновение и использование привычки авторы представили в виде набора правил (или свойств, как они их сами обозначили), описанных при помощи псевдокода (Ibid, p. 132–139).
85 Свойство LP1 (адаптация связи сигналнамерение): «Есливозникает релевантный сигнал C уровня V1 и значение намерения I равно V2
86 итемп обучения от сигнала C к намерению I — это , а темп затухания от сигнала С к намерению I – это , исила связи между сигналом С и намерением I — это w1,
87 тоспустя t связь от сигнала C к намерению I будет иметь силу ».
88 Свойство Р0 (долгосрочная цель и сигнал приводят к поведению): «Если сигнал и высокоуровневая цель имеется в течение определенного времени MIN_DURATION, то позже появится соответствующее поведение».
89 Р1 (сохранение привычки): «Если сигнал и высокоуровневая цель наличествуют в течение определенного времени MIN_DURATION, то поведение будет существовать при наличии сигнала, даже если цели уже нет».
90 Р2 (привычка и удаление сигнала): «Если привычка сформирована, а сигнала и цели больше нет, то поведение через некоторое время перестанет существовать».
91 Р3 (привычка и удаление сигнала при наличии сильной цели): «Если привычка сформирована, поведение все равно будет существовать, если сигнала уже нет, но есть высокоуровневая цель».
92 Р4 (новая цель приводит к новой привычке): «Если привычка сформирована для долгосрочной цели ltg1, которая пропадает, новое поведение будет выработано, если имеется другая долгосрочная цель ltg2».
93 В некоторых подходах используются элементы машинного обучения. В частности, в (Han et al., 2009), исследуя то, как принимаются решения о путешествиях, авторы описали концепцию агентной модели с привычным поведением, включающую обучение с подкреплением.
94 В рамках этого подхода «привычки описаны как выученные и заранее прописанные формы поведения и способны автоматически активироваться контекстуальными условиями, которые в норме предшествуют поведению. […] Путем повторения определенного поведения при тех же самых контекстуальных условиях агенты вырабатывают привычки. Формируя привычки и следуя им, агенты могут уменьшить умственные усилия, затрачиваемые на постоянное оценивание альтернатив при выборе и на совершение выбора» (Ibid, p. 39).
95 Кроме того, привычка оказывается тесно связанной с уровнем активации места, который «представляет собой степень привычки агента выбирать этот вариант (место) при определенных контекстуальных условиях» (Ibid, p. 39). Дело в том, что агенты могут определять для себя, «какой результат будет удовлетворительным, и способны запоминать ситуации и результаты (т.е. события). Отчасти это зависит от контекста, т.е. конкретные контекстуальные условия автоматически активируют определенные следы в памяти […]. Уровень активации варианта места является показателем силы такого следа в памяти, и потому отражает легкость, с которой он может быть извлечен из памяти. По существу, уровень активации связан с каждым вариантом из текущего набора вариантов для каждого отдельного контекстуального условия» (Ibid, p. 39).
96 Для моделирования динамики уровня активации использовалась разновидность обучения с подкреплением. «Сила следа в памяти от конкретного варианта действия (места) i из набора вариантов моделируется следующим образом:
97

98 где — сила следа памяти (осведомленности) о локации i в момент времени t при конфигурации условий zm и при , если этот вариант (место) был выбран в момент t, и в противном случае; 0  γ  1 — параметр, представляющий вес давности, который актуален, только если выбрано это место; 0    1 — параметр, представляющий темп сохранения. — ощущаемая полезность, приписанная (месту) варианту i. […] В каждый момент времени сила памяти увеличивается или уменьшается в зависимости от того, был ли на последнем временном шаге выбран данный вариант места. Коэффициенты γ и определяют размер подкрепления и сохранения памяти соответственно и являются параметрами системы. На основании текущего значения силы памяти система определяет, включать или нет место в набор вариантов следующего временного шага, на основании простого правила […], гласящего, что оно включается, если превосходит минимальный уровень активации, и не включается в противном случае» (Ibid, p. 44).
99 Процесс принятия решения агентами таков: «Они начинают с применения своего привычного поведения» (Ibid, p. 41). В работе (Han et al., 2009) привычное поведение означает, что «агенты последовательно выбирают из набора вариантов альтернативу с наивысшим уровнем активации при данных контекстуальных условиях в момент выбора. [...] Как подразумевает определение уровня активации, альтернатива, у которой наивысший уровень активации в наборе вариантов, легче всего извлекается из памяти и требует наименьшее количество умственных усилий от агента» (Ibid, p. 39—41). После привычного поведения агенты осуществляют сознательный выбор, требующий больше усилий, только если привычный выбор неудовлетворителен, пока не найдут удовлетворительный вариант. «Чтобы определить уровень удовлетворенности агента привычным выбором, значения свойств (места) варианта с наивысшим уровнем активации сравниваются с уровнем устремлений» (Ibid, p. 41), который представляет собой целевое значение последствий решения. «Если неудовлетворенность (т.е. разница между уровнем устремлений и ожидаемым уровнем) как минимум одним свойством выходит за границы области допуска, агент переключится на другой режим поведения и начнет сознательный поиск лучших вариантов. С другой стороны, если граничные значения не превышены, то […] никакого активного поиска не будет и агент продемонстрирует привычное поведение, реализуя вариант с наивысшим уровнем активации» (Ibid, p. 41).
100 «Вследствие действия выше названных механизмов агент приходит к выбору одного (места) варианта каждый раз, когда следует выполнять действие. Этим вариантом в зависимости от уровня устремлений и результата оценивания может быть вариант с наивысшим уровнем активации (привычный выбор), с наибольшей ожидаемой полезностью (сознательный выбор освоения) или недавно открытый (сознательный выбор исследования)» (Ibid, p. 43).
101 Некоторые подходы гораздо сильнее опираются на идеи машинного обучения. Как правило, использование концепций машинного обучения приводит к представлению привычки в неявном виде.
102 Так, в (Daw, Niv, Dayan, 2005) было исследовано взаимодействие систем принятия поведенческих решений в мозге. Они основывались «на классической идее, что контроль над привычкой связан с выработкой дофамина и дорсолатеральной областью стриатума, а более сознательный поиск — с префронтальной корой» (Ibid, p. 1708).
103 По мнению авторов, разные методы машинного обучения по-разному подходят для моделирования деятельности различных отделов мозга, и в частности тех, которые связаны с привычками. В частности, безмодельные методы обучения с подкреплением такие, как метод временных разностей, «поддерживают существующие популярные описания активности допаминовых нейронов и их (особенно дорсолатеральных) проекций на полосатое тело» (Ibid, p. 1704).
104 Метод временных разностей предлагает «убедительное описание активности допаминовых нейронов в задачах классического и инструментального обучения. Основа этого метода — то, что мы называем кэшированием: а именно связь действия или ситуации со скалярным итогом их будущей долгосрочной ценности» (Ibid, p. 1704). «Кэшированная ценность действия по своей сути не зависима от любой […] конкретной информации о результате. Таким образом, если животное действует на основании кэшированной ценности, оно не изменит своего поведения даже после того, как результат будет обесценен. В психологии такое поведение, нечувствительное к результату, известно как “привычное”» (Ibid, p. 1705). «Работать с кэшированными значениями вычислительно легко, но приходится платить гибкостью: значения отделены от самих результатов и потому не меняются немедленно при переоценке результата. Это также является определяющей поведенческой характеристикой контроля привычки» (Ibid, 1704).
105 Авторы рассматривали марковский процесс принятия решений и модифицировали функцию ценности состояния-действия Q(s, a), которая «представляет собой ожидаемую вероятность того, что вознаграждение в конечном счете будет получено, коль скоро агент выбирает действие а в состоянии s и в дальнейшем делает оптимальные выборы. Формальное определение рекурсивно» (Ibid, p. 1709):
106

107 где — функция вознаграждения, задающая вероятность того, что вознаграждение будет получено в конечном состоянии s; —состояние, следующее за состоянием s; —функция перехода, задающая вероятность того, что состояние последует за состоянием s, учитывая действие a.
108 Вдобавок авторы учли «байесовские вариации, которые оценивают не просто ожидаемое значение Q(s,a), но и последующее распределение , которое измеряет для любого то, насколько вероятно, что истинная оптимальная вероятность будущего вознаграждения (полученная разными проходами по состояниям) равняется q, с учетом свидетельств, данных об уже наблюдавшихся переходах и результатах» (Ibid, p. 1709).
109 Таким образом, окончательный выбор действия осуществлялся через конфликт привычки и сознательного решения. «Если при конкретном контролере [контролирующей области мозга], состоянии и действии распределение Qs,a резко достигает пика при каком-то q, то значит, контролер вполне уверен в значении ценности; если же, напротив, оно размазано по диапазону возможных значений q, то контролер не может с уверенностью определить ценность» (Ibid, p. 1709). Тогда оценки контролеров отбираются на основании их дисперсии (среднеквадратической ошибки): побеждает та, чья дисперсия была меньше. «С учетом выигравшей оценки Q(s, a) для каждого действия, доступного в текущем состоянии, действие [выбиралось] стохастически, используя softmax-вероятности, , где параметр β контролировал стремление системы выбирать исключительно действие, считающееся лучшим» (Ibid).
110 Таким образом, привычка неявно моделировалась через деятельность стриатума, которая, в свою очередь, моделировалась методом временных разностей.
111 Авторы отметили между прочим, что их подход «контрастирует с описаниями данных о человеческом поведении, особенно с идеями из экономической теории, о том, что иррациональные, импульсивные или эмоциональные лимбические влияния [в терминах статьи — система кэширования (описывает эмоциональные влияния, о которых здесь идет речь)] мешает более рациональному префронтальному контролеру. [По представлениям (Daw, Niv, Dayan, 2005)] оба контролера преследуют идентичные рациональные цели; в подходящих обстоятельствах кэширующий контролер может более эффективно выполнять те же самые функции, что и префронтальный контролер» (Ibid, p. 1708).
112 Однако не все соглашаются с такой постановкой вопроса. Так, А. Дезфули и Б. Беллейн (Dezfouli, Balleine, 2012) выступили с возражением: «Хотя До с соавторами предположили, что безмодельное обучение с подкреплением […] может применяться непосредственно и успешно к привычкам […], при более близком рассмотрении оказывается, что это не так» (Ibid, р. 1037). «Проблема традиционных подходов на базе обучения с подкреплением к привычкам, однако, не в их применимости в ситуации потери ценности, а в их применимости в случае уменьшения возможных последствий» (Ibid, р. 1038). Иными словами, при использовании подхода на основе безмодельного обучения с подкреплением нарушение связи сигнал-вознаграждение должно привести к изменению поведения, тогда как на практике этого часто не происходит (например, в случае перетренированности).
113 Поскольку «выполнение привычных действий зависит от формирования связи между действием и предшествующим стимулом, а не от его последствий» (Ibid, р. 1036), то авторы отдают предпочтение подходу, в котором привычка представляется неявно через макродействие (Ibid, р. 1041), т.е. через исполняемый по порядку набор элементарных действий, в котором осуществление последующих действий обусловлено выполнением предыдущих.
114 «Вообще выучивание последовательностей (sequence learning) и формирование привычки оцениваются с использованием разных поведенческих заданий и считаются различными аспектами автоматического поведения. Однако нейронные данные говорят, что выучивание привычки и выучивание последовательности действий задействуют схожие нейронные цепи: тем самым, на первом этапе обучения как действия в последовательности, так и целенаправленные действия, похоже, задействуют префронтальную кору и ассоциативный стриатум. Однако по мере того, как их проявление становится более рутинным, выполнение как привычек, так и последовательностей действий задействует сенсомоторный стриатум. Данные говорят о том, что кортико-стриатумная сеть, параллельная той, что задействована в целенаправленном действии […] опосредует переход к привычным процессам принятия решений, связанных с обучением через стимул-ответ» (Ibid, р. 1038).
115 Формирование макродействия в модели происходит, по сути, автоматически при выполнении определенных условий. Пусть выбор следующего действия в текущей последовательности действий на временных шагов быстрее, чем выбор действия на основе процедуры оценки действий, а среднее вознаграждение рассчитывается по формуле где dt — расход времени в состоянии st; rt — вознаграждение, получаемое агентом по выполнении действия аt. Тогда, «если выгода от выбора действия на основе последовательности, , превосходит его стоимость С(saa´), то макродействие {aa´} заменяет собой действие a в состоянии s.
116 В противном случае, если макродействие уже сформировано, оно разлагается на составляющие действия, и действие а заменяет макродействие {aa´}» (Ibid, р. 1042). Причем стоимость макродействия можно рассчитывать по формуле , где ожидание от последующего состояния (s´) с учетом предыдущего действия и предыдущего состояния находится из соотношения , где Q(s,a) — субъективная ценность выполнения действия a в состоянии s; V(s) — ценность лучшего действия в состоянии s: ; A(s,a) — потери вознаграждения из-за выбора в состоянии s действия а вместо лучшего действия .
117 Можно оценить стоимость действия С(saa´) на основе о TD-сигнала (от time difference – временна́я разность) об ошибках: где C — скорость обучения; ; δt — TD-сигнал об ошибке, полученный после выполнения действия аt в состоянии st:
118 Такой способ расчетов авторы считают более эффективным и «обеспечивающим правдоподобный с точки зрения нейронов способ вычисления стоимости выбора действия на основе последовательности С(saa´)» (Dezfouli, Balleine, 2012, р. 1042).
119 При этом в уже существующее макродействие могут быть включены новые действия. «Важно понимать, что во время исполнения макродействия элементарные действия не оцениваются и потому не вычисляется TD-сигнал об ошибках, что означает, что величина стоимости цепочки действий С(saa´) не обновляется после того, как она оказывается сформирована. Это подразумевает, что последовательность должна формироваться только после того, как агент будет уверен в оценках стоимости и выгоды этой последовательности; в противном случае агент может придерживаться неоптимальной последовательности долгое время. Это подразумевает, что последовательность действий не должна формироваться на ранних стадиях инструментального научения, потому что высокая степень уверенности требует достаточного знакомства с окружающей средой и, следовательно, большего времени для обучения» (Ibid, р. 1042).
120 В модели виртуальных личностей (virtual personalities model) авторы (Read et al., 2018) опирались на уже знакомое понимание привычки: «Привычное поведение напрямую запускается сигналом и обычно развивается после продолжительного вызова оперантной реакции. Когда поведение становится привычным, его запуск становится нечувствительным к текущему целевому состоянию организма» (Ibid, p. 6). Модель Рида с соавторами построена на основе искусственных нейронных сетей, и они реализовали привычку как «соединение между входом от среды и поведенческим слоем, которое обходит мотивационную систему» (Ibid, p. 7).
121 В их модели среда представлена слоем нейронной сети, и, как видно из схемы на рисунке, привычка — это соединение слоя среды напрямую со скрытым слоем нейросети, что позволяет обойти механизмы павловского и оперантного научения. По такому описанию сложно сказать, насколько глубоко данный подход позволяет исследовать привычку, но возникают опасения общего характера (связанные, например, с содержательной интерпретируемостью весов и прочих количественных параметров сети, с возможностями динамического изучения привычек, с возможностью исследования первопричин привычек и др.), вытекающие из особенностей работы искусственных нейросетей.
122

Рисунок

123 Источник: составлено автором по (Read et al., 2018, p. 6, Fig. 3).
124 Примечание. Пунктирная линия показывает, какие системы вовлечены в павловское научение, в инструментальное научение и в павловско-инструментальный перенос.
125 М. Эгберт и Х. Барандиаран в рамках изысканий в области робототехники предложили взглянуть на привычки с необычной стороны — как на «случайные, самоподдерживающиеся ментальные формы жизни» (Egbert, Barandiaran, 2014, р. 3). «Привычки возникают и поддерживаются через поведение, которое они создают, циклично и самоорганизованно, наподобие других самоорганизующихся аспектов жизни» (Ibid, р. 12). Они противопоставили свое виденье подходам, основанным на дискретном выборе действий и на вероятностях стимула-реакции (Ibid, р. 4).
126 M. Эгберт и Х. Барандиаран отмечали, что «привычки следует понимать не как противоположность когнитивным способностям более высокого уровня, а как их предпосылку и средство непрерывной поддержки» (Ibid, р. 13). В основу модели они положили следующие принципы: 1) моделирование идет на мезоуровне сенсомоторной динамики, т.е. выше уровня отдельных нервных клеток и ниже уровня поведенческих проявлений, 2) в модели используется непрерывное сенсомоторное пространство, 3) система допускает самоорганизацию макропаттернов сенсомоторной координации путем повторов (Ibid, р. 3).
127 Желая уйти от понимания привычки как автоматической реакции на стимул (выражаемой через корреляцию вероятностей стимула и реакции), Эгберт и Барандиаран исходили из того, что привычка представляет собой «самоподдерживающиеся паттерны поведения» (Ibid, р. 4) и что любая существующая привычка сохраняется лишь путем закрепления через повторное воспроизведение соответствующего поведенческого паттерна (Ibid, р. 11), а без повторов привычка умирает. С этой целью они сформулировали концепцию итерационной изменяемой сенсомоторной среды (iterant deformable sensorimotor medium) — механизма «соотнесения текущего сенсомоторного состояния и последующего моторного состояния, модифицируемого таким образом, чтобы подкрепить или усилить те траектории, которые возобновляются или повторяются» (Ibid, р. 4).
128 «ИИСС функционирует путем развития и поддержания истории сенсомоторной динамики. История представляется множеством “узлов”, где каждый узел описывает сенсомоторную [далее — СМ] скорость в СМ-состоянии в некоторый момент времени в прошлом. По мере того как агент осуществляет поведение и его СМ-состояние меняется, добавляются узлы, и таким образом регистрируется то, как менялась работа сенсоров и моторов [речь идет о сенсорах и моторах робота, которым управляет данная программа] при различных СМ-состояниях на протяжении истории системы. Эти СМ-состояния используются […] таким образом, что когда встречается знакомое СМ-состояние, ИИСС вырабатывает поведение, похожее на поведение, которое выполнялось, когда агент был в схожей ситуации в прошлый раз» (Ibid, р. 4).
129 Знакомость ситуации определяется плотностью узлов в сенсомоторном пространстве (представляющее собой совокупность всех возможных сенсорных и моторных состояний агента): чем больше узлов, тем известнее агенту ситуация (Ibid, р. 4). Причем новый узел добавляется, только если значение плотности оказывается ниже определенного порогового значения.
130 У каждого узла есть вес Nw, чья динамика определяется по формуле , где первое слагаемое обозначает постепенное ослабление влияния узла, а второе — усиление влияния узла, когда текущее СМ-состояние близко к узлу. Второе слагаемое обеспечивает самоподдержание паттернов поведения (Ibid, р. 5). «Влияние узла на моторы может быть разложено на два фактора: на фактор скорости и на фактор притяжения. Фактор скорости […] — это просто моторная компонента вектора Nv [СМ-скорости в узле N]. Фактор притяжения […] устроен немного сложнее. Это — “сила”, которая тянет систему к узлу. Она приводит к движению в СМ-пространстве к зонам СМ-пространства, которые лучше знакомы, т.е. к таким, у которых выше плотность узлов» (Ibid, р. 5).
131 В целом формирование и сохранение привычек ограничено следующими факторами: 1) свойствами ИИСС; 2) возможными сенсомоторными проявлениями, которые, в свою очередь, определяются параметрами среды и робота; 3) историей и текущей структурой привычки; 4) историей и нынешним состоянием других привычек. Причем авторы сознательно не трогали тему роли вознаграждения и наказания при формировании привычки. Привычки весьма подвижны, могут переходить одна в другую, адаптироваться к изменяющимся условиям среды (Ibid, р. 10—12).
132 Эгберт и Барандиаран не придерживаются точки зрения, что привычки непременно благотворны, в их модели привычки могут быть как вредными, так и полезными для своего обладателя (Ibid, 12).
133 Определенным минусом данного подхода можно считать то, что модель как бы подталкивает к формированию привычки, что затрудняет изучение процесса ее формирования: «Если система оказывается в незнакомом СМ-состоянии, она так изменит работу моторов, что скорее всего вернется в знакомое СМ-состояние» (Ibid, р. 7).
134

6. Выводы

135 Окидывая взглядом соответствующую литературу, трудно согласиться с утверждением Эгберта и Барандиарана, что «понятие привычки пока привлекло мало внимания» (Egbert, Barandiaran, 2014, р. 2). Однако зачастую это внимание поверхностное, что дает право не принимать его в расчет. Тем не менее, несмотря на полученное внимание (а может быть, вследствие недополученного внимания), данная исследовательская область по-прежнему мало упорядочена. Причем порядка нет даже внутри отдельной дисциплины, не говоря уже о междисциплинарном уровне.
136 Различается не только содержание моделей, области их применения, исходные теоретические посылки и способ интерпретации (ср., например, (Goodwin, 1977; Stigler, Becker, 1977; Han et al., 2009; Egbert, Barandiaran, 2014)) и представления самой привычки, но даже форма описания и подачи модели в работе. Последнее в большой степени касается агентных моделей, которые представлены и вербально, и псевдокодом, и формулами, и блок-схемами. Даже при использовании регрессионного подхода одни авторы могут взять привычку в качестве регрессора (Korniotis, 2010), а другие — как коэффициент при регрессоре (Gerber et al., 2003).
137 Описания многих моделей приведены в форме цитат, чтобы показать, насколько непохожи способы их подачи, или, говоря иначе, чтобы продемонстрировать отсутствие единых стандартов. Все это лишний раз говорит о том первичном хаосе, который царит в этой междисциплинарной предметной области, свидетельствующем о самом раннем этапе ее формирования.
138 Вследствие этого очень сложно систематически сравнивать подходы: они слишком различны, трудно выделить существенные общие и различающиеся черты. К сожалению, далеко не все подходы сами по себе (без использования дополнительных исследовательских инструментов) пригодны для изучения привычек в динамике, одни просто предлагают точечные оценки, другие не дают возможности оценить факторы, обуславливающие динамику.
139 Сложно рассуждать о пригодности той или иной модели для изучения жизненного цикла привычки, потому что в принципе для любой модели можно изобрести некий костыль: подходящую форму представления новой особенности или свойства, чтобы вписать ее в концептуальные рамки модели или же неочевидную интерпретацию уже имеющихся в модели параметров и механизмов. Проблема в таком случае будет в сложности и целесообразности подобного изобретательства и интуитивности найденных представлений и ожидаемых результатов. В недоработанном виде почти все подходы предоставляют возможности изучать динамики привычки в том или ином виде, следовательно, и возможности изучения жизненного цикла — в той или иной степени. Оценки масштабов и глубины этих возможностей будут зависеть от задач, стоящих перед исследователем.
140 Учитывая специфику привычки как психического явления, сегодня невозможно выделить подход, который предлагал бы ее бесспорную количественную оценку. Речь, к сожалению, идет лишь о той или иной степени достоверности, при том, что максимальный уровень этой достоверности остается относительно низким.
141 Способы выражения привычки тоже весьма разнообразны, но, наверно, с некоторыми натяжками (особенно для компьютерных моделей, в которых подходы могут сочетаться) можно выделить три принципиально различных подхода: привычка как отдельный явный параметр, как набор косвенных параметров и как особенность структуры модели (взаимосвязи параметров).
142 За моделью может стоять самобытная теория (в этом случае нередко разрабатывается и собственный вычислительный метод, что характерно для компьютерных подходов), а может — просто привычный инструментальный подход, который был прямолинейно применен к невозделанной теме.
143 Обнаруженная разнородность и отсутствие явного лидера сильно затрудняет выбор готового подхода для формального описания и/или моделирования привычки. Отсутствие засвидетельствованных в работах ярких практических успехов изложенных концепций еще больше затрудняет выбор. Из-за этого во многих случаях может оказаться целесообразным разрабатывать модель на основе собственного видения.
144 Разнообразие подходов и отсутствие среди них явного фаворита намекают на то, что концептуальные границы еще не сформировались и у исследователей есть колоссальная творческая свобода.

References

1. Abel A.B. (1990). Asset Prices under Habit Formation and Catching up with the Joneses. American Economic Review, 80, 2, 38—42.

2. Amouroux E., Huraux T., Sempe F., Sabouret N., Haradji Y. (2014). SMACH: Agent-Based Simulation Investigation on Human Activities and Household Electrical Consumption. In: Filipe J., Fred A. (eds) “Agents and Artificial Intelligence. ICAART 2013”. Communications in Computer and Information Science, 449. Berlin, Heidelberg: Springer, 194—210.

3. Banister D. (1978). The Influence of Habit Formation on Modal Choice — A Heuristic Model. Transportation, 7, 19–33.

4. Becker G.S. (1992). Habits, addictions and traditions. Kyklos, 45, 327–346.

5. Carroll C.D., Overland J., Weil D.N. (2000). Saving and Growth with Habit Formation. American Economic Review, 90, 3, 341—355.

6. Clark F., Sanders K., Carlson M., Blanche E., Jackson J. (2007). Synthesis of Habit Theory. OTJR: Occupation, Participation and Health, 27 (Supplement), 7s—23s.

7. Constantinides G.M. (1990). Habit Formation: A Resolution of the Equity Premium Puzzle. Journal of Political Economy, 98, 3, 519—543.

8. Daw N.D., Niv Y., Dayan P. (2005). Uncertainty-Based Competition between Prefrontal and Dorsolateral Striatal Systems for Behavioral Control. Nature Neuroscience, 8, 12, 1704—1711.

9. Dezfouli A., Balleine B.W. (2012). Habits, Action Sequences and Reinforcement Learning. European Journal of Neuroscience, 35, 1036—1051.

10. Egbert M.D., Barandiaran X.E. (2014). Modeling Habits as Self-Sustaining Patterns of Sensorimotor Behavior. Frontiers in Human Neuroscience, 8. 590.

11. Faria J.R., Leon-Ledesma M.A. (2004). Habit Formation, Work Ethics and Technological Progress. The Manchester School, 72, 3, 403—413.

12. Fournier M., d’Arripe-Longueville F., Rovere C., Easthope C.S., Schwabe L., El Methni J., Radel R. (2017). Effects of Circadian Cortisol on the Development of a Health Habit. Health Psychology, 36, 1059—1064.

13. Gardner B., Abraham C., Lally P., Bruijn G.-J. de (2012). Towards Parsimony in Habit Measurement: Testing the Convergent and Predictive Validity of an Automaticity Subscale of the Self-Report Habit Index. International Journal of Behavioral Nutrition and Physical Activity, 9, 102. DOI: https://doi.org/10.1186/1479-5868-9-102.

14. Gerber A.S., Green D.P., Shachar R. (2003). Voting May Be Habit-Forming: Evidence from a Randomized Field Experiment. American Journal of Political Science, 47, 3, 540—550.

15. Goodwin P.B. (1977). Habit and Hysteresis in Mode Choice. Urban Studies, 14, 95—98.

16. Han Q., Arentze T., Timmermans H., Janssens D., Wets G. (2009). A Multi-Agent Modeling Approach to Simulate Dynamic Activity-Travel Patterns. In: Bazzan A.L.C., Klugl F. (eds) “Multi-Agent Systems for Traffic and Transportation Engineering”. Hershey, New York: Information Science Reference, 36—56.

17. Hiraguchi R. (2011). A Two Sector Endogenous Growth Model with Habit Formation. Journal of Economic Dynamics & Control, 35, 430—441.

18. Hodgson G.M. (2010). Choice, Habit and Evolution. Journal of Evolutionary Economics, 20, 1, 1—18.

19. Hodgson G.M., Knudsen T. (2004). The Complex Evolution of a Simple Traffic Convention: The Functions and Implications of Habit. Journal of Economic Behavior and Organization, 54, 1, 19—47.

20. Istratov V.A. (2009). Agent-Based Model of Human Behavior: Can’t Money Buy You Happiness? Economics and Mathematical Methods, 45, 1, 129—140 (in Russian).

21. Istratov V.A. (2019). Habit Concepts in Economic Theory and Their Algorithmization Suitability. Journal of the New Economic Association, 41, 1, 34—66 (in Russian).

22. Klein M.C.A., Mogles N., Treur J., Wissen A. van (2011). A Computational Model of Habit Learning to Enable Ambient Support for Lifestyle Change. In: Mehrotra K.G., Mohan C.K., Oh J.C., Varshney P.K., Ali M. (eds) “Modern Approaches in Applied Intelligence. IEA/AIE 2011”. Lecture Notes in Computer Science, 6704. Berlin, Heidelberg: Springer, 130—142.

23. Korniotis G.M. (2010). Estimating Panel Models with Internal and External Habit Formation. Journal of Business & Economic Statistics, 28, 1, 145—158.

24. Lally P., Jaarsveld C.H.M. van, Potts H.W.W., Wardle J. (2010). How are Habits Formed: Modelling Habit Formation in the Real World. European Journal of Social Psychology, 40, 998—1009.

25. Linkola L., Andrews C.J., Schuetze T. (2013). An Agent Based Model of Household Water Use. Water, 5, 1082—1100.

26. Pollak R.A. (1970). Habit Formation and Dynamic Demand Functions. Journal of Political Economy, 78, 4, Part 1, 745—763.

27. Read S.J., Brown A.D., Wang P., Miller L.C. (2018). The Virtual Personalities Neural Network Model: Neurobiological Underpinnings. Personality Neuroscience, 1. E 10, 1—11.

28. Roberts S.C., Lee J.D. (2012). Using Agent-Based Modeling to Predict the Diffusion of Safe Teenage Driving Behavior Through an Online Social Network. Proceedings of the Human Factors and Ergonomics Society Annual Meeting, 56, 1, 2271—2275.

29. Schmitt-Grohe S., Uribe M. (2008). Habit Persistance. In: Blume L., Durlauf S.N. (eds) “The New Palgrave Dictionary of Economics”, 3. New York: Palgrave, Macmillan, 814—816.

30. Stigler G., Becker G. (1977). De Gustibus non Est Disputandum. American Economic Review, 67, 2, 76—90.

31. Verplanken B., Aarts H., Knippenberg A. van, Knippenberg C. van (1994). Attitude versus general habit. Journal of Applied Social Psychology, 24, 4, 285—300.

32. Verplanken B., Orbell S. (2003). Reflections on Past Behavior: A Self-Report Index of Habit Strength. Journal of Applied Social Psychology, 33, 6, 1313—1330.