Applying the maximum likelihood method for valuation
Table of contents
Share
Metrics
Applying the maximum likelihood method for valuation
Annotation
PII
S042473880008528-9-1
DOI
10.31857/S042473880008528-9
Publication type
Article
Status
Published
Authors
Sergey Smolyak 
Occupation: Principal Scientific Researcher
Affiliation: Central Economics and Mathematics Institute, Russian Academy of Sciences
Address: Moscow, Russian Federation
Pages
114-126
Abstract

We consider various applications of the maximum likelihood method to problems of mathematical statistics and asset valuation. Most of the known valuation methods are based on the assumption of the normal distribution of prices of identical assets. However, this assumption is difficult to substantiate, especially with a small sample size or in the presence of “outliers”. We proceed from a less severe assumption about the logarithmic convexity of the price distribution density and present a method for constructing the most plausible log-convex distribution density of a random variable from its independent realizations. In the valuation tasks, the mode of a corresponding price distribution of identical assets allows a natural interpretation as an asset value, since, according to valuation standards, the the market value of an asset is its most likely (most probable) price in a transaction made under certain conditions. We show that comparing the modal and mean values of the assets prices allows the appraiser to characterize the state of the market of such assets. In a market approach to the valuation of assets, the value of an asset is determined from the data on the prices of its analogues. In such cases, appraisers build several options for the parametric regression of the price of an asset on its characteristics, which differ in the type of regression function. Usually, at the same time, appraisers use the criterion of minimum variance of deviations, oriented to their normal distribution. In our opinion, the maximum likelihood criterion is more appropriate here. We use it to simultaneously estimate the calibration parameters of the regression dependence and the log-convex density of the distribution of deviations from this dependence, as well as to construct convex nonparametric regression dependencies and modal regression dependencies (which is especially important for valuation).

Keywords
parametric regression, convex regression, modal regression, maximum likelihood, probability density estimation, logarithmic convexity, assets valuation, market approach.
Received
12.04.2020
Date of publication
11.06.2020
Number of purchasers
19
Views
255
Readers community rating
0.0 (0 votes)
Cite Download pdf 100 RUB / 1.0 SU

To download PDF you should sign in

Full text is available to subscribers only
Subscribe right now
Only article
100 RUB / 1.0 SU
Whole issue
792 RUB / 15.0 SU
All issues for 2020
2534 RUB / 50.0 SU
1

Введение

2 Стоимостная оценка активов осуществляется оценщиками и чаще всего имеет целью определение (оценку) рыночной стоимости (РС) активов на определенную дату. В общем случае под РС актива на дату оценки понимается цена, по которой он может быть продан на эту дату в сделке, совершаемой при определенных условиях, конкретизируемых стандартами оценки и законодательством (МСО 20171 и Федеральным Законом «Об оценочной деятельности в Российской Федерации» от 29 июля 1998 г. № 135-ФЗ (с последующими изменениями и дополнениями) и др.). В частности, такие сделки (мы будем именовать их стандартными) должны совершаться на открытом и конкурентном рынке независимыми заинтересованными типичными участниками рынка, действующими расчетливо и хорошо осведомленными о предмете сделки и ситуации на рынке.
1. МСО 2017. Международные стандарты оценки 2017 (International Valuation Standards 2017. International Valuation Standards Council: London).
3 Оценщики часто используют сравнительный подход, оценивая актив на основе цен его аналогов2. Однако условия реальных сделок могут отклоняться от стандартных. Поэтому принимается, что цены активов случайно колеблются вокруг их стоимостей — центров вероятностных распределений цен, которые определяются либо как математические ожидания цен, либо как их моды. Каких-то экономических обоснований первого определения в литературе не приводится, зато второе — прямо увязано со стандартами оценки, где конкретизируется, что РС «является наиболее вероятной ценой, которая, по разумным соображениям, может быть получена на дату оценки на рынке при соблюдении условий, содержащихся в определении рыночной стоимости» (МСО 2017, МСО 104, п. 30), т.е. при совершении стандартной сделки. Поскольку цены активов обычно считаются непрерывными переменными, роль наиболее вероятной цены играет наиболее правдоподобная — мода распределения.
2. ФСО № 1 «Общие понятия оценки, подходы и требования к проведению оценки. Приказ Минэкономразвития России» от 20.05.2015 № 297, (МСО 2017, 2017, МСО 105, п. 20).
4 Укажем две типичные задачи стоимостной оценки.
5 1. Для оценки РС актива наблюдаются цены сделок с рядом идентичных активов, рассматриваемых как реализации некоторой случайной величины, имеющей распределение определенного вида (скажем, нормальное). Требуется определить центр этого распределения.
6 2. Оцениваемый актив — представитель группы аналогичных активов. Все активы группы имеют один и тот же набор основных (объясняющих) характеристик (например, мощность и массу), отличаясь только значениями этих характеристик. Поэтому каждому активу группы отвечает векторная характеристика (ВХ) X, образованная значениями его основных характеристик. Для оценки актива с ВХ X0 отбираются его аналоги с ВХ X1 ,..., XT и известными ценами Y1, ..., YT. Принимается, что эти цены — реализации независимых случайных величин, распределение которых известным образом зависит от ВХ активов и неизвестного (вообще говоря, векторного) калибровочного параметра Θ. Требуется определить значение Θ и отвечающий ему центр распределения случайной цены актива с ВХ X0, трактуемый как его РС. Чаще всего принимается, что распределение цены актива с ВХ X — нормальное с центром F(X,a) и дисперсией S, где a — постоянный вектор, F — известная функция. В этом случае калибровочным параметром Θ будет пара (a,S), а задача сводится к построению регрессионной зависимости цены актива (объясняемой переменной) от его характеристик.
7 Для нахождения Θ часто используется метод максимального правдоподобия (ММП), предусматривающий максимизацию плотности вероятности получения имеющейся выборки наблюдений {(Yt, Xt)} — правдоподобия выборки P, или ее логарифма L=lnP. В данном случае он приводит к задаче
8 P=t=1T12πSexp-Yt-FXt,a2/2Smaxa,S.
9 Отсюда вытекает, что S=1Tt=1TYt-FXt,a2mina , так что a и S определяются методом наименьших квадратов (МНК, ordinary least squares method, OLS).
10 Если бы цены имели распределение Лапласа с плотностью exp-x-FXt,a/λ/2λ , то ММП привел бы к задаче λ=1Tt=1TYt-FXt,amina , т.е. к определению a и S методом наименьших модулей. Правда, если распределение Yt — нормальное, оценка a оказалась бы менее точной по сравнению с МНК.
11 В математической статистике исследованы асимптотические свойства ММП при неограниченно возрастающем числе наблюдений (см., например, (Кендалл, Стьюарт, 1973). Мы не будем на этом останаливаться, поскольку при стоимостной оценке наблюдений обычно не слишком много.
12 При оценке РС активов с помощью функций регрессии F(X,a) часто имеется несколько содержательно обоснованных вариантов этой функции, различающихся аналитическим выражением, набором калибровочных параметров a и/или составом основных характеристик — компонент вектора X. Обычно оценщик выбирает вариант, дающий наименьшее среднеквадратичное отклонение величин Yt от F(Xt,a), более подробные рекомендации, ориентированные на оценку имущества для налогообложения, даются в (Стандарты МАНО3).
3. Стандарты Международной ассоциации налоговых оценщиков (МАНО). (Standard on Automated Valuation Models (AVMs). International Association of Assessing Officers Standards).
13 Между тем, традиционное допущение о нормальности распределения наблюдаемых значений цен (или их отклонений от регрессионной зависимости) является всего лишь допущением, обычно не проверяемым. Поэтому оценщику трудно объяснить заказчику, почему значение F(X0,a) правомерно считать стоимостью оцениваемого актива.
14 Нередко среди отобранных оценщиком объектов-аналогов оказываются такие, для которых некоторые отклонения Δt=Yt-FXt,a сравнительно велики (выбросы). Конечно, причиной этого может быть и неправильный выбор аналогов или ошибки в регистрации их цен и характеристик. Однако в условиях, когда отчеты оценщиков проходят многократную экспертизу, а оценщики несут имущественную и уголовную ответственность за результаты оценки, подобные ситуации возникают редко. Между тем, проще объяснить выбросы тем, что плотность распределения цен или их отклонений от РС имеет более тяжелые хвосты, чем у нормального распределения. Здесь можно рассмотреть ряд вероятностных распределений отклонений Δt и сравнить их по критерию правдоподобия (Смоляк, 2017). И действительно, при оценке РС ряда объектов оказалось, что распределение Лапласа или логистическое распределение порой оказывались более правдоподобными, чем нормальное. Однако даже наиболее правдоподобное из десятка известных вероятностностых распределений нельзя считать истинным. Поэтому мы ставим задачу одновременного поиска наиболее правдоподобного значения калибровочного параметра a регрессионной зависимости Y=F(X,a) и наиболее правдоподобной плотности q(Δ) вероятностного распределения отклонений от этой зависимости, имеющей нулевой центр. Разумеется, при этом необходимо как-то ограничить класс допустимых плотностей q(Δ), приемлемых для стоимостной оценки.
15 Назовем функцию φ(x) логарифмически выпуклой, если –lnφ(x) — выпуклая функция на всей числовой оси (допускается, что она может принимать значение +). Логарифмически выпуклыми являются плотности нормального и многих других обычно встречающихся вероятностных распределений. Будем считать, что такими же будут и плотности q(φ) распределения отклонений Δt. Поясним это.
16 При практической оценке активов во многих случаях выбросы отсутствуют, а гипотеза о нормальном распределении отклонений не отвергается. Поэтому при не слишком больших отклонениях от центра распределение отклонений будет похоже на нормальное, а его плотность — логарифмически выпуклой. Если же наблюдаются выбросы, то разумные оценки калибровочных параметров дают метод наименьших модулей. Это позволяет считать, что хвосты распределения отклонений не тяжелее, чем у распределения Лапласа, так что при больших Δ функция –lnq(φ) растет не медленнее, чем линейно, что характерно для выпуклых функций.
17

Восстановление плотности распределения

18 Восстановлению плотности распределения случайной величины определенного вида по выборке ее реализаций посвящен ряд работ. Основное внимание при этом уделялось положительным случайным величинам. Так, в (Grenander, 1956) принималось, что искомая плотность распределения убывающая, а в (Groeneboom, Jongbloed, Wellner, 2001) она, кроме того, еще и выпуклая. В (Клейнер, Смоляк, 2000, разд. 4.2) мы исследовали ситуацию, когда плотность распределения логарифмически выпукла на всей прямой. Позднее эта же ситуация изучалась в (Groeneboom et al., 2001), для многомерных случайных величин в (Cule, Samworth, Stewart, 2010; Dümbgen, Rufibach, 2009).
19 Будем оценивать логарифмически выпуклую плотность распределения f(Х) случайной величины по Т наблюденным ее значениям Xt, которые далее для упрощения считаются различными. ММП в этом случае приводит к задаче нахождения такой выпуклой функции g(X)=–lnf(Х), для которой
20 Lg=-t=1TgXtmax (1)
21 при ограничении на плотность вероятностного распределения
22 Jg=-e-gXdX=1. (2)
23 Выясним, как устроена такая оптимальная функция. Обозначим L(g)=K. Пусть q(X) — любая выпуклая функция, r(X)=q(X)+lnJ(q). Тогда J(r)=1, так что
24 KLr=-i=1TrXi=-i=1TqXi+lnJq=Lq-TlnJq. (3)
25 Поэтому среди всех выпуклых функций q(X) максимальное значение функционала M(q)=L(q) – T ln J(q), равное K, достигается на функции g(X).
26 Обозначим hi=gXi,    ui=hi+1-hi/Xi+1-Xi и возьмем наибольшую выпуклую функцию h(X) такую, что h(Xi)=hi. Очевидно, что h(X)=+∞ вне отрезка [X1,XT], h(X)=hi+ui(XXi) при Xi
27 Таким образом, функция h(X) определяется набором величин hi, удовлетворяющих следующим условиям:
28 h2-h1X2-X1h3-h2X3-X2...hT-hT-1XT-XT-1; (4)
29 Mh=Lh-TlnJh=-i=1Thi-Tln-e-hXdXmax. (5)
30 Однако если функция h(X) удовлетворяет этим условиям, им будут удовлетворять и функции h(X)+C при любых C. Поэтому потребуем вначале, чтобы функция h(X) удовлетворяла дополнительному условию L(h)=0. Тогда условие (5) заменится двумя другими:
31 i=1Thi=0; (6)
32 Jh=X1XTe-hXdX=i=1Te-hi-e-hi+1hi+1-hiXi+1-Ximin. (7)
33 Но J(h) — выпуклая функция, так что отыскание hi из условий (4), (6) и (7) — это задача выпуклого программирования, решаемая известными методами.
34 Искомая функция g(X) должна отличаться от h(X) на константу, которую можно подобрать, учитывая равенство (2). Оказывается, что g(X)=h(X)+lnJ(h). Соответствующая плотность распределения будет при этом равна e-gX , а ее логарифмическое правдоподобие составит –T lnJ(h).
35 Среднее значение m=M[Х] для полученного вероятностного распределения определяется формулой
36 m=X1XTXe-gXdX=i=1T-11+uiXie-hi-1+uiXi+1e-hi+1/ui2. (8)
37 В (Dümbgen et al, 2011) показано, что оно совпадает с выборочным средним X-=X1+...+XT/T . Действительно, пусть gε( Х)=g(Х)+ ε(Хc), а c выбрано из условия J(gε)=1. Легко проверить, что при малых ε будет c=m+O(ε). Заметим теперь, что gε(Y) выпукла и удовлетворяет условию (2), так что L(g)> L(gε). Однако неравенство
38 0Lg-Lgε=i=1nNiεYi-c=εTX--c=εTX--m+Oε2
39 может выполняться при любом малом ε лишь при m=X- .
40 Сопоставляя моду найденного распределения со средним значением, оценщик может оценить состояние соответствующего рынка активов. Так, ситуация, когда наиболее вероятно, что цена сделки окажется выше средней, свидетельствует о превышении спроса над предложением (рынок продавца). Обратная же ситуация (мода меньше среднего значения) отвечает превышению предложения над спросом, т.е. рынку покупателя. При рыночном равновесии мода и среднее значение будут близки.
41 Приведем два примера.
42 Пример 1. Получены 14 реализаций случайной величины, равномерно распределенной на отрезке [0, 1]: 0,078; 0,219; 0,236; 0,319; 0,483; 0,581; 0,592; 0,607; 0,622; 0,705; 0,713; 0,720; 0,776; 0,853. На рис. 1 приведен график оцененной указанным способом плотности распределения.
43 Оценка среднего значения нашей случайной величины, полученная по формуле (8), точно совпадает с выборочным средним (0,536). При этом модальное (наиболее вероятное) значение случайной величины (0,713) заметно выше среднего значения, что характерно для рынка продавца.
44

45 Рис. 1. Оценка f(Х) плотности равномерного распределения
46 Пример 2. В этом расчете оценивалось симметричное треугольное распределение случайной величины на отрезке [0, 1] по 10 ее реализациям: 0,063; 0,324; 0,339; 0,434; 0,460; 0,554; 0,590; 0,641; 0,698; 0,833. Полученная в результате плотность распределения приведена на рис. 2. При этом модальное ее значение (0,590) близко к среднему (0,494).
47

Рис. 2. Оценка плотности треугольного распределения

48 Во многих случаях оценщики предполагают рынок равновесным. Здесь наблюдаемые цены идентичных активов отклоняются от своего центра (трактуемого как РС) равновероятно в обе стороны, причем малые отклонения имеют бо́льшие вероятности. Этому отвечают симметричные плотности распределения, у которых среднее значение и мода совпадают. В таком случае необходимо по выборке цен определить наиболее правдоподобные центр распределения цен m и плотность их распределения, удовлетворяющую условию f(x)≡f(2mx). Решение этой задачи немного усложняет модель, но мы не будем на этом останавливаться.
49 ММП применим и для восстановления плотности распределения случайного вектора. Эта задача исследовалась, например, в (Cule, Samworth, Stewart, 2010). Мы не будем ее рассматривать, поскольку в стоимостной оценке характеристики объектов обычно считаются детерминированными, а не случайными. Отметим лишь, что оптимальная плотность и здесь отлична от нуля на некоторой области, состоящей из симплексов, на каждом из которых она имеет вид экспоненты линейной функции. Однако алгоритм решения задачи трудно реализовать в Excel.
50

Логарифмическое преобразование

51 В задачах стоимостной оценки объясняемой переменной является цена актива, которая почти всегда положительна. Поэтому оценщики нередко изучают влияние характеристик актива не на его цену Х, а на логарифм этой цены W=lnХ. Наиболее правдоподобные распределения цены в обоих случаях будут разными (так будет и при других нелинейных монотонных преобразованиях цен). Действительно, в первом случае мы ищем выпуклую функцию g(Х) из условий
52 0e-gXdX=1,      -tgXtmax.
53 Во втором случае на функцию g(W) (плотность распределения W=lnХ) накладываются условия:
54 -e-gWdW=1,    -tgWt=-tglnXtmax.
55 Если обозначить G(X)=g(lnX), то функция G удовлетворяет условиям:
56 0X-1e-GXdX=1,    -tGXtmax.
57 Плотностью распределения цен X здесь оказывается не e-GX , а X-1e-GX . Отрицательным логарифмом этой плотности будет G(X)+lnX, но эта функция уже не обязана быть логарифмически выпуклой, и к тому же ей отвечает совсем иная мода и иное значение логарифмического правдоподобия.
58 Формула (8) даст теперь среднее значение логарифма цены, а среднее значение цены X=eW придется находить по формуле
59 m=W1WneW-gWdW=i=1n-1WiWi+1eW-gWdW=i=1n-1eWi-hi-eWi+1-hi+1ui-1. (9)
60 При этом входящие в формулу величины hi и ui будут теми же характеристиками функции g(W), что и в разд. 2.
61 Поскольку применение метода разд. 2 к выборкам {Хt} и {ln Хt} приводит к различным результатам, то выбрать лучший из них можно по критерию максимального правдоподобия.
62

Параметрические регрессионные зависимости

63 Теперь вернемся к задаче построения регрессионной зависимости по выборочным наблюдениям.
64 Наблюдаются T объектов некоторой совокупности (аналогичные объекты). Каждый результат наблюдения характеризуется парой (Yt,Xt), где Yt — цена объекта t; Xt — его ВХ. При этом Yt=F(Xt,a)+Δt, где F — известная функция двух переменных; a — неизвестный калибровочный параметр зависимости, принадлежащий известному множеству Ω (например, одна из его компонент может быть любым числом, другая — только положительным числом, третья может равняться 1 или 2); Δt — случайное отклонение, имеющее центром 0. При этом все Δt независимы и имеют одну и ту же неизвестную логарифмически выпуклую плотность распределения.
65 Заметим, что каждому aΩ отвечают свои отклонения Δt=YtF(Xt,a), по которым, как в разд. 1, можно построить наиболее правдоподобную логарифмически выпуклую плотность их распределения и отвечающие этой плотности центр C(a) и логарифмическое правдоподобие L(a). Тогда задача сводится к отысканию aΩ, максимизирующего значение L(a) при ограничении C(a)=0. Такая постановка охватывает широкий круг задач, например задачу выбора лучшего варианта обычной регрессионной зависимости. Здесь центром распределения считается среднее значение, множество Ω состоит из наборов (i,a), где i — номер варианта; F(X,i,a)=Fi(X,a) — соответствующая функция регрессии; a — ее калибровочный параметр.
66 Если считать центром распределения моду, зависимость Y=F(X,a) будет отражать модальную регрессию, которую стали исследовать сравнительно недавно (см., например, (Sager, Thisted, 1982; Lee, 1989; Yao, Li, 2014; Chen et al., 2016)).
67 Далее мы приведем несколько числовых примеров, но сперва сделаем важное замечание. Нередко выбранные для построения зависимости аналоги сильно различаются по своим ВХ, а следовательно, и по РС. Оказывается, что тогда размах отклонений Δt=YtF(Xt,a) для дорогих объектов будет больше, чем для дешевых. Это дает основания считать, что одно и то же вероятностное распределение имеют не абсолютные, а относительные отклонения цен от регрессионной зависимости. В таких случаях целесообразно переходить от цен объектов к их логарифмам, определяя отклонения как логарифмы отношений Δt=ln[Yt/F(Xt,a)], близкие к относительным отклонениям. Если при этом под РС актива понимать математическое ожидание его цены, то условие равенства нулю среднего значения Δt придется заменить. Вместо этого надо потребовать, чтобы среднее значение eΔt , рассчитываемое по формуле (9), равнялось 1.
68 Пример 3. Рассмотрим задачу построения регрессионной зависимости цен (Z, млн руб.) листогибочных прессов серии DURMA-R от их массы (X, т). Исходная информация сведена в табл. 1.
69 Таблица 1
70
Марка Масса (X) Цена (Z) Марка Масса (X) Цена (Z)
R1260 3,10 1,550 R30320 17,25 5,114
R2060 3,55 2,638 R37175 17,25 4,365
R25100 8,65 2,580 R37220 14,10 4,656
R30100 9,25 3,162 R40175 12,85 4,705
R30135 10,25 3,465 R40220 14,75 5,578
R30175 11,25 3,752 R40320 20,75 5,723
R30220 12,25 3,991      
71 Будем искать линейную регрессионную зависимость между логарифмом цены пресса и логарифмом его массы: F(X,a,α)=a+α lnX. МНК в этом случае дает следующий результат: α=0,590, a=–0,074, S=0,0203, L=6,87.
72 Та же задача решалась с помощью ММП в 4 этапа: 1) задавалось значение α; 2) для каждого пресса i определялось отклонение Δi=lnZi – αlnXi; 3) определялись плотность f(Δ) наиболее правдоподобного распределения величин Δi и отвечающее ему логарифмическое правдоподобие L=L(α); 4) подбиралось α, дающее максимум L(α). При этом искомое a будет средним значением найденного распределения, и его можно найти по формуле (8).
73 Расчеты дали следующий результат: α =0,687, a=–0,304, L=9,68. На рис. 3 приведен график полученной плотности распределения f(w).
74 Модой этого распределения будет –0,339. Поэтому модальное значение цены пресса определяется формулой e-0,339X0,590=0,712X0,590 . Среднее значение цены прессов, найденное по формуле (9), составило 0,744, поэтому средняя цена пресса с массой X будет 0,744X0,590 . Полученные зависимости модального (mode) и среднего (mean) значения логарифма цены цены пресса от логарифма его массы, а также исходные данные (fact) представлены на рис. 4. Там же показана и зависимость lnZ=0,590lnX-0,074 , полученная с помощью МНК (OLS).
75

Рис. 3. Плотность распределения отклонений Δi=lnZi – αlnXi

76 Отметим, что найденная функция f(w) по своей форме напоминает плотность распределения Лапласа. В связи с этим мы оценили параметры a и α методом наименьших модулей (ориентированным как раз на такое распределение) и получили близкие значения: α=0,661, a=–0,271.
77

Рис. 4. Зависимости логарифма цены пресса от логарифма его массы

78 Пример 4. Рассмотрим задачу построения регрессионной зависимости цен (Z, млн руб.) автокранов «КЛИНЦЫ» грузоподъемностью 25 т от длины стрелы (X, м). Исходная информация сведена в табл. 2.
79 Таблица 2
80
Марка X Z Марка X Z
55713-1К-1 21,0 8,125 55713-1К-4 31,0 9,275
55713-5К-1 21,0 8,050 55713-5К-4 31,0 9,200
55713-1К-2 24,0 8,000 55713-1К-4В 32,5 9,475
55713-5К-2 24,0 7,950 55713-4К-4В 32,5 9,525
55713-1К-3 28,0 8,675 55713-5К-4В 32,5 9,450
55713-5К-3 28,0 8,550
81 Искомую зависимость будем считать линейной в логарифмах: lnZ=alnX+b . МНК в этом случае дает: a=0,4075, b=0,8177, L=24,1. Использование процедуры, изложенной в примере 4, дало иные значения параметров модели: a=0,364, b=0,961, L=30,56. На рис. 5 приведен график плотности f(w) распределения отклонений Δi. Модой этого распределения будет 0,986, а уравнением модельной регрессии — lnZ=0,364lnX+0,986 . Оно отвечает максимальным отклонениям или, что то же самое, максимальным ценам машин. Поэтому, предполагая представительность нашей выборки цен, рынок автокранов на дату оценки можно считать рынком продавца (см. разд. 2).
82 Полученные зависимости модального (mode) и среднего (mean) значения логарифма цены автокрана от логарифма длины стрелы, а также исходные данные (fact) представлены на рис. 6. Там же для сравнения приведена и зависимость, полученная МНК (OLS).
83

Рис. 5. Плотность распределения отклонений Δi=lnZi–alnXi

84

Рис. 6. Зависимость цены автокрана «КЛИНЦЫ» от длины стрелы

85

Непараметрическая регрессия

86 Обычно вид параметрических функций регрессии задается, а иногда в нескольких вариантах. Но есть работы, посвященные построению непараметрической регрессии (например, (Хардле, 1993; Расин, 2008; Анатольев, 2009)), в которых функцию регрессии выбирают из числа обладающих тем или иным свойством, скажем, монотонных или выпуклых. Рассмотрим последний случай, часто встречающийся при стоимостной оценке. Задачам выпуклой регрессии, в том числе модальной, также посвящен ряд работ, например (Hildreth, 1954; Birke, Dette, 2007; Seijo, Sen, 2011; Chen et al., 2016). Правда, во многих из них критерием качества построенной зависимости принимается средний квадрат отклонений. Однако стандартам оценки в большей степени отвечает критерий максимального правдоподобия. Покажем, как его использовать для построения однофакторной зависимости.
87 Здесь результатом наблюдений T аналогичных объектов является T сочетаний (Yt,Xt) значений объясняемой и объясняющей их характеристик. Считается, что каждое Yt — реализация случайной величины со средним значением F(Xt), причем все отклонения Δt=YtF(Xt) имеют одно и то же вероятностное распределение с логарифмически выпуклой плотностью. Требуется восстановить функцию F(X), если известно, что она выпукла.
88 Для решения этой задачи используем тот же подход, что и в разд. 4. При этом для определенности будем считать, что X1
89 Вначале будем искать не всю функцию F(X), а только ее значения Ft=F(Xt) для выбранных объектов. Учтем, что F(X) выпукла:
90 F2-F1X2-X1F3-F2X3-X2...FT-FT-1XT-XT-1. (11)
91 Рассмотрим величины Ft как калибровочные параметры искомой зависимости, связанные условиями (11), и применим для нахождения их наиболее правдоподобных значений тот же метод, что и в разд. 4, с одним существенным изменением. Казалось бы, здесь надо подобрать такой набор Ft, которому отвечает наиболее правдоподобное распределение отклонений Δt=YtFt. Однако по определению каждая из величин Ft=F(Xt) является средним значением случайной цены объекта с объясняющей характеристикой Xt. Поэтому у наиболее правдоподобного распределения отклонений Δt должно быть нулевое математическое ожидание.
92 Такая процедура позволяет найти значения функции F(X) только в точках Xt. В интервалах между ними точно найти ее невозможно, но можно указать пределы, в которых она меняется. А именно, поскольку график выпуклой функции на некотором отрезке всегда лежит ниже секушей, соединяющей эти точки, то при c
93 FXFXtd-Xd-c+FXt+1X-cd-c=SX,c,d.
94 В то же время при Xd знак неравенства меняется на противоположный: FXSX,c,d . Отсюда следует, что при XtXXt+1 должны выполняться неравенства SX,Xt,Xt+1FXmaxSX,Xt-1,Xt,SX,Xt+1,Xt+2.
95 Разумеется, при t=1 или t=T–1 из двух функций, стоящих здесь справа в фигурной скобке, надо оставить только одну.
96 В качестве разумного приближения для F(X) здесь можно взять полусумму ее верхней и нижней границ.
97 Пример 5. Строится выпуклая регрессионная зависимость цен (Z, млн руб.) экскаваторов «DOOSAN» разных марок (моделей) от емкости ковша (X, м3). Исходная информация приведена в табл. 3.
98 Таблица 3
99
Марка DX140LC DX180LC DX225LCA S225NLC-V DX225NLCA DX260LCA
X 0,64 0,76 1,05 1,05 1,05 1,17
Z 7,5 8 7,2 8 7,5 9
Марка DX300LCA DX340LCA DX420LCA DX480LC DX520LC DX700LC
X 1,5 1,83 2,16 2,39 3,2 4,32
Z 10 13 16 19 20 40
100 Принимается, что одно и то же вероятностное распределение имеют не абсолютные, а логарифмические отклонения цен от регрессионной зависимости Δt=ln[Yt/F(Xt)]. Результаты расчетов представлены на рис. 7–8. На рис. 7 показана плотность распределения случайных отклонений Δt, а рис. 8 нуждается в объяснении.
101

Рис. 7. Плотность распределения логарифмических отклонений цен экскаваторов «DOOSAN» от регрессионной зависимости

102

Рис. 8. Выпуклая регрессионная зависимость цен (Z, млн руб.) экскаваторов «DOOSAN» от емкости ковша (X, м3)

103 Помимо исходных цен, отмеченных точками, на нем представлены еще три линии. Сплошная ломаная линия отвечает точкам (Xt,F(Xt)), соединенным отрезками — это верхняя граница значений функции F(X) на всем отрезке [0,64; 4,32]. Как мы видим, F(X) может быть меньше верхней границы, оставаясь выпуклой, только на отрезке (1,05; 3,2). Нижняя граница F(X) изображена на рисунке пунктиром. Она получается, если продолжить соседние звенья ломаной до их пересечения. Разумным приближением для F(X) может служить полусумма ее верхней и нижней границ — ей отвечает точечная линия на графике. Заметим, что мода отклонений здесь равна 0,035, так что модальные (наиболее правдоподобные) цены машин будут примерно на 3,5% выше показанных на рис. 8.
104 В многофакторных моделях, где объясняющая переменная векторная, нет такого простого условия на значения Ft, как (11). Здесь используется другой прием, описанный, например, в (Seijo, Sen, 2011). Как известно, график выпуклой функции лежит выше любой опорной гиперплоскости, проведенной к этому графику. Возьмем гиперплоскость Y=Ft+bt(XXt), опорную к графику функции F(X) в точке Xt (точкой обозначено скалярное произведение). Тогда
105 Ys=F(Xs)> Ft+bt(XXt) s и t. (12)
106 Поэтому для нахождения функции регрессии F(X) надо найти Ft и bt, удовлетворяющие ограничениям (12), которым отвечает наиболее правдоподобное распределение отклонений Δt=YtFt с логарифмически выпуклой плотностью. При этом значения bt в общем случае определяются неоднозначно (поскольку через одну и ту же точку графика выпуклой функции могут проходить несколько опорных гиперплоскостей).
107 Решив эту задачу, мы узнаем наиболее правдоподобные значения функции F(X) в точках Xt. Пусть D — выпуклая оболочка всех точек Xt. Тогда F(X)=0 вне D, а для XD можно указать верхнюю (F+(X)) и нижнюю (F(X)) границы для F(X).
108 Чтобы найти F(X), воспольуемся тем, что FXFXt+btX-Xt для всех X и t. Поэтому F-X=maxtFXt+btX-Xt.
109 Чтобы найти F+(X), заметим, что любое XD можно представить выпуклой комбинацией точек Xt. При этом значение F(X) будет не больше аналогичной комбинации F(Xt). Поэтому
110 F+X=mintαtFtαt0,tαt=1,X=tαtXt.
111 При этом полусумма F+(X) и F(X) дает разумное приближение для F(X).
112 Описанный алгоритм трудно реализовать в простой компьютерной программе, а получаемая в результате функция регрессии чрезмерно сложна (недостаточно наглядна). Поэтому применение данной модели к задачам стоимостной оценки проблематично.
113 Однако обычно влияние нескольких характеристик объекта X1, X2, ... на его РС V оценщики описывают сепарабельными зависимостями вида V=F1X1+F2X2+... или V=F1X1F2X2... . При этом вид каждой частной функции Fi(Xi) устанавливается на основе анализа рынка. Другими словами, на форму каждой из функций Fi могут быть наложены свои ограничения (например, F1 может быть выпуклой, F2 — вогнутой, F3 — логарифмически выпуклой). Некоторые характеристики актива (скажем, для станков — класс точности) могут принимать дискретное множество значений. Тогда на соответствующие функции Fi(Xi) ограничения можно и не накладывать. Оказывается, что задачи построения наиболее правдоподобных сепарабельных зависимостей и плотности распределения отклонений наблюдаемых цен активов от их РС сравнительно легко решаются на компьютерах.
114

Выводы

115 Сфера применения ММП достаточно широка. Он позволяет восстанавливать плотность распределения случайной величины по выборке ее реализаций, оценивать моды этих распределений, а также строить регрессионные зависимости (обычные и модальные) при сравнительно слабых предположениях качественного характера как о виде функции регрессии, так и о вероятностном распределении отклонений от нее. Используемые оценщиками стандартные программы регрессионного анализа ориентированы на вполне определенные виды функции регрессии и нормальное распределение отклонений от нее. Поэтому оказывается затруднительным объяснить заказчику, почему результаты применения таких программ правомерно считать оценками стоимостей активов. В то же время получаемая с помощью ММП регрессионная зависимость и выводимые из нее оценки РС активов оказываются более обоснованными. Будучи наиболее правдоподобными (в оценочной литературе — «наиболее вероятными»), они лучше согласуются как с требованиями стандартов оценки, так и с исходной информацией.

References

1. International Valuation Standards 2017. International Valuation Standards Council: London. 2017. 119 p.

2. European Valuation Standards 2016. Eighth edition. TEGoVA. 2016. 376 p.

3. Federal Law "On appraisal activities in the Russian Federation" dated July 29, 1998. No. 135-FZ (with subsequent amendments and additions). (in Russian).

4. Federal Valuation Standard No 1. General concepts of valuation, approaches and requirements for valuation conducting. Order of the Ministry of Economic Development of Russia of 20.05.2015 No 297. (in Russian).

5. Standard on Automated Valuation Models (AVMs). International Association of Assessing Officers. 2018. https://www.iaao.org/media/standards/AVM_STANDARD_2018.pdf

6. Anatolyev S. (2009). Nonparametric regression // Quantile. No 7. Pp. 37 52. (in Russian).

7. Birke M. & Dette H. (2007). Estimating of convex functions in nonparametric regression // Scandinavian Journal of Statistics. No 34. Pp. 384 404.

8. Chen Y.C., Genovese C.R., Tibshirani R.J. and Wasserman L. (2016). Nonparametric Modal Regression // The Annals of Statistics, Vol. 44, No. 2. Pp. 489–514.

9. Cule M., Samworth R. and Stewart M. (2010). Maximum likelihood estimation of a multi-dimensional log-concave density // Journal of the Royal Statistical Society, Series B (with discussion). Vol. 72. Pp. 545 607.

10. Dumbgen, L. and Rufibach, K. (2009). Maximum likelihood estimation of a log-concave density and its distribution function: Basic properties and uniform consistency // Bernoulli, 15, No 1, pp. 40 68.

11. Dumbgen, L., Samworth, R. and Schuhmacher, D. (2011) Approximation by log-concave distributions with applications to regression // The Annals of Statistics. Vol. 29. Pp. 702 730.

12. Grenander U. (1956) On the theory of mortality measurement II. Skandinavisk Aktuarietidskrift, Vol. 39. Pp. 125 153.

13. Groeneboom, P., Jongbloed, G. and Wellner, J. A. (2001). Estimation of a convex function: Characterizations and asymptotic theory // The Annals of Statistics. Vol. 29. Pp. 1653 1698.

14. Hardle W. (1990). Applied nonparametric regression. Cambridge University Press. 333 p.

15. Hildreth C. (1954). Point estimates of ordinate of concave functions // Journal of American Statistics Association. No 49. Pp. 598-619.

16. Kendall M.G., Stuart A. (1973). The advanced theory of statistics. Vol.2. Inference and relationship. Charles Griffin & Co. London. 758 p.

17. Kleiner G.B., Smolyak S.A. (2000). Econometric dependencies: principles and methods of construction. M.: Nauka. 104 p. (in Russian).

18. Lee M-J. (1989). Mode regression. // Journal of Econometrics, Vol. 42(3). Pp. 337–349.

19. Racine J.S. (2008). Nonparametric econometrics: a primer // Quantile. No 4. Pp. 7 56.

20. Sager T.W. and Thisted R.A. (1982). Maximum likelihood estimation of isotonic modal regression. // The Annals of Statistics, Vol. 10(3). Pp. 690–707.

21. Smolyak S.A. (2017). On the problems of regression building. In the collection: X anniversary Volga scientific-practical conference "Mathematical methods and models in the Russian valuation. New ideas, approaches and methods. 10 years from theory to practice.” [Electronic version of the conference materials]. Volga Center for methodical and informational support of valuation. Nizhny Novgorod. http://inform-ocenka.ru/x_ñonference_materials/ (in Russian).

22. Seijo S. & Sen B. (2011). Nonparametric least squares estimation of a multivariate convex regression function // The Annals of Statistics. Vol.39. No 3. Pp. 1633 1657.

23. Yao W. and Li L. (2014). A New Regression Model: Modal Linear Regression // Scandinavian Journal of Statistics. Vol. 41(3). Pp. 656–671.