The function restoration method by integrals for analysis and forecasting of rare events in the economy
Table of contents
Share
Metrics
The function restoration method by integrals for analysis and forecasting of rare events in the economy
Annotation
PII
S042473880010485-2-1
DOI
10.31857/S042473880010485-2
Publication type
Article
Status
Published
Authors
Yuri Korablev 
Occupation: assistant professor
Affiliation: Financial University under the Government of the Russian Federation
Address: Moscow, Russia
Pages
113-124
Abstract

The article discusses a rare events analysis method, which is based on the study of the processes that generate these events. In the economy the most common process of event formation is the process of consumption or the disturbance accumulation, which can be modeled as a process of emptying or filling a capacity. The consumption process parameter will be the unsteady capacity emptying / filling rate function, which can be recovered from the available data. After restoring this function, you can analyze it, build a model and extrapolate it, then get a forecast of future events by starting again the process of event formation. I call this rare events research method the capacity method. To restore the emptying / filling rate function, an optimization problem has been solved, which is represented in the form of finding a special smoothing integrating cubic spline. Formulas are obtained in matrix form for the restoration (regression) of the desired function. Since the intervals between events can be different, it is necessary to proceed to basic splines (B-splines), which do not depend on the initial data. Formulas in matrix form for constructing the corresponding B-spline are obtained. Details are given of how to fill all the matrices. A mathematical method example of restoring a function from rare events and example of a future events forecast obtaining are given.

 

 

Keywords
rare events; sparse events; capacity method; consumption rate; recovery; regression; spline; B-spline; integrating spline; integro-differential spline; nonlinearity penalty.
Received
09.07.2020
Date of publication
04.09.2020
Number of characters
24571
Number of purchasers
5
Views
62
Readers community rating
0.0 (0 votes)
Cite Download pdf 100 RUB / 1.0 SU

To download PDF you should sign in

Full text is available to subscribers only
Subscribe right now
Only article
100 RUB / 1.0 SU
Whole issue
792 RUB / 15.0 SU
All issues for 2020
2534 RUB / 50.0 SU
1 1. Введение
2 Анализ и прогнозирование событий позволяет должным образом к ним подготовиться, что способствует уменьшению возможных потерь или увеличению прибыли. Для этого могут использоваться различные математические методы, среди которых выделяют методы работы с редкими событиями. Редкие события отличаются от частых, как правило, тем, что представляются в виде потоков дискретных событий, возникающих через случайные периоды времени, а не в виде числа событий за период времени (или временного ряда). Время между событиями может быть произвольным (дни, года, микросекунды, при этом события будут по-прежнему относиться к редким). Важным является способ представления данных.
3 Представление редких событий в виде временного ряда приведет к тому, что такой временной ряд будет содержать множество нулей. Тем не менее некоторые методы работают и с такими рядами. Иногда для этого адаптируются методы классификации. Например, метод «ближайших соседей» (Altman, 1992; Cover, Hart, 1967) ищет в наблюдениях подпоследовательности похожие на вектор предшествующих значений фиксированной длины, после чего возвращает прогноз как значение, следующее за наиболее похожей подпоследовательностью.
4 Если временной ряд состоит из нулей и единиц, то иногда применяют метод логистической регрессии (Walker, Duncan, 1967), когда по набору данных внешних признаков строится классификационная модель, которая показывает, что при заданных признаках должна появиться единица или ноль. Иногда используют нейронные сети (Барцев, Охонин, 1986; Rumelhart, Hinton, Williams, 1986), которые строят модель, но уже скрытым от исследователя способом. Метод Кростона (Croston, 1972; Johnston, Boylan, 1996) предполагает разделение исходного ряда данных на два — ряд из ненулевых значений и ряд длительности между ненулевыми значениями, — после чего проводится экспоненциальное сглаживание каждого ряда, а прогнозное значение получается как ожидаемое ненулевое значение через ожидаемое число нулевых значений.
5 В логистике, когда надо определить размер запаса, достаточного для удовлетворения спроса для заданного числа периодов, иногда используется метод бутстрэппинга (Виллемейна) (Efron, Tibshirani, 1993; Willemain, Park, Kim, Shin, 2001). Для этого из имеющихся наблюдений случайным образом извлекают число значений, соответствующих числу периодов, и суммируют их; эту процедуру многократно повторяют, а затем строят функцию распределения для этой суммы значений. Размер запаса устанавливается на уровне, который обеспечит удовлетворение спроса с заданной доверительной вероятностью. Иногда для этого применяют селективные методы (Иванько, 2005), которые переключают модели прогнозирования по значению ошибки прогноза на предыдущем шаге.
6 Перечисленные методы работают с временными рядами, содержащими большое число нулевых значений. Однако наиболее обоснованным является представление событий в виде потоков дискретных событий, которые появляются через произвольные периоды времени. Для работы с данными в виде потоков событий используется теория случайных процессов (Вентцель, Овчаров, 2000). Потоки событий представляются в виде пуассоновского потока, когда время между событиями подчиняется экспоненциальному распределению, или в более сложном варианте – потоком Пальма с ограниченным последействием (здесь время между событиями соответствует произвольному закону распределения). Иногда для моделирования сверхредких событий вводят модифицированные пуассоновские процессы (Дзанагова, Хугаева, 2015). На практике чаще всего применяют классические пуассоновские процессы, когда на основе статистических данных редких продаж определяют параметры потока событий, после чего рассчитывают размер собственных запасов, зная вероятности возникновения определенного числа событий за выбранный период времени (Лукинский, Замалетдинова, 2015; Вожжов А., Луняков, Вожжов С., 2015). С помощью пуассоновских потоков можно определить вероятность появления заданного числа событий на выбранном интервале времени, а с помощью потоков Пальма — ожидаемое оставшееся время до следующего события (однако потоки Пальма являются стационарными и подходят только для случаев с постоянной интенсивностью). Использование нестационарных непуассоновских потоков не встречается.
7 У каждого метода есть своя область применения, в которой он может дать хорошие результаты. Причем для одних и тех же задач иногда можно применять разные методы, но их эффективность будет разной. Также существуют условия, для которых методы еще не разработаны. Разработка новых методов, которые дадут новые возможности либо будут более эффективными — есть цель науки.
8 2. Основная идея
9 Почему процесс возникновения событий представляется случайным? Почему интервалы между событиями должны быть случайными числами? Неужели нет информации о том, как возникают эти события? Почему из статистических данных определяется закон распределения случайных интервалов времени, а не процесс, который порождает эти события? Используя знания о характере процесса, определяя из статистических данных его параметры и закономерности, а затем, экстраполируя параметры процесса на будущее время, можно получить более точный прогноз возникновения будущих событий (рис. 1). Информация о процессе формирования событий способна избавить нас от неопределенности при их появлении. События формируются уже не случайным образом, не через абсолютно случайные периоды времени, а по определенному механизму, параметры которого стали известны из статистических данных.
10 Рис. 1. Схема анализа и прогнозирования редких событий
11 Самыми распространенными причинами появления событий в экономике могут быть процессы потребления (запас ведет себя как опустошающаяся емкость) и процессы накопления некоторого возмущения до определенного уровня, вследствие чего возникает некоторое событие. В обоих вариантах источники событий1 можно моделировать как емкости. Предложенный метод анализа и прогнозирования редких событий получил название «емкостный метод» (Кораблев, 2015а, 2015б, 2018, 2019а, 2019б). Согласно этому методу параметром процесса образования событий является нестационарная функция скорости расхода запаса или накопления воздействия ft , подлежащая определению. Такой функцией может быть, например, спрос, зависящий от времени, индивидуальная скорость потребления продукции, интенсивность покупок у выбранного не подконтрольного нам оптового покупателя (ненаблюдаемые значения).
1. Под источниками события понимаются некоторые объекты или системы, в которых происходят какие-то процессы, приводящие к возникновению этих событий.
12 Оказывается, что из данных редких событий можно легко восстановить функцию ft . Для этого инвертируем процесс потребления продукции и получаем задачу, обратную к задаче управления запасами (алгоритм в минус первой степени), когда по имеющимся данным о моментах времени и величинах воздействия события (покупок) ti,yi определяется скорость воздействия ft . Для этого используем основное предположение.
13 Предположение. Величина совершенного события yi есть интеграл функции ft за время от момента возникновения этого события ti до момента совершения следующего события ti+1 .
14 Для процессов потребления или накопления возмущения это предположение справедливо, оно также негласно применяется в теории управления запасами при моделировании собственных запасов (Бауэрсокс, Клосс, 2008). Изменение предпочтений потребителей не нарушает этого предположения, а выражается в изменении функции ft. Конечно, для отдельных видов товаров или услуг это предположение может выполняться не всегда, а при определенном поведении потребителей оно может нарушаться. Но в данной работе мы будем считать, что предположение в большей степени выполняется, пусть и с погрешностью yi=titi+1ftdt+εi.
15 Используя это предположение, задача определения (регрессии) ft превращается в оптимизационную задачу восстановления неизвестной функции, для которой известна последовательность интегралов за непересекающиеся периоды времени, с дополнительным штрафом на нелинейность (С — параметр, влияющий на степень сглаживания, n — размер выборки):
16 i=1n-1yi-titi+1ftdt2+Ct1tnf''t2dtmin. (1)
17 Нам необходимо найти решение этой оптимизационной задачи и продемонстрировать работу метода для событий, которые образуются процессами, схожими с процессами опустошения емкости.
18 3. Построение интегрального сплайна
19 Наиболее подробно задачи восстановления функций по интегралам изучены в работах (Киреев, 1994; Киреев, Бирюкова, 1998, 2014; Бирюкова, Киреев, Гершкович, 2016). Исследования этих авторов посвящены сплайнам, построение которых зависит одновременно от интегралов и дифференциалов. Такие сплайны получили название интегро-дифференциальные сплайны, или ИД-сплайны. Однако в этих работах сплайн строится на основе системы уравнений, состоящей из условий согласования yi=titi+1f^tdt в виде точных равенств, что, по сути, является интерполяцией интегралов, а не их аппроксимацией. Кроме того, в них строятся параболические сплайны, а не кубические. В работе (Boor, 2001, р. 79) также рассматривается интерполяционный параболический сплайн, а не сглаживающий кубический. В работах (Федорова, 2008, 2016) строится одномерный и двумерный сплайны по известной площади под кривой закона распределения, однако в этой работе сплайн также является интерполяционным, а не аппроксимирующим. Готового решения нашей задачи мне найти не удалось, поэтому его пришлось разрабатывать самостоятельно.
20 Мой метод базируется на методе аппроксимации кубическими сплайнами обычных функций (не интегралов функции) со штрафом на нелинейность2, но модифицируется для работы с интегралами функции. Решение ищется в виде f^t=gt , где gt — кубический сплайн3, причем на каждом участке функция записывается не как полином с четырьмя неизвестными коэффициентами, а выражается только через две переменные — значение функции в точке gi= gti и ее вторую производную в этой точке γi=g''ti . Значение сплайна в произвольной точке определяется по формуле
2. В великолепно написанной работе (Green, Silverman, 1994) представлено необходимое объяснение всей теории.

3. Сочленение кусочков из полиномов третьей степени в точках ti с условием непрерывности как самой функции, так и ее производной в точках сочленения.
21 gt=t-tigi+1+ti+1-tgiti+1-ti-16t-titi+1-t1+t-titi+1-tiγi+1+1+ti+1-tti+1-tiγi,i:    titti+1. (2)
22 Набор всех значений g=g1,,gnT,     γ=γ2,,γn-1T (в начальной и последней точке γ1=γn=0 ) полностью задает весь сплайн. Условия непрерывности первой производной в точках сочленения g'ti+0=g'ti-0,      i=2,  ...,  n-1 дают систему из n-2 уравнений, которая может быть записана в матричном виде через матрицы коэффициентов Q,   R при неизвестных gi,  γi :
23 gi+1-giti+1-ti-gi-gi-1ti-ti-1=ti+1-tiγi+1+2γi+ti-ti-12γi+γi-1/6,     i=2,  ...,  n-1,QTg=Rγ, (3)
24 где матрица Q размерностью n×n-2 и R размерностью n-2×n-2 имеют вид:
25 Q=h1-1-h1-1-h2-1h2-10...0000h2-1-h2-1-h3-1h3-1...000........................0000...hn-2-1-hn-2-1-hn-1-1hn-1-1,R=h1+h2/3h2/600...00h2/6h2+h3/3h3/60...000h3/6h3+h4/3h4/6...00    .....................0000...hn-2/6hn-2+hn-1/3,
26 hi=ti+1-ti,      i=1,  ...,  n-1 .
27 Штраф на нелинейность abg''x2dx упрощается (Green, Silverman, 1994, р. 24–25):
28 abg''x2dx=γTQTg=γTRγ=gTQR-1QTg=gTKg. (4)
29 Для решения задачи (1), где f^t=gt , найдем интеграл titi+1gtdt , где gt определяется через искомые неизвестные gi,  γi по формуле (2). После преобразований получаем формулу:
30 titi+1gtdt=gi+1hi2+gihi2-γi+1hi324-γihi324. (5)
31 Тогда оптимизационная задача (1) для искомых g и γ может быть записана в виде
32 Sg=Y-Vg+PγTY-Vg+Pγ+αgTKgmin, (6)
33 где Y=y1,,yn-1T ; V — матрица размера n-1×n и P — матрица размера n-1×n-2 являются матрицами коэффициентов при неизвестных g  и γ :
34 V=12h1h10000h2h2000000hn-1hn-1, P=124h1300000h23h2300000h33h3300000000hn-23hn-23000000hn-13.
35 Далее, благодаря тому, что условия непрерывности по-прежнему дают систему уравнений QTg=Rγ , выражая γ=R-1QTg, перепишем формулу (6) так, чтобы в ней была только одна неизвестная:
36 Sg=Y-V-PR-1QTgTY-V-PR-1QTg+αgTKg=Y-CgTY-Cg+αgTKg, (7)
37 где C=V-PR-1QT матрица размера n-1×n . Для нахождения минимума выражения (7) раскроем скобки, перегруппируем слагаемые и приравняем производную по g к нулю (dxTb/dx=b, dbx/dx=bT, а если матрица симметрична (что у нас выполняется), то dxTAx/dx=A+ATx=2Ax) :
38 Sg=gTCTC+αKg-2YTCg+YTY,    S'g=2CTC+αKg-2YTCT=0,g=CTC+αK-1CTY. (8)
39 На этом сплайн полностью построен (значения g и γ=R-1QTg задают сплайн gt ).
40 Заметим, что исходные матрицы Q,    R,    V,    P (из которых также получаются K=QR-1QT и C=V-PR-1QT) зависят только от интервала между наблюдениями hi=ti+1-ti, но не зависят от значений в этих наблюдениях yi , а значения Y=y1,  ...,  yn-1T участвуют только в выражении (8).
41 Пример использования интегрального сплайна. Пусть нам известны данные ti,yi о датах и объемах поставок полуторалитровых бутылок кваса в универсам (табл. 1). По ним можно построить график (рис. 2), на котором ступенчатой линией показано среднее число проданных за день бутылок. Гладкая линия обозначает аппроксимирующий сплайн, который минимизирует разницу между интегралами функции и объемом поставки (площадь под ступенькой). Большое расхождение в ширине интервалов наблюдений (куски сплайнов имеют разную ширину) и неудачный выбор параметра α могут влиять на сглаживающие свойства сплайна (местами функция становится отрицательной, что противоречит физическому смыслу). Также при очень больших наборах данных, когда кусков сплайна, привязанных к точкам наблюдения, становится очень много, вычисления могут быть очень трудоемкими. Желательно, чтобы участки сплайна не были привязаны к точкам наблюдения.
42 Таблица 1. Данные о поставках бутылок кваса в универсам
43

Дата Поставки Дата Поставки Дата Поставки 02.02.2018 12 28.05.2018 60 12.11.2018 18 12.02.2018 12 18.06.2018 18 17.12.2018 42 26.02.2018 24 29.06.2018 60 27.12.2018 18 12.03.2018 12 16.07.2018 54 14.01.2019 12 26.03.2018 18 30.07.2018 24 11.02.2019 18 09.04.2018 36 06.08.2018 30 04.03.2019 18 23.04.2018 18 20.08.2018 30 11.03.2019 6 07.05.2018 60 03.09.2018 48 14.05.2018 60 29.10.2018 24 Рис. 2. Скорость расхода бутылок кваса универсамом, шт. в день

44 4. Переход к базисному сплайну
45 Чтобы куски сплайнов не были привязаны к точкам наблюдения, следует перейти к базисному сплайну (B-сплайну), состоящему из набора m базисных функций βkt , которые, как правило, тоже будут полиномами, но определенными в произвольных точках s1<<sm (чаще всего распределенными равномерно). Каждая функция βkt берется с некоторым коэффициентом δk , который является некоторым индикатором, принимающим значение 0 или 1 в зависимости от того, какая функция соответствует текущему моменту времени, gt=k=1mδkβkt.
46 Дополнительно добавим возможность задавать вес каждого наблюдения wi . Тогда оптимизационная задача примет вид
47 SWg=i=1n-1wiyi-titi+1k=1mδkβktdt2+αt1tnk=1mδkβkt''2dtmin. (9)
48 Для ее решения надо найти значения сплайна g=g1,,gmT и его вторых производных γ=γ2,,γm-1T , но уже в новых точках s1<s2<<sm .
49 Штраф на нелинейность по-прежнему будет выражаться как αgTKg , где K=QR-1QT , но при этом размерность матриц Q и R будет зависеть не от n , а от m , а элементы — от расстояния между новыми точками, где hk=sk+1-sk,      k=1,  ...,  m-1.
50 Рассчитаем интеграл titi+1k=1mδkβktdt . В зависимости от того, где появятся точки наблюдений (рис. 3) и как будут заданы новые точки сплайна, возможно несколько способов расчета.
51 абв Рис. 3. Расположение соседних наблюдений на разных участках сплайна: а) в одном интервале; б) в двух соседних интервалах; в) в L интервалах друг от друга
52 Для того чтобы получить универсальное выражение, подходящее для всех трех случаев, представим интеграл в виде
53 titi+1k=1mδkβktdt=l=0Lsk+lsk+l+1βk+ltdt-sktiβktdt-ti+1sk+L+1βk+Ltdt,L:    sk+L<ti+1sk+L+1. (10)
54 Первая часть выражения (10) есть интеграл от всех L участков сплайна; вторая — интеграл от начала первой базисной функции k до текущего наблюдения i ; третья — интеграл от наблюдения i+1 до конца последнего интервала k+L , на который попало следующее наблюдение. Значения k и L определяются в зависимости от того, куда попало текущее и следующее наблюдение.
55 Первая часть выражения находится из полученной ранее формулы, но границами интервала стали новые точки:
56 l=0Lsk+lsk+l+1βk+ltdt=l=0Lhk+l2gk+l+1+hk+l2gk+l-hk+l324γk+l+1-hk+l324γk+l. (11)
57 После некоторых преобразований вторую часть можно представить в компактной форме
58 sktiβktdt=hk-i22hkgk+1+hk2-hk+i22hkgk+γk+124hkhk-i2hk-i2-2hk2--γk24hkhk-i2hk+i+hk2 ,    hk-i=ti-sk,     hk+i=sk+1-ti,    hk=sk+1-sk; (12)
59 третья часть —
60 ti+1sk+L+1βk+Ltdt=gk+L+1hk+L2-hk+L-i+122hk+L+gk+Lhk+L+i+122hk+L-γk+L+1hk+L+i+12hk+L-i+1+hk+L224hk+L++γk+Lhk+L+i+12hk+L+i+12-2hk+L224hk+L,    hk+L-i+1=ti+1-sk+L,    hk+L+i+1=sk+L+1-ti+1. (13)
61 Подставляя выражения (11)–(13) в (10), можем найти titi+1k=1mδkβktdt . Как и раньше, форма этого выражения будет линейной по отношению к неизвестным g и γ . В результате оптимизационную задачу для нахождения искомого B-сплайна интегралов можно записать в знакомом виде SWg=Y-Vg+PγTWY-Vg+Pγ+αgTKgmin. Заполнение матриц V и P происходит на основе наблюдений о моментах времени возникновения текущего и следующего событий, в зависимости от того, на интервал какой базисной функции выпало это наблюдение.
62 Возможно, будет удобно воспользоваться следующим представлением: V=GI-GII-GIII, P=ΓI-ΓII-ΓIII, где матрицы GI,    GII,    GIII имеют размерность n-1×m , ΓI,    ΓII,    ΓIII — размерность n-1×m-2 (так как γ1=γm=0 не участвуют). Элементы этих матриц заполняются по формулам:
63 Gi,kI=0,5hk,      tkti<tk+1;    Gi,k+lI=0,5hk+l-1+hk+l,     l=1,  ...,  L:tkti,     tk+Lti+1<tk+L+1;
64 Gi,k+L+1I=hk+L/2,  L:tk+Lti+1<tk+L+1;
65 Gi,kII=hk/2-hk+i2/2hk,     tkti<tk+1;    Gi,k+1II=hk-i2/2hk,     tkti<tk+1;
66 Gi,k+LIII=hk+L+i+12/2hk+L,    tk+Lti+1<tk+L+1;    Gi,k+L+1III=hk+L/2-hk+L-i+12/2hk+L,     tk+Lti+1<tk+L+1;
67 Γi,kI=hk3/24,      tkti<tk+1;    Γi,k+lI=hk+l-13+hk+l3/24,      l=1,,L:tkti,      tk+Lti+1<tk+L+1;
68 Γi,k+L+1I=hk+L3/24,     L:tk+Lti+1<tk+L+1;
69 Γi,kII=hk-i2hk+i+hk2/24hk,    tkti<tk+1;    Γi,k+1II=-hk-i2hk-i2-2hk2/24hk,     tkti<tk+1;
70 Γi,k+LIII=-hk+L+i+12hk+L+i+12-2hk+L2/24hk+L,     tk+Lti+1<tk+L+1;
71 Γi,k+L+1III=hk+L+i+12hk+L-i+1+hk+L2/24hk+L,     tk+Lti+1<tk+L+1.
72 Обозначим C=V-PR-1QT, где матрица С будет иметь размерность n-1×m. Тогда оптимизационная задача примет знакомый вид SWg=Y-CgTWY-Cg+αgTKgmin, решение которой дает искомые значения g=CTWC+αK-1CTWY , γ=R-1QTg , определяющие сплайн gt в любой точке по формуле (2).
73 На рис. 4 для примера с поставками кваса в универсам показана построенная функция, которая в значительной степени лишена недостатка способа без использования базисных функций (когда узлами сплайна являлись точки наблюдений). Так как разница в сумме квадратов считается между значениями интегралов, которые значительно превосходят значение самой функции, квадрат второй производной у которой достаточно мал; параметр α, отвечающий за сглаживание, должен быть взят достаточно большим, например α=105 .
74

Рис. 4. Скорость расхода бутылок кваса универсамом, шт. в день !Верстка! вместо дефиса точку

75 5. Результаты и обсуждения
76 Представленный математический аппарат позволяет восстанавливать функцию по последовательности ее интегралов, причем в условиях, когда эти интегралы наблюдаются с погрешностью. По данным редких событий, таких как дискретные продажи и поставки, которые образуются в результате процесса потребления, схожего с опустошением емкости, можно определить, с какой скоростью заканчивался запас продукта у клиентов (в этом примере клиентом был сам универсам). В свою очередь, если со стороны универсама применить описанный метод, можно определить, с какой интенсивность расходуется квас у каждого конечного потребителя.
77 Определить точность восстановления функции на реальных данных не получится, так как неизвестна исходная функция, т.е. не с чем сравнивать. Мы можем самостоятельно заложить исходную функцию (спрос), моделируя процесс потребления (модели управления запасами) и получая данные покупок (табл. 2). Восстановление исходной функции происходит с очень хорошей точностью (рис. 5). Далее можно переходить к следующему этапу: определять закономерность и проводить экстраполяцию любыми известными методами.
78 Таблица 2. Данные моделирования системы управления запасами
79
ti yi ti yi ti yi ti yi ti yi
01.01.2018 1444,92 02.06.2018 1431,26 27.09.2018 1423,71 29.03.2019 1409,63 26.07.2019 1423,52
07.02.2018 1419,99 28.06.2018 1447,22 01.11.2018 1405,42 22.04.2019 1421,73 16.08.2019 1463,59
22.03.2018 1405,61 23.07.2018 1460,58 08.12.2018 1427,89 14.05.2019 1425,66 06.09.2019 1419,05
18.04.2018 1420,30 13.08.2018 1418,59 09.01.2019 1418,25 07.06.2019 1423,06 03.10.2019 1415,66
10.05.2018 1415,2 03.09.2018 1467,09 21.02.2019 1421,34 03.07.2019 1435,58 11.11.2019 1427,14
80 Рис. 5. Пример анализа и прогнозирования редких событий
81 На этапе поиска закономерности ответственность за результат экстраполяции полностью ложится на плечи исследователя, который, как предполагается, является специалистом в соответствующей прикладной области. На этом шаге можно использовать экспертное мнение и информацию из внешних источников, например пробовать искать зависимость от таких внешних признаков, как ВВП, уровень безработицы, курс рубля и др. В последнем примере внешней информацией является знание того, что исходная функция являлась гармонической, с помощью алгоритма Куинна–Фернандеса (Quinn–Fernandes algorithm) (Quinn, Fernandes, 1991; Quinn, Hannan, 2001) происходит определение соответствующей закономерности как разложение на фиксированное количество гармонических функций.
82 Стоит заметить, что наибольшая погрешность восстановления наблюдается на концах интервала, так как в этих точках сплайн не знает, куда стремиться, поэтому можно улучшить качество модели, если отбросить часть значений с обоих концов восстановленной функции. На рис. 5 линия «Экстраполяция» построена по модели, оцененной по всей выборке, а «Экстраполяция 2» — по выборке после отбрасывания 20 точек с каждого конца. После экстраполяции функции скорости расхода запаса определяем моменты будущих событий, моделируя процесс потребления как в системах управления запасами (величина заказа определяется из данных редких событий) (табл. 3).
83 Таблица 3. Сравнение моментов времени прогнозных и фактических событий
84
Прогноз 15.12.2019 18.01.2020 02.03.2020 01.04.2020 24.04.2020 16.05.2020
Факт 15.12.2019 18.01.2020 03.03.2020 02.04.2020 25.04.2020 18.05.2020
Прогноз 09.06.2020 05.07.2020 28.07.2020 18.08.2020 10.09.2020 11.10.2020
Факт 12.06.2020 07.07.2020 29.07.2020 18.08.2020 10.09.2020 12.10.2020
85 Полученные прогнозные значения моментов времени возникновения будущих событий очень близки к моментам фактических событий (если продолжать моделирование). Ни один другой метод анализа редких событий не в состоянии дать прогноз с такой точностью. Однако из-за того что восстановление функции было неидеальным и параметры модели (частота, амплитуда и фаза колебаний) определялись с погрешностью, расхождение может со временем нарастать, и прогнозирование на очень далекую перспективу будет неточным. Стоить отметить, что способ восстановления функции, приводящей к событиям, может иметь большое значение для науки в соответствующей прикладной области.

References

1. Altman N.S. (1992). An introduction to kernel and nearest-neighbor nonparametric regression. The American Statistician, 46 (3), 175–185. DOI:10.1080/00031305.1992.10475879

2. Bartsev S.I., Okhonin V.A. (1986). Adaptive information processing networks. Krasnoyarsk: Institute of Physics, Siberian Branch of the Academy of Sciences of the USSR. Preprint No. 59B (in Russian).

3. Biryukova T.K., Kireev V.I., Gershkovich M.M. (2016). Methods of numerical differentiation and recovery of grid functions by integrals, based on integro-differential splines. Computer mathematics systems and their applications. Materials of the XVII International scientific conference. Issue 17. Smolensk: Izdatel'stvo SmolGU, 106–112 (in Russian).

4. Boor C. de (2001). A Practical Guide to Splines. Revised Edition. New-York: Springer.

5. Bowersox D.J., Closs D.J. (2008). Logistical management: The integrated supply chain process. 2th ed. Translated from the English N.N. Baryshnikova, B.S. Pinsker. Moscow: Olimp-Biznes. Originally published by McGraw-Hill Higher Education, 1996 (in Russian).

6. Cover T., Hart P. (1967). Nearest neighbor pattern classification. IEEE Transactions on Information Theory, 13 (1), 21–27.

7. Croston J.D. (1972). Forecasting and stock control for intermittent demands. Operational Research Quarterly (1970–1977), 23 (3), 289–303.

8. Dzanagova I.T., Khugaeva L.T. (2015). Method of operator series for constructing extremal models of rare events. Fundamental Research, 11 (6), 1081–1084 (in Russian).

9. Efron B., Tibshirani R.J. (1993). An introduction of the bootstrap. New York: Chapman & Hall.

10. Fedorova O.P. (2008). One variant of spline approximating a function. Tomsk State University Journal of Mathematics and Mechanics, 2 (3), 61–66 (in Russian).

11. Fedorova O.P. (2016). Method of creation of a spline with the integral equal to integral of function of two variables on area of its definition. Science Almanac, 1–3 (15), 31–35 (in Russian).

12. Green P.J., Silverman B.W. (1994). Nonparametric regression and generalized linear models. A roughness penalty approach. New York: Chapman & Hall.

13. Ivanko R.S. (2005). Short-term forecasting of non-stationary demand for wholesale. Abstract of thesis for Cand. Sc. (Economics). Moscow (in Russian).

14. Johnston F.R., Boylan J.E. (1996). Forecasting intermittent demand: A comparative evaluation of Croston's method. Comment. International journal of forecasting, 12 (2), 297–298.

15. Kireev V.I, Biryukova T.K. (1998). Polynomial integro-differential one-dimensional and two-dimensional splines. Computational Technologies, 3, 3, 19–34 (in Russian).

16. Kireev V.I, Biryukova T.K. (2014). Integro-differential information processing method and its application in numerical analysis. Moscow: IPI RAS (in Russian).

17. Kireev V.I. (1994). Integral method of approximation of functions by algebraic polynomials and biquadratic splines. Vestnik Moskovskogo aviatsionnogo institute, 1, 1, 48–58 (in Russian).

18. Korablev Yu.A. (2015a). Capacity method determination consumption rate function. Economics and Management Systems, 15 (1.1), 140–150 (in Russian).

19. Korablev Yu.A. (2015b). Argumentation of capacity method demand determination. Statistics and Economics, 5, 96–101 (in Russian).

20. Korablev Yu.A. (2017a). Capacity method for analyzing rare sales in Excel. Ekonomika i Upravlenie: Problemy, Resheniya, 6, 3 (66), 224–230 (in Russian).

21. Korablev Yu.A. (2017b). The causes analysis and error estimation of the anomalous pictures in the capacity method for the analysis of rare events. Ekonomika i Upravlenie: Problemy, Resheniya, 8 (6), 8–12 (in Russian).

22. Korablev Yu.A. (2018). The study of the capacitive method accuracy from the position in the chain of distributors. Ekonomika i Upravlenie: Problemy, Resheniya, 7 (5), 106–121 (in Russian).

23. Korablev Yu.A. (2019b). Capacity method of analyzing rare events in the trade of various goods. Business. Education. Law. Bulletin of Volgograd Business Institute, 3, 121–131. DOI: 10.25683/VOLBI.2019.48.313 (in Russian).

24. Korablev Yu.A. (2019a). Error of the capacity method of rare events analysis, remoteness from the end user. The News of KBSC of RAS, 3 (89), 48–77. DOI: 10.35330/1991-6639-2019-3-89-48-77 (in Russian).

25. Lukinsky V., Zamaletdinova D. (2015a). Methods of inventory management: The calculation of inventory indicators for product groups related to rare events (Part I). Logistics, 1 (98), 28–33 (in Russian).

26. Lukinsky V., Zamaletdinova D. (2015b). Methods of inventory management: the calculation of inventory indicators for product groups related to rare events (Part II). Logistics, 2 (99), 24–27 (in Russian).

27. Quinn B.G., Fernandes J.M. (1991). A fast efficient technique for the estimation of frequency. Biometrika, 78, 3 (Sep.), 489–497.

28. Quinn B.G., Hannan E.J. (2001). The estimation and tracking of frequency. Cambridge: Cambridge University Press.

29. Rumelhart D.E., Hinton G.E., Williams R.J. (1986). Learning internal representations by error propagation. In: Parallel distributed processing. 1, 318—362. Cambridge: MIT Press.

30. Vozhzhov A.P., Lunyakov Î.V., Vozhzhov S.P. (2015). Safety stock determination with application of the Poisson processes to incoming and outgoing flows. In: Economics and management: Theory and practice, 1 (1), 30–35 (in Russian).

31. Walker S.H., Duncan D.B. (1967). Estimation of the probability of an event as a function of several independent variables. Biometrika, 54 (1/2), 167–178. DOI: 10.2307/2333860. JSTOR 2333860

32. Wentzel E.S., Ovcharov L.A. (2000). The theory of random processes and its engineering applications. Training manual for technical colleges. 2nd ed. Moscow: Vysshaja Shkola (in Russian).

33. Willemain T.R., Park D.S., Kim Y.B., Shin K.I. (2001). Simulation output analysis using the threshold bootstrap. European journal of operational research, 134 (1), 17–28.