УДК 519.25
МНОГОМОДЕЛЬНЫЙ ПОДХОД К МАССОВОЙ ОЦЕНКЕ МНОГООДРАМЕТРИЧЕСКНХ ОБЪЕКТОВ
Е.К. Корноушенко
На примере массовой (регрессионной) оценки объектов недвижимости описывается новый подход к массовой оценке многопараметрических объектов. В отличие от традиционного подхода с использованием одной модели для оценки массива рассматриваемых объектов в новом подходе предлагается использовать несколько моделей. Оцениваемые объекты при этом классифицируются, и объекты каждого класса оцениваются соответствующей моделью, что существенно повышает правдоподобность получаемых оценок. Изложение иллюстрируется практическим примером.
Ключевые слова: массовая оценка, регрессионная модель, непрерывная, категориальная переменная, алгоритм классификации, дисперсионный анализ, линейный дискриминантный анализ Фишера.
ВВЕДЕНИЕ
Настоящая работа является, по существу, продолжением работы [1], в которой сформулирована задача массовой оценки с учетом наличия в рыночной информации о стоимости объектов ненаблюдаемой составляющей. Наличие такой составляющей приводит к тому, что при построении по рыночной информации модели, используемой для массовой оценки, приходится жестко фильтровать (отбраковывать) объекты с рыночной ценой для обеспечения требуемого качества оценки строящейся модели. С целью уменьшения числа отбракованных объектов и более полного использования рыночной информации о стоимости объектов в работе [1] описана специальная итерационная процедура построения моделей оценки и предложено для улучшения качества массовой оценки использовать не одну, а две модели оценки. Оцениваемые объекты вначале классифицировались на два класса с помощью предложенного алгоритма классификации [1], а затем оценивались с помощью модели того класса, к которому принадлежит оцениваемый объект.
В настоящей работе процедура построения моделей оценки, изложенной в работе [1], расширена на случай более двух моделей. Увеличение числа моделей оценки способствует лучшему учету исходной рыночной информации об объектах на оцениваемой некоторой территории и позволяет получить более правдоподобную картину распре-
деления стоимости объектов на этой территории. Переход к большему числу моделей потребовал модификации алгоритма классификации на случай, когда классов больше двух. Проведенная модификация интересна тем, что на выходе алгоритма информация о каждом из классов взвешивается с помощью линейной регрессионной модели, а в роли классифицирующего правила выступает процедура округления значений непрерывного выхода регрессионной модели до целочисленных значений (номеров классов). Изложение иллюстрируется практическим примером массовой оценки удельной стоимости квартир в многоэтажных домах в разных районах г. Сочи. Проведенное в данном примере сравнение классифицирующей способности модифицированного алгоритма и соответствующей логистической модели показало существенное превосходство алгоритма. Особо подчеркивается наличие этапа верификации оценки объектов большого массива, не содержащих информации об их рыночной стоимости. Классификация таких объектов и верификация их оценки отличают предлагаемый подход от известных подходов к массовой оценке.
1. ИТЕРАЦОННАЯ ПРОЦЕДУРА ПОСТРОЕНИЯ МОДЕЛЕЙ ДЛЯ МАССОВОЙ ОЦЕНКИ
Исходной информацией для построения моделей оценки служит рыночная выборка (РВ), полученная после обработки первоначальной выборки
с рыночной информацией (удаления выбросов в значениях факторов и/или стоимости объектов, доопределения недостающих значений и др.). Путем анализа парных коэффициентов корреляции каждого из факторов объектов из РВ с их стоимостью выделяется совокупность, скажем, из т факторов стоимости, одна и та же для всех строящихся далее моделей оценки. Как и в работе [1], критерием качества оценки отдельного объекта принята относительная погрешность оценки (ОПО), обозначаемая как 8 и определяемая для 1-го объ-
У _ У
екта по формуле 8. = 1 1 11
У
где У — рыночная
стоимость, а У — модельная стоимость 1-го объекта. При этом задается максимальное допустимое значение 8тах ОПО для оцениваемых объектов. По исходной РВ строится начальная модель М0нач, которая разбивает РВ на два класса: класс Со «пригодных» объектов, ОПО которых моделью М0нач не
превышает заданного значения 8тах, и класс Со1 «забракованных» объектов. На множестве Со строится модель М1 с помощью которой снова оцениваются
все объекты РВ. При этом ОПО объектов из С°, оцениваемых моделью М1, может быть как меньше 8„„„, так и больше 8„„„. Объекты с ОПО, большей
тах тах
8тах, переносятся из С° в Сд1, а объекты из Сд1 с ОПО, меньшей 8тах, переносятся из Со1 в С°. В итоге модель М1 разбивает РВ на два класса: класс С10 «пригодных» для модели М1 объектов с ОПО < 8тах,
и класс С/ «забракованных» моделью М1 объектов с ОПО, большей 8тах. Так заканчивается первый шаг итерационного процесса построения моделей, представленного в табл. 1.
В каждой итерации верхний нулевой индекс у множеств обозначает «пригодные» объекты (относительно модели, построенной на данной итерации), а единичный индекс — «забракованные». Данный итерационный процесс можно представить как функционирование конечного автомата, состояние которого на каждом такте итерации определяется парой множеств «пригодных» и «забракованных» объектов, а функция переходов зависит от построенной текущей модели. В силу конечности РВ множество состояний такого автомата конечно, т. е. в процессе функционирования автомат должен «зациклиться», вернуться в некоторое ранее пройденное состояние. Но тогда и мо-
Таблица 1
Псевдокод итерационного процесса построения по РВ моделей стребуемым качеством оценки
Задание начальных условий: РВ, т, 8П
Построение модели М0нач на РВ: классы С0 и С1
^о „1 1-я итерация: классы С; _ 1, С;_ 1
Построение модели М на С 1
Удаление из С°_ 1 объектов 0° , для которых 8 > 8П
Добавление в С°_ 1 объектов О1 е С1, для которых
8 < 8„„„
Формирование классов С0 = 01 и С0-1 \ О° , С1 = О° и С}_ 1 \ 01
Проверка условия С\ = С1 (или С°к = С°) для некоторого к > I
При выполнении — стоп
Искомая модель есть модель Мк. При этом класс
К0= С0 _ 1, а класс К1 = С1к _ 1 — результирующее множество «забракованных» объектов
При выполнении условия К1/т > 3 запускается аналогичный итерационный процесс для множества К1 и т. д.
дель, построенная в этом состоянии, будет, очевидно, совпадать с моделью, ранее построенной в этом ранее пройденном состоянии, т. е. траектория автомата начнет повторяться (заметим, что в приводимом далее примере автомат впервые приходит в устойчивое состояние на 10-й итерации). В итоге все объекты исходной РВ разбиваются на два класса: класс К0 объектов, на которых построена результирующая модель М0рез, удовлетворяющая заданным требованиям по качеству оценки, и класс К1 «забракованных» объектов.
В принципе, для достаточно мощного1 класса К1 можно построить модель М1нач, разбивающую его
1 Поскольку, как сказано в работе [1], в силу несостоятельности коэффициентов модели мы не можем пользоваться понятием репрезентативности выборки, под «достаточной мощностью» класса К1 будем (для конкретности) понимать выполнение условия (|К1|:т) > 3 (см. табл. 1). Оно выполняется, в частности, в приводимом далее примере.
на множество К11 объектов, ОПО которых моделью М1нач не превышает 5шах, и множество К12 «забракованных» объектов и запустить аналогичный итерационный процесс. Результатом этого процесса будет результирующая модель М1рез с требуемым качеством оценки и класс К2 объектов, «забракованных» этой моделью. Далее аналогичным образом рассматриваем класс К2 и т. д. Здесь полезно посмотреть начало приводимого далее примера (см. § 5).
Ключевую роль в предлагаемом многомодельном подходе к массовой оценке играет процедура классификации оцениваемых объектов. Чтобы описанный в работе [1] эвристический алгоритм классификации был работоспособен для большего числа классов, в него внесены существенные изменения, рассматриваемые далее. Теоретическое обоснование работы алгоритма требует отдельного рассмотрения.
2. МОДИФИФИКАЦИЯ АЛГОРИТМА КЛАССИФИКАЦИИ ДЛЯ СЛУЧАЯ БОЛЕЕ ДВУХ КЛАССОВ
Далее кратко описываются основные этапы модифицированного эвристического алгоритма классификации и определяются его основные характеристики. Для определения и настройки количественных показателей, характеризующих качество алгоритма, вначале рассматривается процедура классификации объектов РВ (т. е. объектов с известной принадлежностью к тому или иному классу), а затем — применение настроенного алгоритма к оцениваемым объектам. Некоторые этапы — те же, что и в алгоритме из работы [1], а некоторые — либо дополнены, либо полностью изменены. Напомним ключевое используемое понятие й-близости. Значение а1 некоторого количественного фактора а называется й-близким (й > 0) к значению а2, если справедливо \а2 — а 11 < йа2. Отношение й-близости в общем случае несимметрично. При ограниченной длине выборки РВ число й-близких к а2 значений фактора а пропорционально значению кумулятивной вероятностной функции для а2 в точке, удаленной от а2 на расстояние й. Далее приводятся основные этапы предлагаемого алгоритма классификации.
А. Использование понятия ^-близости при рассмотрении значений факторов стоимости объектов РВ. Каждый из объектов РВ выбирается независимо, и с его описанием сравниваются описания остальных объектов РВ. Обозначим через ВО очередной выбираемый объект. Описание ВО в разрезе значений факторов стоимости сравнивает-
ся с описанием каждого из объектов РВ. При этом последовательно проходят этапы:
1) для значения ху фактора X, 1 < I < т, из опи-
у I
сания ВО находится совокупность ^ (ху, й) объектов из РВ с й-близкими к хУ значениям фактора X; показатель й-близости выбирается, начиная с малым значением А, с шагом А (й (к) = кА) и возрастает до тех пор, пока число объектов РВ в совокупности ^ (ху, й) не превзойдет задаваемого
У
2
числа О, достигнутое значение й фиксируется и обозначается как йу = гуА, где гу отлично от нуля
У У У
при выполнения условия тт|£(ху, й)| > О.
у
2) По совокупности ^ (ху, йу) определяются по-
у у
казатели: ку(ху, йу), V = 1, ..., N где ку(ху, йу) — число йу.-близких к ху значений фактора X, входящих
У
3
в описания объектов из класса Ку, а N — число классов;
3) эти показатели нормируются на соответствующие количества объектов |К,| в каждом из классов КГ, в результате получаем величины р(ху, йу), пропорциональные частотам вхождения значений фактора X, й у--близких к значению ху, в классы К;
II] у V
4) используем эвристическое соображение: «чем ближе между собой значения факторов стоимости, принадлежащие разным объектам, тем чаще такие объекты принадлежат одному и тому же классу». Поэтому взвешиваем каждую величину Pv(xiу, йу) с весом 1/1об(бу)
Б. Построение информационной матрицы. Для
каждого фактора X, I = 1, ..., т, найденные N показателей видар^ху, йу)/1о§(§ у,), V = 1, ..., N образуют 1-й столбец информационной матрицы (ИМ). Таким образом, каждый ВО из РВ характеризуется своей ИМ, строки которой соответствуют классам К,, а столбцы — т факторам стоимости, используемым в моделях, построенных в § 1.
В. Построение классифицирующей матрицы. Найдем суммы элементов по каждой из строк ИМ, соответствующий ^вектор указывает на «шансы» принадлежности данного объекта к тому или иному классу. Сформируем классифицирующую мат-
Выбор значения О особых трудностей не представляет и требует нескольких прогонов алгоритма с разными значениями О, при которых точность классификации объектов из РВ (как функция от О) имеет экстремум (или «плато» экстремальных точек). Искомое значение О выбирается как одна из таких экстремальных точек.
3 Поскольку в алгоритме классификации каждая строка информационной матрицы (см. далее) однозначно соответствует номеру класса, исходный класс К0 «пригодных» объектов будет далее (для конкретности) обозначаться как К2.
рицу (КМ), строки которой соответствуют объектам РВ, причем каждая строка в КМ является ^вектором, полученным по соответствующей данному объекту ИМ, так что КМ имеет размер (п где п — длина РВ. Сопоставим КМ линейную регрессионную модель МКМ, в которой каждый столбец КМ рассматривается как соответствующий предиктор для модели МКМ. В качестве зависимой переменной в модели МКМ возьмем ^вектор, координаты которого суть номера классов, полученных в § 1 на РВ в результате применения итерационной процедуры построения моделей. Прежде чем анализировать модель МКМ, рассмотрим, как анализировались подобные модели в известных публикациях.
Традиционный описанный в литературе подход к анализу моделей с категориальным выходом состоит в следующем. Поскольку в таких моделях истинное (непрерывное) значение зависимой переменной не наблюдаемо в пределах каждой категории, ненаблюдаемой переменной сопоставляется то или иное вероятностное распределение, характеризующее вероятность попадания этой переменной в ту или иную категорию, что обусловливает соответствующее наблюдаемое значение у - модели. Наиболее часто в литературе используются кумулятивные вероятностные распределения, удовлетворяющие условию [2] Pr [у < v|Х] = F(bv — ХТв), V = 1, ..., N — 1, где ^ и в — неизвестные параметры модели, а F — некоторая монотонно возрастающая функция, отображающая действительную прямую в единичный интервал. В классе таких функций наибольшее распространение получили стандартные нормальные распределения и логистические распределения — соответствующие модели называются ординальными (упорядоченными) пробит- и логит-моделями. Появились также многочисленные вариации этих моделей (см., например, работу [3]).
В принципе, можно пойти по традиционному пути и в роли классификатора использовать какую-нибудь соответствующую, скажем, логистическую модель — либо вообще вместо алгоритма классификации, либо только для КМ. Весь вопрос — в точности классификации (определение см. далее).
Далее описывается альтернативный подход к анализу качества модели МКМ как классификатора для КМ, который (как показано в § 5) может обеспечить большую точность классификации по сравнению с соответствующей логистической моделью.
3.АЛЬТЕРНАТИВНЫЙ подход к использованию РЕГРЕССИОННОЙ модели Мкм
Дополним КМ столбцом из единиц и будем рассматривать расширенную КМ (обозначаемую как МРВ) как исходный массив для построения линейной регрессионной модели МКМ (со свободным членом). Наблюдаемой зависимой переменной Zмодели МКМ является номер класса (категории), определенный на объектах РВ. Напомним, что каждый столбец в КМ, рассматриваемый как предиктор модели МКМ, есть n-вектор с непрерывными действительными координатами. В предположении, что номера классов суть действительные числа из R, с помощью обыкновенного метода наименьших квадратов найдем вектор коэффициен-T _1 т
тов ez = (MPB МРВ) MPB Z этой модели. Обозначим через ZHenp = МРВPZ совокупность вычисленных значений, несущих скрытую информацию о значениях зависимой переменной Z модели МКМ и принадлежащих некоторому интервалу [0, RKM] с R, содержащему числа 1, ..., N. Как и в традиционном подходе, в силу категориальности переменной Z значения коэффициентов pz, а, следовательно, и функции ZHenp содержат неизвестные ошибки.
Далее нам потребуется важное свойство регрессионной модели, называемое в литературе инвариантностью к перестановкам (exchangeability [4]). Применительно к модели МКМ оно означает выполнение условий:
Z(p(i)) = p(Z(i)),
ZHenp(p(i)) = p(ZHenp(i)),
где i — номер объекта в РВ, а р — произвольная перестановка на множестве объектов РВ.
В нашем случае задача состоит в том, чтобы значения функции ZHenp(i) округлить до целых чисел 1, 2, ..., N некоторым способом, обеспечивающим наибольшее совпадение функции ZHenp (с округленными значениями) с функцией Z. Алгоритм требуемого округления значений функции ZHenp(i):
1) значения ZHenp(i) упорядочиваются по возрастанию;
2) для каждого интервала4 [v, v + 1], v = 1, ..., N — 1, находится полная совокупность K объектов
В силу инвариантности по перестановкам каждый из интервалов [V, V + 1] может рассматриваться независимо от остальных интервалов.
I таких, что 2непр(р(/)) е [V, V + 1] (где р — перестановка объектов из РВ, связанная с п. 1);
3) в каждом интервале [V, V + 1], V = 1, ..., N — 1, определяется значение bv функции ^непр(р(/)) такое, что:
а) все значения функции 2непр(р(/)), меньшие или равные (большие) Ь , округляются до V (до V + 1);
б) число совпадений округленных таким образом значений функции ^Гнепр (р(г)) с соответствующими значениями функции Z(р(i)) — наибольшее для выбираемого значения Ь ^
4) сумма таких наибольших совпадений по всем интервалам [V, V + 1], V = 1, ..., N — 1, характеризует «интегральное» качество алгоритма классификации.
Основным параметром алгоритма классификации является точность классификации, определяемая путем «прогонки» объектов с известной принадлежностью к классам (в данном случае — объектов РВ) через алгоритм классификации и сравнения полученного распределения классов на классифицированных объектах с исходным распределением. Точность классификации определяется как число правильно классифицированных объектов к их общему числу. Однако точность классификации служит лишь одним из качеств алгоритма классификации. При наличии более двух классов с сильно различающейся мощностью основную «нагрузку» при классификации может брать на себя класс с наибольшей мощностью, и высокий процент классификации может не означать хорошей классификации в классах с небольшой мощностью. Подобные ситуации целесообразно учитывать с использованием так называемого коэффициента Криппендорфа (см., например, работу [5], в которой рассмотрены процедуры вычисления коэффициента Криппендорфа для сравниваемых множеств различной природы: множеств бинарных элементов, номинальных и порядковых элементов, множеств с введенной метрикой и т. д.). В нашем случае используется процедура сравнения двух множеств с номинальными элементами (номерами классов). Подробности см. в § 5.
4. КЛАССИФИКАЦИЯ ОЦЕНИВАЕМЫХ ОБЪЕКТОВ И ИХ ОЦЕНКА СООТВЕТСТВУЮЩИМИ МОДЕЛЯМИ
Результатом анализа алгоритма классификации служат найденные численные значения некоторых параметров, используемые при классификации оцениваемых объектов:
— вектор в г коэффициентов модели МКМ;
— разделяющие значения типа bv внутри каждого из интервалов [V, V + 1], V = 1, ..., N — 1.
Обозначим через МОО массив объектов, требующих оценки. Процедура оценки этих объектов и верификация результатов оценки состоит из следующих этапов (напомним, что факторы стоимости у объектов из МОО те же, что и у построенных на РВ моделей).
A. «Прогон» каждого оцениваемого объекта из МОО через алгоритм классификации с целью построения для него соответствующей ИМ, далее — построение для массива МОО классифицирующей матрицы КМОО и по КМОО — матрицы типа матрицы МРВ с тем же числом (т + 1) столбцов, что и у матрицы МРВ.
B. С использованием найденного ранее вектора коэффициентов нахождение непрерывной функции (/'), у е МОО.
C. Учитывая найденные ранее разделяющие значения типа bv внутри каждого из интервалов [V, V + 1], V = 1, ..., N — 1, округление непрерывных значений функции (/'), у е МОО до целочисленных
значений и отнесение объекта у к классу ^°°р (у).
D. Оценка объекта у с помощью модели, соот-
Д оо
ветствующей классу хнепр (у). В результате этой процедуры каждый объект из МОО будет отнесен к
какому-либо из N классов. Обозначим через К°° множество объектов из МОО, отнесенных к классу с номером V.
E. Верификация полученных классов на массиве МОО производится в рамках дисперсионного анализа и линейного дискриминантного анализа Фишера (см., например, работу [6]). В роли дис-криминантной функции для данного класса используется правая часть уравнения модели для этого класса. Требуемая верификация осуществляется следующим образом:
оо
— для каждого класса К , V = 1, ..., N вычисляются стоимости всех объектов из К°° с помощью модели М , соответствующей классу К на РВ;
оо
— вычисляются средние значения т стои-
оо
мостей и дисперсии av стоимостей для каждого оо
К , аналогично вычисляются средние значения тл) стоимостей и дисперсии av стоимостей для каждого класса К, из РВ;
— в рамках дисперсионного анализа сравнива-
/ 00ч , 00 ч ются соответствующие пары (mv, mv ) и (ст^ ст^, )
и определяется (не)значимость различия элементов в каждой паре5 (т. е. (не)значимость соответствия ^ ^ Kv00, V = 1, ..., Щ.
Практическое применение данной процедуры описано в следующем параграфе.
ПРИМЕР: МАССОВАЯ ОЦЕНКА УДЕЛЬНЫХ СТОИМОСТЕЙ КВАРТИР В РАЗНЫХ РАЙОНАХ г. СОЧИ
Исходные данные. Исходная выборка с рыночной информацией (РВ) содержала 101 объект (квартиры в многоквартирных домах). В качестве факторов стоимости моделей оценки были выбраны: 1 — площадь объекта; 2 — район местоположения объекта; 3 — расстояние до делового центра; 4 —расстояние до ж/д станции; 5 — расстояние до положительного центра притяжения; 6 — расстояние до берега моря. В качестве зависимой переменной рассматривалась стоимость 1 кв. м квартиры. Критерием качества оценки выбрана относительная погрешность оценки (ОПО), Начальное максимальное допустимое значение ОПО равнялось 15 %. На исходной РВ была построена линейная модель оценки, которая разделила все объекты РВ на два класса: класс С0 «пригодных» объектов (с ОПО < 15 %), содержащий 37 объектов, и класс С1 «забракованных» объектов (с ОПО > 15 %), содержащий 64 объекта.
Итерационная процедура построения моделей оценки. Классы С0 и С1 рассматривались как исходное состояние итерационного процесса построения моделей, представленного в табл. 1. Число элементов в классе «пригодных» объектов на каждом шаге итерации показано на рис. 1. Видим, что мощность класса «пригодных» объектов возросла с 37 до 51 объекта, после чего по «пригодным» объектам процедура зациклилась на десятой итерации, так что результирующий класс ^ «пригодных» объектов содержит 51 объект. Качество оценки исходной модели M0 на объектах класса ^ и результирующей модели M100 на «пригодных» объектах из ^ = ^ показано соответственно в первой и второй строках табл. 2. С этого момента начинается аналогичная процедура поиска модели
Рис. 1. Мощность класса «пригодных» объектов (с нулевыми верхними индексами)на каждом шаге итерации: ось абсцисс — номер итерации; ось ординат — мощность класса «пригодных» объектов)
для забракованных» объектов, начиная с множес-
тва C1 0.
Однако при сохранении прежнего требования к ОПО (не более 15 %) классы «забракованных» объектов, пригодных для второй модели, получаются довольно мелкими, что затрудняет дальнейшее построение моделей. Поэтому для«забрако-
ванных» объектов, начиная с множества C 1 0 , требования к качеству оценки были ослаблены: допустимая ОПО поднялась до 25 %. На следующем шаге итерации мощность класса «забракованных» объектов уменьшилась с 50 до 30 объектов, после чего процедура зациклилась. Таким образом, класс ^ = C{1 ранее «забракованных» объектов, но «пригодных»для второй модели, содержит 20 объектов. Качество оценки результирующей модели M111 на «пригодных» объектах из C\1 показано в третьей строке табл. 2.
«Забракованные» относительно модели M]11 объекты образуют класс ^ (см. сноску 3), содер-
Таблица 2
Качество оценки моделей на «пригодных» и «забракованных» объектах
Эффективность такой процедуры зависит от точности алгоритма классификации и от степени расхождения описаний объектов из РВ и массива МОО (от «биения» выборки [7]).
Показатели качества оценки V % Я2
Исходная модель М0 на С 0 Модель М 00 на С 00 Модель М11 на С111 5.7 6.8 20,03 0,8590 0,7703 0,7089
жащий 30 объектов. Поскольку регрессионное оценивание объектов из К3 характеризуется неприемлемо высокими значениями ОПО, для оценки этих объектов следует применять альтернативные методы.
Определение классифицирующей способности алгоритма. Согласно сказанному в § 2, все объекты из РВ были пропущены через алгоритм классификации, последовательность операций в котором можно представить в виде схемы:
Объекты из РВ ^ {ИМ(/)| ^ КМ ^ МРВ ^
^ ^ ^ ^непр.
Результирующие данные алгоритма при О = 6: вектор коэффициентов модели МКМ = (2,1202; —1,4171; —0,4641; 2,0927), разделяющие значения функции при округлении до целых чисел:
Ь1 = 1,5102, Ь2 = 2,3534. Таким образом, в предположении упорядоченности категорий их границы суть: категория 1 — (0; 1,5102], категория 2 — (1,5102; 2,3534], категория 3 — (2,3534; да). Классифицирующая способность алгоритма определяется по данным, представленным в табл. 3.
Здесь К — исходные классы, определенные на РВ в процессе итерационного построения моделей, а К\ — результирующие классы на выходе алгоритма классификации. Основные характеристики алгоритма классификации: точность = 100 % х х (8 + 43 + 23)/101 = 73,3 %. Коэффициент
Таблица 3
Классифицирующая способность алгоритма
Классы K{ = 11 K' = 61 K' = 29
K = 20 8 11 1
K2 =51 3 43 5
K =30 0 7 23
Таблица 4
Средние значения и дисперсии стоимостей
„ ,, __ ,,00 ,,00 в классах К1 и К2 на РВ и в классах К1 и К2 ,
определенных на массиве М00
Массив Среднее значение стоимостей в классах, руб. Дисперсия стоимостей в классах
РВ МОО 118090 99233 81469 72313 3,6038-107 3,0636-107 8Д867-107 10,898-107
Рис. 2. Оценка объектов из классов К°° и соответству-
ющими моделями: сплошная линия — с использованием двух моделей и М111 ;штриховая линия — с использованием одной модели М0 , ось абсцисс — объекты из К°° и К°° ; ось ординат — модельная удельная стоимость
Криппендорфа [5] равен 0,5443, что в качественной шкале для этого коэффициента можно трактовать как «хорошее» качество классификации.
Для сравнения классификационной способности предложенного алгоритма с традиционным подходом к построению классификатора с помощью логистической модели по КМ была построена логистическая модель with proportionalodds (см., например, работу [8]) и с той же зависимой переменной Z. Опять же в предположении упорядоченности классов) были получены значения bl и b2 для их границ, а именно: bl = 0,4902, b2 = 2,7506, так что упорядоченные категории выглядят следующим образом: категория 1 — (0; 0,4902], категория 2 — (0,4902; 2,7506], категория 3 — (2,7506; ю). Точность классификации логистической модели при этом равна 57 % (меньше 73,3 %).
Классификация объектов массива МОО. Массив МОО оцениваемых объектов представляет выборку из 401 объекта с теми же факторами стоимости, что и в построенных моделях оценки. Массив МОО аналогичным предыдущему образом пропускается через алгоритм классификации при полученных для РВ настройках (G, PZ, bp b2) алгоритма клас-
6
Ограниченный объем статьи не позволяет изложить методику вычисления коэффициентов Криппендорфа.
7 В отечественной литературе нет устоявшегося термина для этого типа моделей.
сификации. Результаты классификации: к классу ^ отнесено 62, к классу ^ — 255 и к классу ^ — 84 объекта.
Оценивание объектов массива МОО. Обозначим через р^ вектор коэффициентов модели, с помощью которой оцениваются объекты из мас-
сива МОО, относящиеся к классу Kv
OO
V = 1, 2:
р^ = 105(1,3701; 0,0000; -0,0212; -0,0000; -0,0002;
-0,0000; -0,0000), р| = 104(9,8422; 0,0154; -0,5089;
-0,0001; -0,0005; -0,0000; -0,0005). Объекты 00
класса л3 выделены в отдельное множество ввиду крайне плохого их оценивания регрессионными моделями. Графики удельных стоимостей объек-00 00
тов из классов Х1 и л2 представлены на рис. 2. Установление значимости соответствий Кп ^
К°0, V = 1, 2. Средние значения стоимостей и дисперсии стоимостей объектов из классов Щ и ^
на РВ и классов K100 и K2Ю на массиве МОО приведены в табл. 4. Видно, что дисперсии между со-
00
ответствующими классами л1 и л1 , а также меж-00
ду классами л2 и Х2 разнятся существенно мень-
00
ше, чем между классами Х1 и Х2 , а также между
классами ^ и K100. Это говорит о том, что оценивание объектов из массива МОО с помощью двух
моделей M100 и M111 более правдоподобно, нежели
0
с помощью одной модели ш0 .
ЗАКЛЮЧЕНИЕ
Предложенный многомодельный подход к массовой оценке позволяет получать более правдоподобные результаты при оценке объектов в больших массивах. Ключевую роль при этом играет алгоритм классификации, с помощью которого объ-
екты массива разбиваются на классы, для каждого их которых используется соответствующая модель оценки, построенная по исходной выборке с рыночной информацией. Очень важный момент, привнесенный в массовую оценку в рамках многомодельного подхода, заключается в верификации результатов оценки объектов массива с помощью процедур дисперсионного и дискриминант-ного анализа. Возможность такой верификации отличает многомодельный подход от известных подходов к массовой оценке.
ЛИТЕРАТУРА
1. Корноушенко Е.К. Регрессионный подход к массовой оценке при наличии ненаблюдаемой составляющей в зависимой переменной // Проблемы управления. — 2013. — № 4. — С. 23—31.
2. Boes S, Winkelmann R. Ordered Response Models // Working Paper N 0507, Socioeconomic Institute, University of Zurich, 2005. — URL: www.soi.uzh.ch/research/wp/2005/wp0507.pdf (дата обращения 10.03.2013).
3. Anans C.V., Kleinbaum D.G. Regression Models for Ordinal Responses: A Review of Methods and Applications // Intern. J. Epidemology. — 1997. — Vol. 26, N 6. — P. 1323—1333. — URL: www .biostat.sdu.dk/.../misc/ordinalResponse Models.pdf (дата обращения 10.09.2013).
4. McCullagh P. Exchangeability and regression models // Univ. Chicago. Dept. Statistics, Techn. Report, N 544, 2004. — URL: www.stat.uchicago.edu/~pmcc/reports/exchangeability.pdf (дата обращения 18.02.2013).
5. Krippendorff K. Computing Krippendorffs Alpha-Reliability. — URL: www.asc.upenn.edu/usr/krippendorff/mwebreliability4.pdf (дата обращения 20.02.2013).
6. Discover Which Variables Discriminate Between Gtoups, Discriminant Function Analysis. — URL: www.statsoft.com/text-book/discriminant-function-analysis (дата обращения 10.03.2013).
7. Huang J., еt al. Correcting Sample Selection Bias by Unlabeled Data. — URL: www.books.nips.cc/papers/files/nips19/ NIPS2006_0915.pdf (дата обращения 24.3.2013).
8. Ordered Logit Models — Overview. — URL: www3.nd.edu/ ~rwilliam/stats3/L11.pdf (дата обращения). 8.04.2013).
Статья представлена к публикации членом редколлегии Р.М. Нижегородцевым.
Корноушенко Евгений Константинович — д-р техн. наук, гл. науч. сотрудник, Институт проблем управления им. В.А. Трапезникова РАН, г. Москва, ® (495) 334-90-00, ^[email protected].
Содержание сборника «Управление большими системами», 2014, вып. 50
Кустов А.Ю. Анизотропийный анализ в случае ненулевого математического ожидания входного возмущения. — С. 6—23.
Юрченков А.В. Синтез анизотропийного робастного регулятора при структурированной неопределенности объекта управления. — С. 24—57.
Черных Н.В. Неявные сильные методы численного моделирования решений СДУ с марковскими переключениями. — С. 58—83.
S Чесноков А.М. Интеллектуальные системы на основе колонок при неполной информации. — С. 84—98. S Бахитова Р.Х., Ахметшина Г.А., Лакман И.А. Панельное моделирование объема выпуска продукции
для регионов России. — С. 99—109. S Топинский В.А. Эффективность резервной цены и давление конкуренции в аукционах. — С. 110—142.
Тексты статей доступны на сайте http://ubs.mtas.ru/