УДК 332.72:519.863.001.63
ПРОГНОЗИРОВАНИЕ ИНДИКАТОРОВ РЫНКА НЕДВИЖИМОСТИ С ПРИМЕНЕНИЕМ НЕЙРОННЫХ СЕТЕЙ
© 2009 г. А.И. Евстафьев, В.А. Гордиенко
ООО «Компания ВИЛЛАН»,
ул. Гоголя, 80, г. Краснодар, 350000,
krasnodar@willan. ru
Company « WILLAN»,
Gogol St., 80, Krasnodar, 350000,
krasnodar@willan. ru
Рассматривается самостоятельный метод прогнозирования индикаторов рынка недвижимости при отсутствии длинных временных рядов наблюдений и слабой изученности, неясности рыночных закономерностей.
Ключевые слова: нейронная сеть, рынок недвижимости, дискретная пространственно-параметрическая модель, прогнозирование индикаторов рынка недвижимости, регрессионное моделирование, корреляционно-регрессионный анализ.
The article considers the independent method of forecasting of indicators of the market of the real estate in the absence of long time numbers of supervision and a weak level of scrutiny, an ambiguity of market laws.
Keywords: a neural network, the real estate market, discrete spatially-parametrical model, forecasting of indicators of the real estate market, regression modeling, correlation analysis.
Рынок недвижимости в России далек от совершенного по многим позициям, что и определяет особенности его исследования. Качественная аналитическая работа в этой области представляется в высшей степени сложным предметом, требующим глубокой проработки методологии исследования, правил интерпретации данных и алгоритма выработки рекомендаций [1].
На фоне усиливающейся дифференциации территорий муниципалитетов по уровню развития социальной инфраструктуры, транспортных сетей, деловой активности, обеспеченности жильем, недостаточное внимание, уделяемое качеству аналитики и методам воздействия на территориальное развитие, является одной из главных причин большинства кризисов местных сообществ.
В последние годы в рамках практики государственного регулирования рынка недвижимости сложилась методика формирования информационной базы, задача которой - получение информации о рынке недвижимости, жилом фонде, рынке строительных материалов на уровне муниципальных образований [2]. Однако в рыночной системе хозяйствования сложившийся инструментарий анализа не удовлетворяет информационные потребности местных сообществ в силу разных причин. Одна из главных - слабая проработка концепций рыночного регулирования на основе прогноза состояния рынка, сугубо нормативно -плановый характер анализа.
Классификация прогнозов индикаторов рынка недвижимости может выглядеть следующим образом (табл. 1).
Таблица 1
Классификация прогнозов индикаторов рынка недвижимости по степени формализации методов
Субъект прогнозирования Метод прогнозирования Вид прогноза
Эксперт 1. Интуиция, знание рынка, метод аналогий Экспертное предсказание
Аналитик-прогнозист 2. Количественный и качественный фундаментальный анализ факторов, сценарный метод Эвристический прогноз
Прогнозист-теоретик 3. Фундаментальный анализ экономической ситуации и ее влияния на показатели рынка недвижимости (демографический анализ, метод прогноза доходов населения...) Фундаментальный прогноз факторов (объемов строительства, предложения, спроса, оборотов рынка)
Прогнозист-статистик 4. Регрессионный анализ, статистическое моделирование Прогноз на основе регрессионной статистической модели
Прогнозист-моделист 5. Многофакторное моделирование, нейросетевое моделирование Прогноз на основе многофакторной модели, нейронных сетей
На практике различные методы применяются совместно, в том или ином сочетании. Тем не менее необходимо отличать экспертное предсказание тенденций на рынке (метод 1), необоснованно называемое прогнозом (которое в силу высокой квалификации эксперта может быть достаточно точным), от методически обоснованного расчетного прогноза (методы 2-5).
Первые методы прогнозирования рынка недвижимости в России появились вместе с началом его зарождения и развития (в начале 90-х гг. XX в.) [3]. Разработанные вначале для рынка жилья, они были использованы также и для других сегментов рынка. Один из них - эвристическое прогнозирование, т.е. количественный и качественный анализ отдельных факторов, влияющих на динамику рынка, и их связей.
Второй - статистическое прогнозирование на основе построения регрессионных моделей динамики цен. Этот метод требует, с одной стороны, выдвижения содержательной гипотезы о характере протекающих процессов и тенденций их развития, что подразумевает высокий уровень изученности ситуации на рынке. А с другой - наличия достаточно длинных динамических рядов, что в реалиях новой истории России было возможно в 19911998 гг. (6-7 лет последовательного развития рынка) и после 2000 г. (более восьми лет послекризисного развития).
Целью нашего исследования является разработка альтернативного метода прогнозирования, более совершенного, чем предыдущие два.
Задачи метода обусловлены необходимостью его использования, а именно:
а) разработки инструментария прогнозирования, способного анализировать слабо изученные явления и процессы с неформализованными зависимостями;
б) подстройки метода под практическое применение в условиях отсутствия длинных статистических рядов наблюдений;
в) выявления скрытых системных закономерностей между рассматриваемыми показателями и как следствие -возможность применения инструментария для прогнозирования широко круга индикаторов рынка.
Сущность представленного метода состоит в двумерном разложении дискретной пространственно-параметрической модели с последующим нейросетевым анализом.
При прогнозировании на основе нейронных сетей используется:
1. Дискретная пространственно-параметрическая модель (ДППМ) рынка недвижимости (таблица Стерни-ка) - упорядоченный набор индикаторов состояния рынка по всем его сегментам, полученный в результате параллельного сечения рассматриваемой выборки объектов недвижимости по следующим измерениям: размер, местоположение, качество, срок сдачи объекта и (реже) другие (рис. 1) [4].
2. Ячейка ДППМ - мельчайшая неделимая единица информации о конкретном сегменте в локальном рынке недвижимости (информация об объектах недвижимости с определенным местоположением, размером, качеством и т.д.).
Рис. 1. Каркас ДППМ с примером ячейки, имеющей конкретный адрес
3. Измерение ДППМ - ось в гиперпространстве, задающая конкретный адрес каждой ячейке (как в табличном процессоре Excel); пример измерений для вторичного рынка жилья Краснодара: количество комнат в квартире (размер), топонимический район (местоположение), материал наружных стен дома (качество).
4. Параметр ячейки ДППМ - конкретная статистическая величина, агрегирующая данные по выборке, вошедшей в ячейку. Пример параметров: средняя, максимальная, минимальная цена предложения, количество объектов в выборке, темп прироста цен и т.д. Набор параметров - содержимое ячейки.
5. Слой ячеек ДППМ - набор ячеек из куба ДППМ, соответствующий определенному значению по одному из измерений. В аналогии с кубиком Рубика такой набор ячеек будет соответствовать слою маленьких кубиков, находящихся в одной плоскости.
6. Искусственные нейронные сети (ИНС) - математические модели, а также их программные или аппаратные реализации, построенные по принципу организации и функционирования биологических нейронных сетей -сетей нервных клеток живого организма.
Основной элемент нейронных сетей - формальный нейрон, с помощью которого осуществляется преобразование суммы произведений входных сигналов на весовые коэффициенты. Нейронная сеть (НС) - совокупность нейроподобных элементов, определенным образом соединенных друг с другом и внешней средой с помощью связей, определяемых весовыми коэффициентами.
Важное свойство НС - способность к обучению, под которым подразумевается настройка ее топологии и весов связей для эффективного выполнения конкретной задачи. НС обучается так, чтобы была возможность для некоторого множества входов давать желаемое множество выходов. Обучение ведется путем последовательной генерации по определенной процедуре входных векторов с одновременной подстройкой весов. В ходе обучения веса НС постепенно становятся такими, чтобы каждый входной вектор вырабатывал выходной вектор. Цель обучения - минимизация
ошибки в формировании выходов из заданных входов в нейронную сеть [5].
Вербальное описание НС на математическом языке показывает принцип её работы: сеть создаёт коэффициенты, отображающие степень зависимости между входными и выходными данными [6].
Нейронные сети достаточно эффективно используются в задачах, сопряженных с классификацией рынка недвижимости, но весьма ограниченно применяются в задачах численного прогноза [7]. Основная причина неудач: невозможность строить обучение сетей на рядах динамики (трендах) ввиду значительной инертности рынка недвижимости. В отличие от фондового рынка зафиксировать изменение того или иного индикатора рынка, свободного от статистической погрешности, возможно только на достаточно длительных промежутках времени (не менее месяца). В результате исследователь просто не имеет возможности набрать необходимое для эффективного обучения сети количество обучающих примеров, а именно: набор достоверных и единообразных индикаторов рынка из хотя бы 50-100 временных интервалов.
Алгоритм создания инструментария прогноза путем двумерного разложения ДППМ с последующим нейросетевым анализом выглядит следующим образом:
1. Статистическая обработка массива данных
1.1. Построение ДППМ с максимально обширным объемом параметров в ячейках отдельно для каждого временного отрезка в предыстории.
1.2. Двумерное разложение ДППМ.
1.3. Подготовка и нормализация данных.
2. Интеллектуальная обработка данных.
2.1. Обучение множества нейронных сетей по всей предыстории.
2.2. Оценка качества обучения и выбор наиболее удачных сетей при помощи корреляционного анализа.
3. Регрессионное моделирование
3.1. Формирование единого набора прогнозов, полученных из всех отобранных сетей, и фактических значений роста цен по предыстории.
3.2. Построение регрессионного уравнения, увязывающего прогнозы сетей с фактом.
Алгоритм применения инструментария:
1. Статистическая обработка массива данных:
1.1. Построение ДППМ для текущего временного отрезка.
1.2. Двумерное разложение ДППМ.
2. Интеллектуальная обработка данных:
2.1. Получение прогноза индикаторов рынка по новым данным из уже обученных сетей.
3. Регрессионное моделирование:
3.1. Получение максимально достоверного прогноза при помощи ранее полученного регрессионного уравнения.
На временном интервале 1 (рис. 2) обучается первое множество сетей. Далее на интервале 2 (интервале тестовой выборки) производится отбор лучших сетей; делается прогноз на период 3 на основании данных периода 2. На интервале 3, на котором получены реальные данные за период 3, рассчитывается регрессионная модель увязки прогнозов отобранных сетей с фактическими данными; инструментарий прогнозирования на основе данных за период 3 делает свой первый самостоятельный прогноз на период 4. На интервале 4 получаются фактические данные для сопоставления с прогнозом, сделанным на этапе 3; на основании выявленных различий происходит дообучение сетей. На данных периода 4 производится очередной прогноз инструментария на период 5 и так далее (после получения фактических данных за период 5 будет проведено очередное дообучение сетей и сделан прогноз на следующий период).
Отладка инструментария
Время, периоды
я г- т—
1 1 1 2 3 4 5 I
Рис. 2. Алгоритм прогнозирования на основе применения нейронных сетей в хронологическом порядке этапов методики, где 1 - интервал первичного обучения нейросетей; 2 - интервал тестового прогноза на период 3; 3 - регрессионная увязка тестового прогноза с фактическими данными; рабочий прогноз на период 4; 4 - интервал дообучения сетей, новый рабочий прогноз на период 5; 5 - интервал дообучения сетей, новый рабочий прогноз на период 6 и т.д.
Для реализации метода прогнозирования индикаторов рынка необходимо создать несколько таблиц (по количеству измерений в ДППМ): в нашем случае три таблицы, у каждой из которых измере-
ние, откладываемое по вертикали, будет разным. При этом значение параметров (конкретных статистик) в ячейках, имеющих один и тот же адрес, не изменится (рис. 3).
а) трехмерная ДППМ рынка недвижимости
>
б) вычленение слоев ДППМ
■на
м
I
-U-
г) формирование таблицы ДППМ
в) расположение слоев ДППМ в одной плоскости
Рис. 3. Схема двумерного разложения ДППМ рынка недвижимости
Полученные три варианта транспонирования одной и той же ДППМ используются в обучении трех нейронных сетей (каждая ДППМ через свою персональную сеть).
Входами в сеть будут значения параметров всех ячеек вошедших в один слой. Выходами - любой целевой параметр, значение которого известно по предыстории, но не известно в будущем. Тогда число входов равняется количеству ячеек, вошедших в один слой, помноженному на количество параметров, а число выходов равно просто количеству ячеек в слое. Получим три сети, обученные на одинаковом наборе исходных данных, но при разном способе ввода этих данных (ввод данных осуществляется группами ячеек с одинаковыми либо размерами квартиры, либо местоположением, либо качеством).
Очевидно, сети не будут выдавать одинаковые прогнозы по конкретным ячейкам. На основе регрессионного моделирования по предыстории оценивается качество прогноза, который дает каждая сеть по отдельности и во взаимосвязи друг с другом путем сравнения ее выходов с реальными значениями рассматриваемого явления. Таким образом, представленный метод предполагает прогнозирование, при котором НС является промежуточным этапом анализа - полученные выходы нейронных сетей представляют собой совокупность трех прогнозов по каждой ячейке ДППМ, которые необходимо совместить друг с другом (по уникальному адресу каждой ячейки) и подвергнуть регрессионному анализу-прогнозу (табл. 2).
Таблица 2
Математическое представление результатов этапов нейросетевого и регрессионного прогнозирования
Адрес ячейки по Фактическое значение индикатора Прогноз сетей по Регрессионный * прогноз
классу местоположению размеру месяцу Уникальный адрес местоположению классу размеру
0 0 0 1 0001 101,42 103,13 100,83 103,09 101,39
0 0 0 2 0002 103,09 104,27 100,58 100,73 102,64
0 0 0 3 0003 99,54 101,29 99,75 102,16 100,66
0 0 0 4 0004 102,31 102,47 101,92 101,69 102,22
0 0 0 5 0005 101,08 100,70 100,22 99,56 101,72
0 0 0 6 0006 99,80 98,12 101,85 104,11 99,69
0 0 0 7 0007 100,97 101,89 95,95 98,47 100,70
Окончание табл. 2
Адрес ячейки по Фактическое значение индикатора Прогноз сетей по Регрессионный * прогноз
классу местоположению размеру месяцу Уникальный адрес местоположению классу размеру
0 0 0 8 0008 101,00 100,38 98,01 99,37 100,72
0 0 0 9 0009 100,67 98,66 101,55 103,15 100.13
0 0 1 1 0011 99,82 104,54 101,60 109,30 99,70
0 0 1 2 0012 103,43 103,05 103,47 109,15 100,06
0 0 1 3 0013 98,76 99,84 98,03 108,50 96,82
0 0 1 4 0014 102,41 102,40 105,21 102,89 103,15
- рост цены.
Коэффициент детерминации (Д ) регрессионной модели (зависимая переменная - фактический рост цен на вторичке в следующем после наблюдаемого месяце; три фактора - прогнозные значения роста цен из каждой нейронной сети), построенной на тестовой выборке, не участвовавшей в обучении сетей (сети
обучены на временном отрезке с января по сентябрь 2008 г.), для ячеек, соответствующих всему рынку города (все районы, все размеры, все классы) равен 0,764 (табл. 3-4). При вероятности наступления прогноза 95 % (см. значимость изменения Б в табл. 3) ошибка прогноза составляет 23,6 %.
Сводка регрессионной модели*
Таблица 3
R, коэффициент корреляции Я2, коэффициент детерминации Стандартная ошибка оценки Значимость изменения F
0,874 0,764 0,682 0,050
' - предикторы: константа, прогнозы трех сетей (по размеру, местоположению и классу).
Коэффициенты регрессионной модели*
Таблица 4
Коэффициент Нестандартизованные коэффициенты Стандартизованные коэффициенты Значимость изменения F
В Стандартная ошибка ß
Константа 63,252 21,530 0,032
Прогноз_местоположение 0,348 0,131 0,627 0,045
Прогноз_класс 0,439 0,210 0,777 0,090
Прогноз_размер - 0,407 0,222 - 0,715 0,126
* - зависимая переменная: факт.
Прогноз общий = 63,252 + 0,347 х Прогноз_местоположение + 0,438 х Прогноз_класс + (-0,407) х Прогноз_размер
Если просто аппроксимировать предысторию подходящей однофакторной кривой, то R2 для зависимой переменной рост цен намного хуже (всего 0,13). Как видно на графике, разнонаправленные тенденции изменения индикаторов рынка на различных временных интервалах отрицательно сказываются на качестве аппроксимирующей кривой: общая тенденция вроде бы прослеживается, но прогнозирование точных значений невоз-
можно. Данный недостаток аппроксимации трендов особенно отчетливо проявляется в периоды излома тенденций, когда перманентный рост (или падение) цен сменяется неслучайными (обусловленными системной взаимосвязью различных рыночных факторов) колебательными изменениями то в одну, то в другую сторону (рис. 4). И уж тем более плох метод аппроксимации в прогнозировании наступления этих изломов тенденций.
нейросетевой прогноз Я2 = 0,764 факт
----аппроксимирующая прямая, Я2 = 0,1345
Рис. 4. Сравнительная характеристика эффективности прогнозов на основе линейной аппроксимации и нейросетевого анализа ДППМ
Метод, основанный на нейросетевом анализе ДППМ, дает намного более точный прогноз. Данный метод угадывает направление изменения индикатора рынка (в нашем случае - цены) на временном интервале, отличающемся нестабильностью поведения наблюдаемого индикатора.
Уникальность представленного метода основана на применении нейронных сетей:
1. Корреляционно-регрессионный анализ можно применить при анализе взаимосвязи параметров внутри ячейки ДППМ с одним целевым параметром. Однако тогда не учитывается единство внутри слоя ячеек (отрицается связанность целевых параметров из ячеек, входящих в один слой), так как регрессионная модель предполагает зависимость только одного параметра от других.
При использовании нейронных сетей можно получить набор связанных выходов. Тем самым резюмируется наличие внутренней логической связи между ячейками, вошедшими в один слой.
2. Итогом этапа нейросетевого анализа является по сути не один прогноз, а три (по числу измерений ДППМ). Оценивая их качество (по критерию максимальной корреляции) можно найти то, каким образом агрегировать их в более достоверный один прогноз.
Таким образом оптимизация метода прогнозирования осуществляется не путем сложной и длительной спецификации регрессионной модели, а путем простой увязки трех прогнозов (полученных после нейросетевого анализа), для которой по определению не существует проблемы мультиколлинеарности (поиск межфакторной корреляции избыточен, поскольку целью регрессии в данном случае является нахождение статистически наиболее вероятного общего про-
гноза по трем промежуточным прогнозам), определена простая линейная зависимость и аддитивность модели (что следует из единства принципов построения ДППМ для различных ее измерений, отсюда и единообразный (по умолчанию линейный) характер влияния прогнозов трех нейросетей на общий прогноз и аддитивность модели).
3. Представленный метод выявляет одновременно зависимости: а) индикаторов рынка внутри ячеек ДППМ; б) индикаторов рынка внутри ДППМ; в) ячеек внутри ДППМ.
В отличие от балансовых и многофакторных регрессионных моделей, которые способны отслеживать указанные зависимости только по отдельности, метод разложения ДППМ с последующим нейросетевым анализом способен обозревать эти множественные зависимости одновременно (само применение представленного метода возможно при наличии и учете данных закономерностей). Поэтому, в то время как для других методов существование параллельных закономерностей не вошедших в модель, является ограничивающим условием применения моделей в прогнозировании, для представленного метода учет всей природы взаимосвязей, проявляющихся при дискретном пространственно-параметрическом делении рынка, является главным преимуществом.
4. Применение нейронных сетей в данном методе смягчает требования к составу и качеству исходных данных: не требуется набор данных за продолжительный промежуток времени (достаточно за 6-9 месяцев), допускаются пропуски и искажения в них. В условиях существенной информационной закрытости рынка недвижимости указанное преимущество нейро-сетевого анализа является неоспоримым.
По нашему мнению, метод применения нейронных сетей в прогнозировании индикаторов рынка недвижимости путём двумерного разложения дискретной пространственно-параметрической модели эффективно решает поставленные задачи и может стать концептуальной платформой следующих направлений исследования рынка недвижимости:
1. Прогнозирование неценовых индикаторов рынка недвижимости, таких как конъюнктура спроса и предложения, обороты и емкость рынка, ликвидность объектов и т.д.
2. Разработка методики вычисления пропущенных и исправления недостоверных значений параметров в ячейках ДППМ (интеллектуальная нормализация данных); вычисление вероятных значений параметров в пустых ячейках (в локациях и/или сегментах, где нет объектов недвижимости).
3. Комбинирование и интеграция получаемых данным методом результатов корреляционно-регрессионного анализа в семейство традиционных методов регрессионного анализа рынка недвижимости (с ростом новых непересекающихся факторов регрессионной модели растет качество модели - R2).
4. Разработка методики сценарного прогнозирования связанных значений одной части набора индикаторов рынка в определенной ячейке ДППМ (входов
сети) для заданного значения другой части набора индикаторов рынка (выходов сети).
Литература
1. Демарк Т.Р. Технический анализ - новая наука. М., 2008. 280 с.
2. Степанов В. Фондовый рынок и нейросети // Мир ПК. 1998. № 12. С. 40.
3. Галушкин А.И. О современных направлениях развития нейрокомпьютеров // Информационные технологии. 1997. № 5. С. 2.
4. Стерник Г.М. Технология анализа рынка недвижимости. М., 2005. 203 с.
5. Вайну Я.Я.-Ф. Корреляция рядов динамики. М., 1977. 119 с.
6. Пахомова О.М., Федоров В.П. Земля в городе и проблема ее массовой рыночной оценки (Модельное и информационное обеспечение массовой оценки территории города) // Вопросы оценки. 1997. № 4. С. 48.
7. Мерлен П. Город: Количественные методы изучения : пер. с франц. М., 1977. 264 с.
Поступила в редакцию 24 апреля 2009 г.