Научная статья на тему 'Система поиска оптимальных регрессий'

Система поиска оптимальных регрессий Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
126
20
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Валеев Султан Галимзянович, Кадырова Гульнара Ривальевна

Описывается функциональное и структурное наполнение действующего программного комплекса система поиска оптимальных рецессий (СПОР). Система реализована на языке Object Pascal с использованием библиотек Turbo Vision и функционирует под управлением MS DOS для ПЭВМ, совместимых с IBM PC/AT 80386 и выше. Оригинальный про1раммный продукт может найти широкое применение при решении задач метода наименьших квадратов или задач восстановления зависимостей по избыточным косвенным наблюдениям для широкого круга проблем в различных областях науки и производства. Частное применение СПОР решение задач координатной привязки при создании высокоточных геодезических сетей

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Система поиска оптимальных регрессий»

УДК 521.95 + 523.3

С.Г. ВАЛЕЕВ, Г. Р. КАДЫРОВА

СИСТЕМА ПОИСКА ОПТИМАЛЬНЫХ РЕГРЕССИЙ

Описывается функциональное и структурное наполнение действующего программного комплекса - система поиска оптимальных рефессий (СПОР). Система реализована на языке Object Pascal с использованием библиотек Turbo Vision и функционирует под управлением MS DOS для ПЭВМ, совместимых с IBM PC/AT - 80386 и выше. Оригинальный программный продукт может найти широкое применение при решении задач метода наименьших квадратов или задач восстановления зависимостей по избыточным косвепным наблюдениям для широкого круга проблем в различных областях пауки и производства. Частное применение СПОР - решение задач координатной привязки при создании высокоточных геодезических сетей.

Применение методологии регрессионного моделирования (РМ-подхода) [1] в достаточно полном объеме нереально без соответствующего программного обеспечения. На первых шагах это могут быть отдельные программы регрессионного анализа (РА) или набор программ. Существует большое число статистических программных продуктов (CI111), включающих раздел РА.

Пакеты углубленного статистического анализа составляют как бы основу для всего статистического программного обеспечения. Их главная особенность - мощное математическое наполнение. Классические методы дополняются в этих пакетах программами, реализующими современные методы. Естественно, что пакеты данного раздела предназначены для специалистов в области статистического анализа. Как правило, эти пакеты снабжены собственным языком управления.

Некоторые пакеты углубленного статистического анализа, такие, как BMDP и SAS, хорошо известные у нас в стране по версиям для ЭВМ типа 1ВМ/370, были перенесены разработчиками на ПК под именами BMDP/PC (последняя модификация называется РС-90) и SAS PC (есть модификация под именем BASS). Эти пакеты сохранили при переносе ряд своих достоинств, например, надежность и отработанность статистических процедур, но по сервису они явно уступают пакетам, написанным сразу в расчете на возможности ПК. К пакетам рассматриваемой группы относятся также пакеты: SPSS/PC+, Systat, Statgraphics, Stata, NCSS.

Пакеты базового статистического анализа реализуют широко известные и употребительные классические методы статистического анализа, больше претендуя на широту охвата различных методов, чем на их глубину.

© С.Г.Валеев,Г.Р.Кадырова, 1998

Перечислим наиболее популярные пакеты этой группы: ABstat, Crunch Statistical Package, Exec*U*Stat, NW A Stat- Pak, комплекс пакетов PC ANOVA и PC Statistician; Minitab, SP Stat, SCA Statistical System, Statistix, Statl, StatPlan ll,StatPro.

Специализированные статистические пакеты призваны экономить память персонального компьютера и деньги пользователя. Они чрезвычайно удобны в том случае, когда пользователя интересует лишь одна конкретная процедура статистического анализа. Для регрессионного анализа предназначены пакеты FIT и Goodness-of-Fit.

Нельзя не сказать несколько слов об экспертных системах в области статистического анализа. Существует экспертная система для линейного регрессионного анализа (REX), строящая только простую линейную регрессию. Эта система реализована на основе построения специальной диалоговой надстройки над универсальным статистическим пакетом S. Такая программная система мало что дает тем, кто плохо сведущ в стратегии выполнения анализа данных. Прототип экспертной системы для линейного регрессионного анализа REX внедрен в операционной системе UNIX на VAX 11/780.

Предыдущий анализ основывался исключительно на зарубежных СПП. Однако нельзя обойти вниманием постепенно складывающийся рынок отечественных статистических пакетов, которые обладают рядом существенных преимуществ перед западными. Среди них - сопроводительная документация на русском языке и возможность получить квалифицированную консультацию у специалистов, осуществляющих поддержку пакета, или у самих его разработчиков. Значительным фактором является и цена пакетов.

В заключение, отнюдь не претендуя на полноту списка, отметим некоторые отечественные пакеты прикладной статистики, которые могут составить конкуренцию зарубежным пакетам, причем не только по цене: STADIA (универсальный пакет статистического анализа), САП («Статистический анализ и прогнозирование», предназначен для решения задач построения регрессионных моделей и прогнозирования исследуемых процессов), САНД («Статистический анализ данных»). ПАРИС («Параметрическая идентификация систем», предназначен для решения задач оценки параметров линейных и нелинейных регрессионных моделей).

К сожалению, существующие статистические пакеты не приспособлены для решения задач астрономии (фотографической астрометрии и др.). Многоцелевой характер СПП, т.е. нацеленность их на решение ряда задач по крупным разделам прикладной статистики, является без сомнения достоинством пакета в условиях охвата многочисленных практических проблем медицины, экологии, социологии, биологии, геологии и т.д. Однако, с другой стороны, это свойство ограничивает применение СПП в астрономии.

Рассмотрим пакет «Автоматизированная система обработки астрономических баз данных» (АС РМ), разработанный группой системных программистов и математиков [1].

АС РМ предназначена для получения регрессионных моделей процессов или явлений с последующим их использованием для прогноза выходных характеристик и реализации некоторых функций управления в интерактивном и пакетном режимах работы на ЕС ЭВМ.

АС РМ, хотя и содержит достаточно полный набор методов поиска, использует лишь однокритериальный поиск по внутренним или внешним критериям качества.

Существенным недостатком пакета является необходимость предварительного изучения работы с пакетом, в частности, специализированного языка управлением пакетом и хороших навыков работы с компьютером. После оформления и реализации заказа на модель при заготовленном разделе исходных данных (ТЭД), помещенных в соответствующую библиотеку, пользователь корректирует раздел на запуск, указывая в нем, помимо остальных параметров, объем памяти, требуемый для расчетов, что представляет трудность для пользователя-непрограммиста. Затем корректируется раздел заказа с использованием специализированного языка управления пакетом. И только после этого выполняются необходимые расчеты. Кроме этого, АС РМ не учитывает специфику ряда задач астрометрии и небесной механики (большая размерность - проблема памяти, особенность методов оценивания и т.д.), отсутствует хороший и удобный сервис.

В связи с бурным развитием персональной компьютерной техники потребовалась разработка достаточно мощного программного продукта с хорошим современным сервисом, реализующего основные этапы РМ. Система поиска оптимальных регрессионных моделей (СПОР), разработанная для ГВМ-со-вместимых компьютеров, является конкретной реализацией ЭСПОР [2] и предназначена в первую очередь для получения оптимальной модели обработки данных, используемой для прогноза.

СПОР имеет достаточно продуманную структуру, включающую:

1) управляющий модуль;

2) модуль формирования запроса;

3) библиотеку функциональных процедур;

4) блок сценария;

5) блок настройки системы;

6) блок редактора данных;

7) блок формирования таблиц;

8) справочник.

Сочетание такой структуры с системой меню и диалоговым режимом работы делает управление СПОР очень удобным.

Управляющий модуль реализует:

1) режим работы по разработанному и реализованному в системе оптимальному сценарию, обеспечивающему определенную стратегию решения задач регрессионного анализа [3];

2) автоматический режим работы для обработки большого количества выборок данных;

3) вызов функциональных процедур структурно-параметрической идентификации и оценки качества регрессионных моделей.

Модуль формирования запроса представляет собой процедуру формирования последовательности окон меню для ввода данных и параметров решения конкретной функциональной процедуры. Гибкость диалога обеспечена тем, что последующий вопрос и список ответов на него (меню) зависят от того, какой ответ выбран в текущем меню системой. Формируется файл аргументов конкретной функциональной процедуры, который передается затем библиотеке функциональных процедур.

Библиотека функциональных процедур включает 13 алгоритмов:

1) формирование постулируемой модели на базе полинома;

2) структурно-параметрическая идентификация:

- множественная линейная регрессия;

- гребневая регрессия;

- полный перебор структур;

- неполный перебор структур (перебор с ограничением на количество включаемых регрессоров в модель);

- перебор нормальных систем;

- пошаговая регрессия;

- корреляционный алгоритм [4];

- случайный поиск с адаптацией;

- случайный поиск с возвратом;

3) поиск множества оптимальных моделей по заданному критерию с заданным уровнем значимости;

4) построение диаграммы рассеяния;

5) построение и анализ графиков остатков.

В основе процедур множественной линейной регрессии и пошаговой регрессии лежат американские программы из Сборника научных программ на Фортране, изданные в США в 60-е годы. Программы, составленные на этой стадии, были приспособлены только для данной серии ЭВМ. Внесение изменений в программы и отладка их явились чрезвычайно кропотливой и трудоемкой работой. Поэтому предоставленный программный материал непосредственно не мог быть использован на вычислительных машинах других серий и потребовались значительные затраты, чтобы перенести его на другие, более производительные ЭВМ.

Блок сценария представляет собой модуль, формирующий множество меню, которые взаимодействуют между собой по некоторой однозначной иерархии, реализующей разработанную методику обработки. Последняя обеспечивает поиск моделей с наилучшими прогностическими свойствами.

СПОР имеет удобный сервис и большие возможности. Как большинство профессиональных пакетов, она может настраиваться, обеспечивая формирование конфигурационного файла. Система может протоколировать работу пользователя: в специально создаваемый файл записывается информация о выполненных процедурах с указанием даты и времени запуска, а также времени просчета. СПОР обладает возможностью создавать и использовать файлы макросов, которые, в частности, можно использовать для создания демонстрационных версий пакета. Система дает возможность подключить вызовы внешних программ по желанию пользователя, для чего задействованы горячие клавиши <Shift-F2>...<Shift-F5>, <Shift-F7>...<Shift-F10>. Таким способом возможно подключение до восьми внешних программ.

Система позволяет задавать формат вывода результатов, что очень удобно при обработке различных выборок данных. В СПОР имеется текстовый редактор для подготовки отчетов. Помимо этого имеется возможность построения таблиц промежуточных и конечных результатов, задаваемых пользователем.

Характерный недостаток MS-DOS - ограниченный объем непосредственно адресуемой оперативной памяти (640 Кбайт), а из-за наличия различных резидентных программ, драйверов устройств реально доступный размер памяти намного меньше. Неоспоримым достоинством СПОР является то, что система работает в защищенном режиме и использует файл подкачки для увеличения размера доступной памяти. В пределе максимальный размер swap-файла ограничивается размером свободного места на жестком диске.

Для любой диалоговой системы возможны непредусмотренные попытки ее применения. СПОР по возможности защищена от таких попыток: предупреждает пользователя о недопустимости или возможности появления ошибок, имеет систему проверок и подсказок, в том числе проверку параметров перед запуском задания с возможностью изменения заданных параметров. С другой стороны, следует учесть, что ни одна система, разработанная человеком, не гарантирована от незапланированных ошибок, которые столь же многообразны и неисчерпаемы, как и средства обработки ошибок пользователей, на поддержание которых уходят в развитых человеко-машинных системах до 80% усилий при разработке систем.

Дружественность пакетов в значительной мере определяется наличием ассистирования в ходе решения задач. СПОР содержит достаточное количество подсказок о своих возможностях и средствах. Можно вообще обойтись без чтения документации, поскольку значительная ее часть присутствует в электронном справочнике пакета, использующем систему перекрестных ссылок. Гибкий порядок обращения к справочнику позволяет легко получить разъяснения как по сервисным процедурам, так и по статистическим методам.

Система реализована на языке Object Pascal с использованием библиотек Turbo Vision и функционирует под управлением MS-DOS.

Для успешного функционирования СПОР необходимо наличие следующих технических средств:

1) ПЭВМ, совместимая с IBM PC/AT - 80386 и выше;

2) среда: операционная система MS-DOS версии 6.0 и выше;

3) ОЗУ емкостью не менее 512 Кбайт;

4) НЖМД емкостью не менее 1 Мбайт;

5) цветной монитор с адаптером VGA и выше.

Разработанная Система поиска оптимальных регрессий может найти широкое применение:

- при создании высокоточных геодезических, геодинамических и других специализированных сетей на этапе решения задачи координатной привязки;

- при решении задач метода наименьших квадратов или задач восстановления зависимостей по избыточным косвенным наблюдениям в любых других областях геодезии, фотограмметрии, астрометрии, небесной механики и т.д., где решаются, в частности, проблемы выбора формул преобразования координат объектов, учета систематических ошибок на аэрокосмических и другого типа снимках и пр.;

- при решении различных технологических задач «черного ящика», требующих восстановления эмпирической зависимости между выходным параметром процесса и набором входных данных.

СПИСОК ЛИТЕРАТУРЫ

1. Валеев С.Г. Регрессионное моделирование при обработке наблюдений. М.: Наука, 1991.272 с.

2. Валеев С.Г., Кадырова Г.Р. ЭСПОР для задач МНК: состояние и перспективы // Тез. докл. XXX науч.-техн. конф. УлГТУ. Ульяновск: УлГТУ, 1996. С. 110-112.

3. Кадырова Г.Р. Исследование альтернативных сценариев обработки аст-рофотографических наблюдений // Тез. докл. междунар. конф. «Результаты и перспективы исследования планет». Ульяновск: УлГТУ, 1997. С. 57-59.

4. Kadyrova G. The correlativ scheme of the observations treatment optimal model search // Abstracts of Twenty-Sixth Microsymposium on Comparative Planetology. Moscow, 1997. P. 46.

Валеев Султан Галимзянович, доктор физико - математических наук, профессор, окончич физический факультет Казанского государственного университета, заведующий кафедрой ИМИ УлГТУ. Имеет статьи и монографию в области астрометрии и небесной механики, математической статистики и разработки информационных технологий.

Кадырова Гульнара Ривальевна, окончила радиотехнический факультет Ульяновского политехнического института Старший преппдикитепь кафедры ПМИ УлГТУ. Имеет публикации б области астрометрии и разработки информационных технологий.

i Надоели баннеры? Вы всегда можете отключить рекламу.