Технология многомерных баз данных. Многомерный статистический контроль процессов. Моментные функция случайных процессов

А.Л. Померанцев, О.Е. Родионова

В отечественной научно-технической литературе все чаще встречается выражение "многомерный статистический контроль процессов" - MSPC (Multivariate Statistical Process Control) .
MSPC - это современный подход к моделированию многомерных (многофакторных) процессов, основанный на применении проекционных математических методов, позволяющих выделять в больших массивах данных скрытые (латентные) переменные и анализировать связи, существующие в изучаемой системе. MSPC является естественным развитием подхода, известного как SPC (Statistical Process Control) - статистический контроль процессов, с переходом на более высокий уровень обработки накопленных данных.
Анализом каких процессов занимается MSPC? В первую очередь, конечно же, производственных. Однако он может быть полезен и для предприятий торговли, банковской и страховой сфер и т. д., т. е. там, где необходимо регулярно принимать решения, влияющие на эффективность деятельности предприятия. Под MSPC понимается многогранная деятельность, связанная с многофакторным мониторингом, моделированием и управлением процессами, которая направлена на стабилизацию функционирования предприятия, на повышение эффективности его работы и в конечном итоге на выпуск качественной продукции или оказание качественных услуг.
Контроль качества - это теперь модная тема, хотя сама по себе качественная работа для любого предприятия была актуальна всегда. Слово "качество" многозначно и широко употребляется как в быту, так и в специальной литературе. Например, "качество" является одним из синонимов слова "свойство" - т. е. неотъемлемая характеристика чего-либо. Зачастую понятие "качество" отражает субъективную оценку продукта или услуги.
Рассмотрим точку зрения производителя, для которого качество - это соответствие некоторому стандарту при минимуме затрат.
Именно достижению такого качества и служит многомерный статистический контроль процессов.
На предприятии можно выделить четыре основных уровня контроля качества.
Интуитивно-экспертный контроль . Существует на каждом предприятии, когда эксперт-технолог, в роли которого может выступать любое ответственное лицо, лично принимает решение о том, является ли произведенный продукт качественным или нет. Соответственно он же решает, какое воздействие нужно оказать на процесс, чтобы получить качественную продукцию. Такой подход, например, применяется в хорошем ресторане, где шеф-повар сам оценивает качество блюд и корректирует рецепты их приготовления. Этот уровень контроля оправдывает себя на небольших предприятиях, и только при наличии квалифицированного эксперта. Замена либо просто болезнь эксперта, могут привести к катастрофическому снижению качества продукции. Как только предприятие разрастается и один эксперт (или группа экспертов) уже не способен лично контролировать весь технологический процесс, предприятию необходимо переходить на другой уровень контроля качества.
Описательный контроль . При такой организации работы для каждого рабочего места существует инструкция, описывающая, что, как, с помощью каких инструментов необходимо делать, и регламентирующая точность выполнения определенных операций. Именно такой подход существует, например, на предприятиях быстрого питания (fast-food) , в результате чего они по всему миру производят сходную по качеству продукцию. В настоящее время этот подход широко распространен, в частности, путем сертификации предприятий на соответствие требованиям стандарта ИСО 9001.
Статистический мониторинг . Методы SPC были предложены Шухартом еще в начале 30-х годов, но широко внедряться на предприятиях они стали только с середины 50-х. В общих словах идея этого подхода заключается в следующем. На предприятии регулярно измеряются некоторые заранее определенные показатели технологического процесса. Если эти показатели колеблются внутри установленных пределов (критических уровней), то считается, что процесс управляем, если нет - управление нарушено и произошло событие, которое требует вмешательства для восстановления нормального функционирования. Для подобного мониторинга используются контрольные карты Шухарта , карты накопленных сумм и т. д. Карты заполняются прямо на производстве, поэтому выводы, сделанные с их помощью, позволяют, в случае необходимости, произвести немедленные действия.
Существует несколько причин, по которым описанные выше методы контроля являются необходимыми, но недостаточными мероприятиями для получения конечного продукта надлежащего качества. Во-первых, контролировать необходимо не только качество конечного продукта, но и сам производственный процесс. Во-вторых, контроль отдельных показателей, без их взаимосвязи либо не обеспечивает должного качества выходной продукции, либо чрезмерно завышает производственные показатели, приводя к многочисленным ложным тревогам.
Многомерный статистический контроль (MSPC) . Производственный процесс - это сложная, многомерная система, которая характеризуется, как правило, десятками, сотнями, а то и тысячами показателей, и один человек не может одновременно отслеживать изменения каждого показателя. Возможны два решения этой проблемы. Во-первых, компьютер может сообщать оператору только о тех показателях, которые "выходят" за критическое значение. Во-вторых, можно использовать многомерные методы для составления обобщенных контрольных карт по методу главных компонент .
Многомерные методы контроля дают меньшее число ложных предупреждающих сигналов, кроме того, они являются мощным инструментом для анализа возможных внештатных ситуаций . Для того чтобы понять суть MSPC и, учитывая, что в данном подходе важную роль играет человек, его опыт, рассмотрим пример моделирования действий капитана корабля , который принимает все решения на судне и чьи указания выполняются беспрекословно.
Эффективность деятельности судоходной компании, занимающейся регулярными рейсовыми перевозками пассажиров и грузов, определяется, во-первых, точностью работы, т. е. строгостью выполнения расписания, а во-вторых, экономным использованием топлива, что напрямую зависит от квалифицированных действий капитана.
На одном из таких маршрутов достаточно продолжительное время собирались и записывались различные параметры, характеризующие процесс кораблевождения (таблица). Всего было 20 таких показателей (в таблице приведены лишь некоторые), среди них неуправляемые и управляемые переменные, а также переменные - отклики , характеризующие эффективность (качество) работы.

Порт	Неуправляемые переменные					Управляемые переменные			Отклики
	Погодные условия			Режимы движения			Результат
	Ветер	Вол- ны	Тече- ние	Число пасса- жиров	Вес груза	Обороты двигателя	Осадка судна	Диффе- рент	Расход горю- чего	Опоз- дание
Bergen	10	5	30	123	452	5000	25	10	120	0
Larvik	12	4	35	85	523	4500	40	5	150	0
Maloy	8	5	25	142	384	5000	50	0	180	-2
Volda	2	2	10	102	412	4500	20	5	190	0
Alesund	5	3	14	56	235	4000	-50	5	120	3
Molde	2	1	2	86	341	4000	-30	3	50	0
Kristiansund	1	5	3	140	120	4000	-35	5	85	-5
Trondheim	5	5	15	112	462	5000	20	8	320	0
Malm	6	6	3	50	385	4500	-25	10	105	1
Narvik	7	6	6	75	225	4500	-50	5	85	5
Namsos	8	7	5	94	302	3500	-60	3	95	-4

Математический анализ полученных данных показал, что эта система имеет не 20 степеней свободы, как можно было бы ожидать, а всего лишь 5. Иными словами, число независимых величин (не конкретных физических, а скрытых, "латентных", присущих только данной системе) меньше, чем число измеряемых характеристик. Это объясняется тем, что в системе имеются внутренние связи (корреляции) между показателями. Природа этих связей двойственна. С одной стороны, они порождаются объективными причинами - например, сила ветра и высота волны, очевидно связаны. С другой стороны, корреляции возникают и по субъективным причинам - ведь капитан не хаотично изменял значения управляемых переменных, а руководствовался определенными целями, что и приводило к появлению дополнительных достаточно жестких связей. В результате удалось построить математическую модель, зависящую от пяти латентных переменных, которая описывала поведение капитана корабля в широком диапазоне внешних условий. Если ввести в эту модель конкретные значения неуправляемых переменных, можно вычислить значения управляемых переменных, т. е. предложить капитану, какие режимы нужно выбрать, чтобы прийти в следующий пункт назначения вовремя при минимальном расходе топлива. С другой стороны, капитан и сам может ввести в систему значения управляемых параметров, чтобы получить оценку своих предполагаемых действий, например, узнать, сколько топлива он затратит.
Почему же удалось построить эту модель? Модель поведения этого капитана, управляющего этим кораблем в этих условиях, удалось построить только потому, что изучалась целенаправленная деятельность опытного капитана. Именно поэтому у изучаемой системы в результате оказалось не так уж много внутренних степеней свободы. Если бы вместо опытного капитана посадить, например, ребенка, который бы хаотично дергал за ручки и менял управляемые параметры, никакой модели создать бы не удалось, так как система не содержала бы в себе внутреннюю логику и число степеней свободы у нее было бы огромным. В то же время приходилось уговаривать капитана совершать подчас неразумные, с его точки зрения, действия, например, выходить дальше, чем обычно в открытое море, выбирать неправильный дифферент корабля и т. п. Такие данные необходимы для того, чтобы изучить поведение системы в максимально широком диапазоне условий - только тогда построенная модель будет адекватно описывать исследуемую систему.
Практическое применение этой системы дало ощутимые результаты - вопреки изрядному скептицизму, судоходная компания получила в итоге выгоду от ее использования. При этом следует обратить внимание на следующие принципиальные моменты: во-первых, никто не задавался целью убрать капитана с корабля - ставилась задача создания системы, которая будет давать лишь рекомендации; во-вторых, для решения использовались только простые, "формальные" модели, связывающие входные и выходные переменные, и не использовались сложные физические зависимости, описывающие воздействие различных сил на корабль, траекторию движения судна и т. д. В-треть Практическое применение этой системы дало ощутимые результаты - вопреки изрядному скептицизму, судоходная компания получила в итоге выгоду от ее использования. При этом следует обратить внимание на следующие принципиальные моменты: во-первых, никто не задавался целью убрать капитана с корабля - ставилась задача создания системы, которая будет давать лишь рекомендации; во-вторых, для решения использовались только простые, "формальные" модели, связывающие входные и выходные переменные, и не использовались сложные физические зависимости, описывающие воздействие различных сил на корабль, траекторию движения судна и т. д. В-третьих, не ставилась задача построения универсальной модели, описывающей действия любого капитана на любом судне, - речь шла лишь о вполне конкретном классе судов, курсирующих по определенному маршруту.
Нам кажется, что разобранный пример, при всей своей экзотичности, удачно иллюстрирует основную идею MSPC. Действительно, цель капитана - это достижение стандарта, т. е. прибытие в каждый порт вовремя при минимуме затрат, т. е. расхода топлива. Действия капитана, по сути, не сильно отличаются от действия технолога: есть неуправляемые, управляемые и выходные показатели, характеризующие режимы работы системы.
Зачем нужен MSPC? Это реальная альтернатива затратным методам повышения качества в условиях, когда предприятие не может купить новое оборудование, не имеет входное сырье со стабильными свойствами, не может установить дорогие контрольные приборы. Что же предлагает MSPC? Изучать, обобщать и использовать свой собственный опыт в обычных условиях, на имеющемся оборудовании и с имеющемся сырьем. Этот подход можно сформулировать очень кратко, используя популярный теперь стиль слоганов.
Цель. Научиться у самих себя принимать правильные решения в различных ситуациях.
Средства. Регулярный сбор реальных показателей и их математический анализ.
Результат. Качество при снижении затрат на стабильном производстве.
Надо отметить, что MSPC - это не конкретная компьютерная программа, которую надо лишь купить и установить на предприятии. Это определенный подход, можно даже сказать, философия, требующая совместных усилий с одной стороны - специалистов, работающих на конкретном предприятии и хорошо знающих технологический процесс и его узкие места, а с другой - математиков, владеющих методами, позволяющими решать такого рода задачи. При этом в область совместной деятельности входят: постановка задачи, определение и сбор показателей, тестирование построенных моделей на производстве.
Для того чтобы понять существо некоторой системы или процесса, необходимо проводить измерения и сбор данных . Учитывая, что многомерный анализ данных вообще и MSPC в частности основываются не на функциональных (содержательных) моделях, а на формальном моделировании данных, вопрос о том, какие данные собирать, требует отдельного рассмотрения. Остановимся лишь на отдельных принципиальных моментах.
Все начинается с проведения большого числа измерений, т. е. со сбора данных (см. таблицу). В таблице каждый столбец содержит все значения одной переменной, а каждая строка (называемая образцом ) - значения всех переменных для одного образца. Образцом может считаться и момент времени, и номер партии, и имя клиента, т. е. любое событие, характерное для исследуемой системы. Так, в рассмотренном примере образец - это перегон между двумя портами курса корабля.
Переменной может быть любая величина, характеризующая функционирование системы. Например, кислотность производимого напитка можно измерять количественно (pH ), а можно определять качественно ("сладкий", "полусладкий" и т. п.).
Собранные в таблицу необходимые данные еще не означают, что мы изучили явление, так как эту таблицу нужно проанализировать с помощью соответствующих методов, чтобы извлечь систематическую информацию. Если переменных немного, например две или три, то провести анализ можно традиционными методами, строя графики для двух- и трехмерных данных (рис. 1, 2). Как только таких показателей становится много, то необходимо применять многомерный анализ данных, который и лежит в основе MSPC.

Важно понимать, что исходные данные всегда содержат как существенную информацию, которую называют сигналом , так и случайную, которую называют шумом . Под шумом, в первую очередь, понимают ошибки измерений, индивидуальные особенности измеряемых образцов, ошибки моделирования и т. д. В рассматриваемом подходе к шуму относят также и систематическую информацию, не имеющую отношения к изучаемому процессу. Разделение данных на сигнал и шум - это центральная проблема моделирования, решение которой состоит в их правильном балансе . С одной стороны, нельзя занизить уровень шума, т. е. излишне детализировать модель, так как в этом случае модель станет неустойчивой. С другой стороны, завышая шум, мы теряем содержательную часть данных, и модель лишается прогнозирующей силы. Методы многомерного анализа данных, во-первых, позволяют сравнительно просто управляться с большими массивами, а во-вторых, разделять сигнал и шум.
Для того чтобы построить модель, не только адекватно функционирующую в узком диапазоне условий, а способную моделировать различные процессы, например, при использовании сырья различного качества, необходим максимально широкий опыт. Неудачный опыт, выпуск брака нельзя выбрасывать из данных, так как эта информация тоже необходима для построения модели. Не надо проводить предварительный отбор образцов или переменных, выбирая из них наиболее существенные - это решается в процессе анализа системы. Переменные часто связаны между собой, и основная информация - сигнал - содержится как раз в этой самой системе связей. Если часть данных по какой-либо причине отбрасывается, то при этом мы рискуем потерять важную информацию.
Конечно, модель (сколь бы сложной она ни была) никогда не будет абсолютно точной. Но хорошая модель является эффективным инструментом для понимания, а значит, и для управления процессом. Для построения такой модели необходимы информативные и доброкачественные данные.
Вернемся к схеме, характеризующей четыре уровня контроля качества. На примере с капитаном корабля мы видели, что наличие первого, интуитивно-экспертного уровня, является необходимым условием построения модели MSPC. Второй, описательный уровень тоже необходим, хотя, возможно, не в масштабе всего предприятия, а только для регламентирования процедуры сбора данных, описание должно исчерпывающе отвечать на следующие вопросы: что и когда измерять; кто производит измерения; в каком виде хранятся результаты. Третий уровень контроля - статистический мониторинг - дает ответы на все эти вопросы и подготавливает переход к MSPC, для которого нужно еще совсем немного - применить к имеющимся данным многомерный математический анализ, в основе которого лежит проекционный подход.
Опишем MSPC с точки зрения производственника и не будем отвлекаться на несущественные математические подробности, которые можно найти, например, в , а постараемся передать суть проекционного подхода, используя геометрическую интерпретацию.
Начнем с простейшего примера: когда в системе имеются всего две измеряемые переменные, тогда собранные данные можно изобразить на плоскости (см. рис. 1). Каждой строке исходной таблицы (т. е. образцу) соответствует точка на плоскости переменных с соответствующими координатами. Введем новую ось (первый главный компонент - ГК1) так, чтобы вдоль нее происходило максимальное изменение данных, и спроецируем все точки на эту новую ось. Если предположить идеальную ситуацию, при которой значения сигнала расположены вдоль этой прямой, а разброс обусловлен шумом, то, проецируя исходные данные на ось ГК1, мы выделяем содержательную структуру данных и описываем ее всего одной новой переменной. А оставшуюся часть данных, которая не объясняется этим описанием, - расстояние от точки до новой оси - можно считать шумом. Этот шум можно анализировать дальше, ища в нем содержательную часть - второй главный компонент и т. д. до тех пор, пока шум уже не станет действительно шумом, т. е. случайным хаотическим набором величин.
В общем случае процесс проецирования проходит следующие этапы (см. рис. 2):
1) находится центр облака данных, и туда переносится новое начало координат - это нулевой главный компонент (ГК0);
2) выбирается направление максимального изменения данных - это первый главный компонент (ГК1);
3) если данные описаны не полностью (шум велик), то выбирается еще одно направление (ГК2) - перпендикулярное к первому, чтобы описать оставшееся изменение в данных и т. д.
В результате метод главных компонент представляет образцы в новом пространстве меньшей размерности. При этом не просто одна система координат заменяется другой, но и снижается уровень шума (т. е. влияния различных посторонних факторов) на систему. На рис. 2 показано уменьшение размерности системы с трех до двух, что не является существенным понижением размерности. Часто происходит уменьшение на порядки, например, с 300 исходных переменных до 3-5 главных компонент.
Пример контроля производственного процесса , построенный по данным, полученным на реальном химическом предприятии, но несколько упрощенный для иллюстративных целей. В течение некоторого времени исследовался технологический процесс (53 состояния системы - образца), который отслеживали 17 датчиков (переменных). Для каждого показателя были заданы верхняя и нижняя границы допустимых значений. Согласно SPC-подходу, у каждой переменной имеется своя контрольная карта (рис. 3). При выходе показателя за критический уровень оператору поступает предупреждающий сигнал.

Если бы переменных было мало, то такой подход не создавал бы проблем. Однако контролировать одновременно динамику изменения всех (в данном случае 17) переменных оператору трудно (рис. 4).

Простейший анализ позволяет сделать очевидные преобразования исходных данных:
1) сдвинуть каждую переменную так, чтобы среднее значение было равно нулю;
2) нормализовать каждую переменную так, чтобы привести их к общему критическому уровню, например + 1.
Подобные нехитрые преобразования, называемые в методе MSPC подготовкой данных , позволяют значительно упростить визуальное восприятие информации о процессе.
В результате оператор будет видеть на экране картинку, отражающую состояние системы в определенный момент времени (нормализованные показания датчиков), которую уже легко контролировать (рис. 5). На ней значение каждой нормализованной переменной изображается столбиком диаграммы, высота которого меняется в ходе процесса. Здесь уже хорошо заметно, как далеко находится каждый показатель от критических уровней.

Однако такое преобразование не решает другую важную проблему, возникающую при контроле большого числа показателей, - как реагировать на предупреждающие сигналы. Среди 17 измеряемых переменных имеется несколько управляемых переменных. Если одна из них приближается к верхнему критическому уровню, то естественно ее уменьшить, если к нижнему - то увеличить. А как быть с неуправляемыми переменными, значения которых нельзя менять непосредственно? Здесь помогает то, что все показатели в системе связаны между собой. Например, чем выше температура, тем выше давление и т. п. Поэтому оператор может косвенно изменять неуправляемые переменные через регулирование управляемых. Вообще говоря, в подобных сложных системах, пронизанных внутренними связями, каждое действие оператора вызывает одновременное изменение всех показателей, причем не всегда желательное. В идеале для достижения требуемого результата необходимо строго дозированно менять значения всех контролируемых переменных одновременно, что практически невозможно. Отсюда возникают ошибки, приводящие к браку.
Наличие внутренних связей при обычном подходе к задаче управления вызывает проблемы, а для MSPC - это, наоборот, благо. При его применении используются проекционные методы, позволяющие выделить обобщенные латентные переменные в системе. Так, в рассматриваемом примере оказалось, что его можно описать всего двумя главными компонентами. На рис. 6 изображены проекции всех 53 измеренных состояний системы (образцов) на плоскость двух главных компонент.

При этом уровень шума, т. е. доля необъясненных данных, равна всего 4%. Это означает, что каждое наблюдение - строка из 17 чисел - может быть восстановлено по двум значениям проекций на оси главных компонент с относительной точностью не хуже, чем 0,04. Кроме того, удалось установить однозначную связь между выходом значения какого-либо датчика за контрольный уровень и выходом точки на плоскости ГК за границы критического эллипса (см. рис. 6). Теперь оператор может следить за изменением положения точки, характеризующей состояние системы, на плоскости, что, разумеется, значительно проще.
Значительно упрощается и проблема управления. Оператор может управлять уже всего двумя "латентными" переменными, регулируя их при необходимости. При этом происходит одновременное синхронное изменение всех исходных, "физических" переменных. Между прочим, такой прием используется в неявном виде во многих сложных бытовых приборах, например в телевизионных приемниках, где пользователь имеет в своем распоряжении ограниченное число кнопок-регуляторов, управляющих большим числом физических, скрытых от него переменных. Для того чтобы такая система управления была удобна и эффективна, ее сначала необходимо настроить. Этот процесс носит название калибровки (или градуировки ) - по аналогии с процедурой настройки измерительных приборов - поэтому многомерный анализ данных называют еще и многомерной калибровкой .
Прежде чем практически использовать построенную в ходе калибровки математическую модель, ее подвергают процедуре проверки , т. е. необходимо убедиться в том, что она способна правильно предсказывать состояния системы. Для этого измеряют и собирают новые (проверочные) данные об исследуемом процессе и используют построенную модель для предсказания этих значений. Если предсказанные величины незначительно отличаются от измеренных, то считают, что модель прошла проверку и может использоваться на практике. Если нет, то нужно проводить новую, уточняющую калибровку. Часто свойства моделируемой системы могут измениться резко (переход на новое сырье) или постепенно (износ оборудования). В этом случае построенная ранее модель становится непригодной и должна уточняться. При такой постановке задача MSPC является не одномоментной акцией, а целевой программой анализа и совершенствования качества работы предприятия.
В последнее десятилетие MSPC широко используется в мире в разнообразных областях промышленности для таких непрерывных процессов, как, например:
контроль и прогнозирование качества газетной бумаги в зависимости от состава исходного сырья ;
контроль качества производства меди и анализ состава примесей ;
контроль качества бензина .
Кроме того, MSPC применяется и в случаях, когда процесс состоит из отдельных стадий, и для получения качественной продукции необходимо контролировать кинетику процессов внутри одной или нескольких стадий, например:
контроль производства пекарских дрожжей ;
контроль процесса полимеризации при производстве полиэтилена низкой плотности .
Выводы. MSPC - современный подход, используемый во всем мире для наблюдения за производственными процессами, улучшения их функционирования, повышения качества продукции и разработки новых технологий и продуктов. Математическое моделирование, применяемое в MSPC, основывается не на построении сложных физических (химических и т. п.) моделей, а на простом анализе входных и выходных данных. Процедура применения MSPC проходит через следующие основные стадии:
1) постановка задачи, построение плана наблюдений;
2) мониторинг процесса, сбор данных;
3) анализ данных, установление скрытых связей между показателями;
3) построение и проверка модели;
4) практическое применение модели для решения текущих задач;
5) анализ практики применения и корректировка модели.
Последние две стадии не являются одноразовыми, а должны применяться постоянно для достижения оптимальных производственных результатов.
MSPC представляет состояние производственного процесса в простой и наглядной форме и является логическим продолжением и развитием стандартных методов статистического контроля процессов. Этот подход позволяет добиваться устойчивых результатов даже на устаревшем оборудовании и при нестабильном качестве сырья. Возвращаясь к классификации уровней контроля качества, приведенной в начале статьи, можно заметить, что MSPC, в каком-то смысле, "замыкает круг", возвращая производство к исходному "патриархальному" контролю, но на качественно и количественно ином системном уровне. Ни для кого не секрет, что интуитивно-экспертный контроль производства (бабушка на своей кухне) может дать высочайшее качество, не сравнимое с поточным производством. Используя MSPC, можно обобщить и математически формализовать индивидуальный, бесценный опыт каждого специалиста и тем самым распространить его на массовые производственные процессы. Нам кажется, что Россия с ее многочисленными опытными специалистами, способными обеспечивать стабильное производство в нестабильных условиях, является уникальным объектом для применения этого подхода. Именно здесь он должен принести наиболее впечатляющие результаты, тем более что затраты, связанные с внедрением MSPC, значительно ниже, чем, скажем, закупка нового оборудования.

СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ
1. Shewhart W.A. Economic Control of Quality of Manufactured Product. - Van Nostrand, New York, 1931.
2. MacGregor J., Kourti Th. Statistical process Control of Multivariate Processes // Control Engineering Practice, 1995 (3), Р. 403-413.
3. Kourti Th., MacGregor J. Recent Developments in Multivariate SPC Methods for Monitoring and Diagnosing Process and Product Performance // J. of Quality Technology. 1996 28 (4), P. 309-323.
4. Hцskuldsson A. Prediction Methods in science and technology. Thor publishing, Denmark 1996.
5. Eriksson L., Johansson E., Kettaneh-Wold N., Wold S. Multi- and Megavariate Data Analysis, Umetrics AB, Umea, 2001.
6. Esbensen K.H. Multivariate Data Analysis - In Practice 4-th Ed., CAMO, 2000.
7. Martens H. and Nжs T. Multivariate calibration, John Wiley & Sons, Chichester, 1989.
8. INFOMetrix Newsletter 11-4/91. Rating octane of gasoline by Near Infrared Spectroscopy. Infometix, Inc. Seattle, Washington USA.
9. Kourti Th., MacGregor J. Process analysis, monitoring and diagnostics, using multivariate projection methods. Chemom. Intell. Lab. Systems. 1995 (28), Р. 3-21.

Подготовлено по материалам РИА "Стандарты и Качество"

Реляционная модель данных, которая была предложена Э.Ф. Коддом в 1970 году, и за которую десятилетие спустя он получил премию Тьюринга, служит основой современной многомиллиардной отрасли баз данных. За последние десять лет сложилась многомерная модель данных, которая используется, когда целью является именно анализ данных, а не выполнение транзакций. Технология многомерных баз данных - ключевой фактор интерактивного анализа больших массивов данных с целью поддержки принятия решения. Подобные базы данных трактуют данные как многомерные кубы, что очень удобно именно для их анализа.

Многомерные модели рассматривают данные либо как факты с соответствующими численными параметрами, либо как текстовые измерения, которые характеризуют эти факты. В розничной торговле, к примеру, покупка - это факт, объем покупки и стоимость - параметры, а тип приобретенного продукта, время и место покупки - измерения. Запросы агрегируют значения параметров по всему диапазону измерения, и в итоге получают такие величины, как общий месячный объем продаж данного продукта. Многомерные модели данных имеют три важных области применения, связанных с проблематикой анализа данных.

Хранилища данных интегрируют для анализа информации из нескольких источников на предприятии.
Системы оперативной аналитической обработки (online analytical processing - OLAP) позволяют оперативно получить ответы на запросы, охватывающие большие объемы данных в поисках общих тенденций.
Приложения добычи данных служат для выявления знаний за счет полуавтоматического поиска ранее неизвестных шаблонов и связей в базах данных.

Исследователи предложили формальные математические модели многомерных баз данных, а затем эти предложения нашли уточненное отражение в конкретном программном инструментарии, реализующем эти модели . Врезка описывает эволюцию многомерной модели данных.

Электронные таблицы и отношения

Электронные таблицы, аналогичные показанной в таблице 1, представляют собой удобный инструмент для анализа данных о продажах: какие продукты проданы, сколько совершено сделок и где. Главная таблица (pivot table) - двумерная электронная таблица с соответствующими промежуточными и итоговыми результатами, которая используется для просмотра более комплексных данных путем вложения нескольких измерений по осям x и y и отображения данных на нескольких страницах. Главные таблицы, как правило, поддерживают итеративный выбор подмножеств данных и изменение отображаемого уровня детализации.

Электронные таблицы не подходят для управления и хранения многомерных данных, поскольку они слишком жестко связывают данные с их внешним видом, не отделяя структурную информацию от желаемого представления информации. Скажем, добавление третьего измерения, такого как время, или группировка данных по обобщенным типам продуктов требует значительно более сложной настройки. Очевидное решение состоит в использовании отдельной электронной таблицы для каждого измерения. Но такое решение оправдано только в ограниченной степени, поскольку анализ подобных наборов таблиц быстро становится чересчур громоздким.

Использование баз данных, поддерживающих SQL, значительно увеличивает гибкость обработки структурированных данных. Однако сформулировать многие вычисления, такие как совокупные показатели (объем продаж за год к текущему моменту), сочетание итоговых и промежуточных результатов, ранжирование, например, определение десяти самых продаваемых продуктов, посредством стандартного варианта SQL весьма сложно, если вообще возможно. При перестановке строк и столбцов необходимо вручную специфицировать и комбинировать различные представления. Расширения SQL, такие как оператор кубов данных и окна запросов частично решают эти задачи, в целом чистая реляционная модель не позволяет на приемлемом уровне работать с иерархическими измерениями.

Электронные таблицы и реляционные базы данных адекватно обрабатывают массивы данных, которые имеют незначительное число измерений, но они не полностью отвечают требованиям углубленного анализа данных. Решение же состоит в том, чтобы использовать технологию, которая предусматривает поддержку полного спектра средств многомерного моделирования данных.

Кубы

Многомерные базы данных рассматривают данные как кубы, которые являются обобщением электронных таблиц на любое число измерений. Кроме того, кубы поддерживают иерархию измерений и формул без дублирования их определений. Набор соответствующих кубов составляет многомерную базу данных (или хранилище данных).

Кубами легко управлять, добавляя новые значения измерений. В обычном обиходе этим термином обозначают фигуру с тремя измерениями, однако теоретически куб может иметь любое число измерений. На практике чаще всего кубы данных имеют от 4 до 12 измерений . Современный инструментарий часто сталкивается с нехваткой производительности, когда так называемый гиперкуб имеет свыше 10-15 измерений.

Комбинации значений измерений определяют ячейки куба. В зависимости от конкретного приложения ячейки в кубе могут располагаться как разрозненно, так и плотно. Кубы, как правило, становятся разрозненными по мере увеличения числа размерностей и степени детализации значений измерений.

На рис. 1 показан куб, содержащий данные по продажам в двух датских городах, указанных в таблице 1 с дополнительным измерением - «Время». В соответствующих ячейках хранятся данные об объеме продаж. В примере можно обнаружить «факт» - непустую ячейку, содержащую соответствующие числовые параметры - для каждой комбинации время, продукт и город, где была совершена, по крайней мере, одна продажа. В ячейке размещаются числовые значения, связанные с фактом - в данном случае, это объем продаж - единственный параметр.

В общем случае куб позволяет представить только два или три измерения одновременно, но можно показывать и больше за счет вложения одного измерения в другое. Таким образом, путем проецирования куба на двух- или трехмерное пространство можно уменьшить размерность куба, агрегировав некоторые размерности, что ведет к работе с более комплексными значениями параметров. К примеру, рассматривая продажи по городам и времени, мы агрегируем информацию для каждого сочетания город и время. Так, на рис. 1, сложив поля 127 и 211, получаем общий объем продаж для Копенгагена в 2001 году.

Измерения

Измерения - ключевая концепция многомерных баз данных. Многомерное моделирование предусматривает использование измерений для предоставления максимально возможного контекста для фактов . В отличие от реляционных баз данных, контролируемая избыточность в многомерных базах данных, в общем, считается оправданной, если она увеличивает информационную ценность. Поскольку данные в многомерный куб часто собираются из других источников, например, из транзакционной системы, проблемы избыточности, связанные с обновлениями, могут решаться намного проще. Как правило, в фактах нет избыточности, она есть только в измерениях.

Измерения используются для выбора и агрегирования данных на требуемом уровне детализации. Измерения организуются в иерархию, состоящую из нескольких уровней, каждый из которых представляет уровень детализации, требуемый для соответствующего анализа.

Иногда бывает полезно определять несколько иерархий для измерения. Например, модель может определять время как в финансовых годах, так и в календарных. Несколько иерархий совместно используют один или несколько общих, самых низких уровней, например, день и месяц, и модель группирует их в несколько более высоких уровней - финансовый квартал и календарный квартал. Чтобы избежать дублирования определений, метаданные многомерной базы данных определяют иерархию измерений.

На рис. 2 показана схема «Местоположение» для данных продаж из таблицы 1. Из трех уровней измерений местоположения самый низкий - «Город». Значения уровня «Город» группируются в значения на уровне «Страна», к примеру, Аалборг и Копенгаген находятся в Дании. Уровень T представляет все измерения.

В некоторых многомерных моделях уровень имеет несколько связанных свойств, которые содержат простую, неиерархическую информацию. Например, «Размер пакета» может быть свойством уровня в измерении «Продукт». Измерение «Размер пакета» может также получать эту информацию. Использование механизма свойств не приводит к увеличению числа измерений в кубе.

В отличие от линейных пространств, с которыми имеет дело алгебра матриц, многомерные модели, как правило, не предусматривают функций упорядочивания или расстояния для значений измерения. Единственное «упорядочивание» состоит в том, что значения более высокого уровня содержат значения более низких уровней. Однако для некоторых измерений, таких как время, упорядоченность значений размерности может использоваться для вычисления совокупной информации, такой как общий объем продаж за определенный период. Большинство моделей требуют определения иерархии измерений для формирования сбалансированных деревьев - иерархии должны иметь одинаковую высоту по всем ветвям, а каждое значение не корневого уровня - только одного родителя.

Факты

Факты представляют субъект - некий шаблон или событие, которые необходимо проанализировать. В большинстве многомерных моделей данных факты однозначно определяются комбинацией значений измерений; факт существует только тогда, когда ячейка для конкретной комбинации значений не пуста. Однако некоторые модели трактуют факты как «объекты первого класса» с особыми свойствами. Большинство многомерных моделей также требуют, чтобы каждому факту соответствовало одно значение на более низком уровне каждого измерения, но в некоторых моделях это не является обязательным требованием .

Каждый факт обладает некоторой гранулярностью, определенной уровнями, из которых создается их комбинация значений измерений. Например, гранулярность факта в кубе, представленном на рис. 1 - это (Год x Продукт x Город). (Год x Тип x Город) и (День x Продукт x Город) - соответственно более грубая и более тонкая гранулярности.

Хранилища данных, как правило, содержат следующие три типа фактов .

События (event), по крайней мере, на уровне самой большой гранулярности, как правило, моделируют события реального мира, при этом каждый факт представляет определенный экземпляр изучаемого явления. Примерами могут служить продажи, щелчки мышью на Web-странице или движение товаров на складе.
Мгновенные снимки (snapshot) моделируют состояние объекта в данный момент времени, такие как уровни наличия товаров в магазине или на складе и число пользователей Web-сайта. Один и тот же экземпляр явления реального мира, например, конкретная банка бобов, может возникать в нескольких фактах.
Совокупные мгновенные снимки (cumulative snapshot) содержат информацию о деятельности организации за определенный отрезок времени. Например, совокупный объем продаж за предыдущий период, включая текущий месяц, можно легко сравнить с показателями за соответствующие месяцы прошлого года.

Хранилище данных часто содержит все три типа фактов. Одни и те же исходные данные, например, движение товаров на складе, могут содержаться в трех различных типах кубов: поток товаров на складе, список товаров и поток за год к текущей дате.

Параметры

Параметры состоят из двух компонентов:

численная характеристика факта, например, цена или доход от продаж;
формула, обычно простая агрегативная функция, скажем, сумма, которая может объединять несколько значений параметров в одно.

В многомерной базе данных параметры, как правило, представляют свойства факта, который пользователь хочет изучить. Параметры принимают различные значения для разных комбинаций измерений. Свойство и формула выбираются таким образом, чтобы представлять осмысленную величину для всех комбинаций уровней агрегирования. Поскольку метаданные определяют формулу, данные, в отличие от случая электронных таблиц, не тиражируются.

При вычислениях три различных класса параметров ведут себя совершенно по-разному.

Аддитивные параметры могут содержательным образом комбинироваться в любом измерении. Например, имеет смысл суммировать общий объем продаж для продукта, местоположения и времени, поскольку это не вызывает наложения среди явлений реального мира, которые генерируют каждое из этих значений.
Полуаддитивные параметры, которые не могут комбинироваться в одном или нескольких измерениях. Например, суммирование запасов по разным товарам и складам имеет смысл, но суммирование запасов товаров в разное время бессмысленно, поскольку одно и то же физическое явление может учитываться несколько раз.
Неаддитивные параметры не комбинируются в любом измерении, обычно потому, что выбранная формула не позволяет объединить средние значения низкого уровня в среднем значении более высокого уровня.

Аддитивные и неаддитивные параметры могут описывать факты любого рода, в то время как полуаддитивные параметры, как правило, используются с мгновенными снимками или совокупными мгновенными снимками.

Запросы

Многомерная база данных естественным образом предназначена для определенных типов запросов.

Запросы вида slice-and-dice осуществляют выбор, сокращающий куб. К примеру, можно рассмотреть сечение куба на рис. 1, приняв во внимание только те ячейки, которые касаются хлеба, а затем еще больше сократить его, оставив ячейки, относящиеся только к 2000 году. Фиксация значения измерения сокращает размерность куба, но при этом возможны и более общие операции выбора.
Запросы вида drill-down и roll-up - взаимообратные операции, которые используют иерархию измерений и параметры для агрегирования. Обобщение до высших значений соответствует исключению размерности. Например, свертка от уровня «Город» до уровня «Страна» на рис. 2 агрегирует значения для Аалборга и Копенгагена в одно значение - Дания.
Запросы вида drill-across комбинируют кубы, которые имеют одно или несколько общих измерений. С точки зрения реляционной алгебры такая операция выполняет слияние (join).
Запросы вида ranking возвращает только те ячейки, которые появляются в верхней или нижней части упорядоченного определенным образом списка, например, 10 самых продаваемых продуктов в Копенгагене в 2000 году.
Поворот (rotating) куба дает пользователям возможность увидеть данные, сгруппированные по другим измерениям.

Реализация

Многомерные базы данных реализуют в двух основных формах.

Системы многомерной оперативной аналитической обработки (MOLAP) хранят данные в специализированных многомерных структурах. Системы MOLAP, как правило, содержат средства для обработки разреженных массивов и применяют усовершенствованную индексацию и хеширование для поиска данных при выполнении запросов .
Реляционные системы OLAP (ROLAP) для хранения данных используют реляционные базы данных, а также применяют специализированные индексные структуры, такие как битовые карты, чтобы добиться высокой скорости выполнения запросов.

Системы MOLAP, как правило, позволяют добиться более эффективного использования дискового пространства, а также меньшего времени ответов при обработке запросов.

Сокращение времени ответа при обработке запросов

Самые важные методы увеличения производительности в многомерных базах данных - это предвычисления (precomputation). Их специализированный аналог - предагрегирование (preaggregation), которое позволяет сократить время ответа на запросы, охватывающие потенциально огромные объемы данных, в степени, достаточной для проведения интерактивного анализа данных.

Вычисление и сохранение, или «материализация», сводных объемов продаж по странам и месяцам, - пример предагрегирования. Такой подход позволяет быстро получать ответы на запросы, касающиеся общего объема продаж, к примеру, в одном месяце, в одной стране или по кварталу и стране одновременно. Эти ответы можно получить из предварительно вычисленных данных и нет необходимости обращаться к информации, размещенной в хранилище данных.

Современные коммерческие реляционные базы данных, а также специализированные многомерные системы, содержат средства оптимизации запросов на основе предварительно вычисленных агрегатов (aggregate) и автоматического перевычисления хранимых агрегатов при обновлении базовых данных .

Полное предагрегирование - материализация всех сочетаний агрегатов - невозможно, поскольку требует слишком большого дискового пространства и времени на предварительные вычисления. Вместо этого современные системы OLAP следуют более практическому подходу к предагрегированию, материализуя только избранные комбинации агрегатов, а затем используя их для более эффективного вычисления других агрегатов . Повторное использование агрегатов требует поддержания корректной многомерной структуры данных.

Литература

R. Winter, «Databases: Back in the OLAP Game», Intelligent Enterprise Magazine, vol. 1, no. 4, 1998
E. Thomsen, G. Spofford, D. Chase, Microsoft OLAP Solutions, John Wiley & Sons, New York, 1999

Torben Bach Pedersen, Christian S. Jensen, Multidimensional Database Technology. IEEE Computer, December 2001. Copyright IEEE Computer Society, 2001. All rights reserved. Reprinted with permission.

Страницы 513-523

Многомерные процессы

До сих пор мы рассматривали модели, которые состоят только из одного соотношения, связывающего временные ряды. При этом мы выбирали одну из переменных в качестве эндогенной, а остальные переменные являлись экзогенными. Такое разделение не всегда является естественным, часто приходится рассматривать одновременно несколько соотношений, в которые одни и те же переменные входят и как эндогенные, и как экзогенные. Как видно из прошлой лекции, переменная не всегда может рассматриваться как экзогенная, и мы фактически должны рассматривать модель DGP, состоящую из нескольких уравнений. Это означает моделирование нескольких временных рядов одновременно, другими словами - моделирование многомерного случайного процесса.

Начнем с определении. Рассмотрим вектор =(х t 1 ,х t 2 ,...,х t k) T , каждая компонента которого является временным рядом. верхним индексом будем обозначать номер компоненты, а нижним по-прежнему - момент времени. распределение компонент характеризуется семейством совместных плотностей распределения вида: f n (х t1 i1 ,х t2 i2 ,..., х tn in )‚ n=1‚2,.... Условием стационарности в узком смысле по-прежнему является независимость от сдвига во времени всего семейства совместных плотностей распределения. Только теперь кроме всевозможных комбинаций значений случайного процесса в различные моменты времени аргументами плотностей вероятности также являются всевозможные комбинации различных компонент в различные моменты времени. Например, для двухмерной плотности получаем из условия стационарности: f 2 (х t 1 ,х t 2 ) = f 2 (х 1 t + r , х 2 t + r ) для любого τ. Совместное распределение компонент для одного и того же момента времени не зависит от времени. Рассмотрим другую функцию распределения, например трехмерную, в которую входят значения первой компоненты в два разных момента времени и второй компоненты в некоторый третий момент времени. Стационарность означает, чтоf 3 (х t 1 ,х t + h 1 ,х t + s 2 ) = f 3 (х 1 t + τ , х 2 t + s + τ ) . Можно сказать, что это свойство инвариантности к сдвигу во времени. То есть, если к каждому моменту времени прибавить величину τ, то функция плотности не изменится. Понятно, что стационарность многомерного процесса влечет за собой стационарность каждой из его компонент.

Как и в одномерном случае, стационарность в узком смысле влечет за собой ряд свойств характеристик случайных процессов. Прежде всего, начнем с математического ожидания. Математическое ожидание для каждой компоненты не зависит от других компонент. Поэтому если многомерный процесс стационарен, математическое ожидание каждой компоненты не зависит от времени. Вектор математических ожиданий E( не зависит от времени.

Теперь рассмотрим моменты второго порядка. Каждая компонента характеризуется дисперсией и автокорреляционной функцией. Если одномерный ряд стационарен, его автокорреляционная и автоковариационная функции зависят только от сдвига τ: Corr(τ) = Corr(х t i ,х j t + r ) = р i (τ), однако теперь можно рассмотреть второй смешанный момент для различных компонент, а также Corr(х t i ,х j t + r ). Такую величину естественно назвать кросс-корреляционной функцией. Если компоненты образуют многомерный стационарный процесс, то кросс-корреляция будет функцией сдвига во времени τ. Обозначим эту функцию R ij (τ) . Довольно очевидно, что R ij (τ) = R ji (- τ) . При фиксированном значении τ элементы R ij (τ) образуют матрицу R, зависящую от τ. Значению τ, равному нулю, соответствует корреляционная матрица вектора

Модуль Многомерные разведочные технологии анализа STATISTICA (один из модулей продукта STATISTICA Advanced ) предоставляет широкий выбор разведочных технологий, начиная с кластерного анализа до расширенных методов классификационных деревьев, в сочетании с огромным набором средств интерактивной визуализации для построения моделей. В состав модуля входят:

В модуле Кластерный анализ реализован полный набор методов кластерного анализа данных, включая методы k-средних, иерархической кластеризации и двухвходового объединения. Данные могут поступать как в исходном виде, так и в виде матрицы расстояний между объектами. Наблюдения, переменные или/и наблюдения, и переменные можно кластеризовать, используя различные меры расстояния (евклидово, квадрат евклидова, городских кварталов (манхэттеновское), Чебышева, степенное, процент несогласия и 1-коэффициент корреляции Пирсона) и различные правила объединения (связывания) кластеров (одиночная, полная связь, невзвешенное и взвешенное попарное среднее по группам, невзвешенное, взвешенное расстояние между центрами, метод Варда и другие).

Матрицы расстояний можно сохранять для дальнейшего анализа в других модулях системы STATISTICA . При проведении кластерного анализа методом k-средних пользователь имеет полный контроль над начальным расположением центров кластеров. Могут быть выполнены чрезвычайно большие планы анализа: так, например, при иерархическом (древовидном) связывании можно работать с матрицей из 90 тыс. расстояний. Помимо стандартных результатов кластерного анализа, в модуле доступен также разнообразный набор описательных статистик и расширенных диагностических методов (полная схема объединения с пороговыми уровнями при иерархической кластеризации, таблица дисперсионного анализа при кластеризации методом k-средних). Информация о принадлежности объектов к кластерам может быть добавлена к файлу данных и использоваться в дальнейшем анализе. Графические возможности модуля Кластерный анализ включают настраиваемые дендрограммы, двухвходовые диаграммы объединений, графическое представление схемы объединения, диаграмму средних при кластеризации по методу k-средних и многое другое.

Модуль Факторный анализ содержит широкий набор статистик и методов факторного анализа (а также иерархического факторного анализа) с расширенной диагностикой и большим многообразием исследовательских и разведочных графиков. Здесь можно выполнять анализ (общий и иерархический косоугольный) главных компонент и главных факторов для наборов данных, содержащих до 300 переменных (модели большего объема можно исследовать средствами модуля (SEPATH)).

Анализ главных компонент и классификация

STATISTICA также включает программу для анализа главных компонент и классификации. Выходные результаты этой программы - собственные значения (обычные, кумулятивные и относительные), нагрузки факторов и коэффициенты факторных баллов (которые можно добавить к файлу входных данных, просмотреть на пиктографике и в интерактивном режиме перекодировать), а также некоторые более специальные статистики и диагностики. В распоряжении пользователя имеются следующие методы вращения факторов: варимакс, биквартимакс, квартимакс и эквимакс (по нормализованным либо первоначальным нагрузкам), а также косоугольные вращения.

Пространство факторов можно визуально просматривать "срез за срезом" на двух- или трехмерных диаграммах рассеяния с отмеченными точками данных; среди других графических средств - графики "каменистой осыпи", различные типы диаграмм рассеяния, гистограммы, линейные графики и др. После того, как факторное решение определено, пользователь может вычислить (воспроизвести) корреляционную матрицу и оценить согласованность факторной модели путем анализа остаточной корреляционной матрицы (или остаточной дисперсионной/ковариационной матрицы). На входе можно использовать как исходные данные, так и матрицы корреляций. Подтверждающий факторный анализ и другие, связанные с ним виды анализа, могут быть выполнены средствами модуля Моделирование структурными уравнениями (SEPATH) из блока STATISTICA Общие Линейные и Нелинейные Модели , где специальный Мастер подтверждающего факторного анализа проведет пользователя через все этапы построения модели.

В этом модуле реализован полный набор методов канонического анализа (дополняющий методы канонического анализа, встроенные в другие модули). Работать можно как с файлами исходных данных, так и с корреляционными матрицами; вычисляются все стандартные статистики канонической корреляции (собственные векторы и собственные значения, коэффициенты избыточности, канонические веса, нагрузки, дисперсии, критерии значимости для каждого из корней и др.), а также некоторые расширенные диагностики. Для каждого наблюдения могут быть вычислены значения канонических переменных, которые затем можно просмотреть на встроенных пиктографиках (а также добавить к файлу данных).

Этот модуль включает широкий набор процедур для разработки и оценки выборочных исследований и опросных листов. Как и во всех модулях системы STATISTICA , здесь могут быть проанализированы чрезвычайно большие массивы данных (за одно обращение к программе может быть обработана шкала, состоящая из 300 позиций).

Имеется возможность вычислять статистики надежности для всех позиций шкалы, интерактивно выбирать подмножества и проводить сравнение между подмножествами позиций методом разбиения пополам ("split-half") или на две части ("split-part"). За одно обращение можно оценить надежность суммарной шкалы и подшкал. При интерактивном удалении позиций надежность результирующей шкалы вычисляется мгновенно без повторного обращения к файлу данных. В качестве результатов анализа выдаются: корреляционные матрицы и описательные статистики для позиций, альфа Кронбаха, стандартизованное альфа, средняя корреляция позиция-позиция, полная таблица дисперсионного анализа для шкалы, полный набор статистик, общих для всех позиций (включая коэффициенты множественной корреляции), split-half-надежность и корреляция между двумя половинками с поправкой на затухание.

Имеется большой выбор графиков (включая встроенные диаграммы рассеяния, гистограммы, линейные и другие графики) и набор интерактивных процедур что-если, помогающих при разработке шкал. Например, при добавлении некоторого количества вопросов в шкалу пользователь может вычислить ожидаемую надежность или же оценить количество вопросов, которые нужно внести в шкалу, чтобы добиться нужной надежности. Кроме того, можно внести поправку на затухание между текущей шкалой и другим измерением (при заданной надежности текущей шкалы).

Модуль системы STATISTICA содержит наиболее полную реализацию разработанных в последнее время методов эффективного построения и тестирования (метод деревьев классификации представляет собой определенный ("итерационный") способ предсказания класса, к которому принадлежит объект, по значениям предикторных переменных для этого объекта). Деревья классификации можно строить по категориальным или порядковым предикторам или смеси предикторов обоих типов посредством ветвлений по отдельным переменным или по их линейным комбинациям.

В модуле также реализованы: выбор между полным перебором вариантов ветвления (как в пакетах THAID и CART) и дискриминантным ветвлением; несмещенный выбор переменных ветвления (как в пакете QUEST); явное задание правил остановки (как в пакете FACT) или отсечение от листьев дерева к его корню (как в пакете CART); отсечение по доле ошибок классификации или по функции отклонения; обобщенные меры согласия хи-квадрат, G-квадрат и индекс Джини. Априорные вероятности принадлежности классам и цены ошибок классификации можно положить равными, оценить по данным или задать вручную.

Пользователь может также задавать кратность кросс-проверки во время построения дерева и для оценки ошибки, параметр SE-правила, минимальное число объектов в вершине отсечения, начальное число для датчика случайных чисел и параметр альфа для отбора переменных. Исследовать входные и выходные данные помогают встроенные графические средства.

Этот модуль содержит полную реализацию методов простого и многомерного анализа соответствий, в нем можно анализировать таблицы очень больших размеров. Программа воспринимает следующие типы файлов данных: файлы, содержащие категоризованные переменные, по которым строится матрица сопряженности (кросс-классификации); файлы данных, содержащие частотные таблицы (или какие-либо другие меры соответствия, связи, сходства, неупорядоченности и т. д.) и кодовые переменные, определяющие (перечисляющие) ячейки входной таблицы; файлы данных, содержащие частоты (или другие меры соответствия). Например, пользователь может непосредственно создать и проанализировать частотную таблицу. Кроме того, в случае многомерного анализа соответствий имеется возможность в качестве входных данных непосредственно задать матрицу Берта.

В процессе работы программа вычисляет различные таблицы, в том числе таблицу процентов по строкам, по столбцам и процентов от общего числа, ожидаемые значения, разности ожидаемых и наблюдаемых значений, стандартизованные отклонения и вклады в статистику хи-квадрат. Все эти статистики можно изобразить на трехмерных гистограммах и просмотреть с помощью специального метода динамического расслоения.

В модуле вычисляются обобщенные собственные значения и собственные векторы, и выдается стандартный набор диагностических величин, включающий сингулярные числа, собственные значения и долю инерции, приходящуюся на каждое измерение. Пользователь может либо сам выбрать число измерений, либо задать пороговое значение для максимального кумулятивного процента инерции.

Программа вычисляет стандартные координаты для точек-строк и точек-столбцов. Пользователь может выбрать между стандартизацией по профилям строк, по профилям столбцов, по профилям строк и столбцов или каноническую стандартизацию. Для каждой размерности и для каждой точки-строки и точки-столбца программа вычисляет величины инерции, качества и косинус**2. Дополнительно пользователь может вывести (в окно результатов) матрицы обобщенных сингулярных векторов. Как и любые данные из рабочего окна, эти матрицы доступны для обработки с помощью программ на языке STATISTICA Visual Basic, например, для использования каких-либо нестандартных методов вычисления координат.

Пользователь может вычислить координаты и соответствующие статистики (качество и косинус**2) для дополнительных точек (-столбцов или -строк) и сравнить результаты с исходными точками-строками и точками-столбцами. В многомерном анализе соответствий могут использоваться дополнительные точки. Помимо трехмерных гистограмм, которые могут быть вычислены для всех таблиц, пользователь может вывести на экран график собственных чисел, одно-, двух- и трехмерные диаграммы для точек-строк и точек-столбцов. Точки-строки и точки-столбцы могут отображаться одновременно на одной диаграмме вместе с любыми дополнительными точками (каждый тип точки использует свой цвет и уникальный маркер, так что различные точки будут легко различимы на диаграммах). Все точки имеют маркеры, и пользователь имеет возможность устанавливать размер маркера.

В модуле реализован полный набор методов (неметрического) многомерного шкалирования. Здесь можно анализировать матрицы сходства, различия и корреляций между переменными, а размерность пространства шкалирования может достигать 9. Начальная конфигурация может вычисляться программой (с помощью анализа главных компонент) или задаваться пользователем. Величина стресса и коэффициент отчуждения минимизируются с помощью специальной итерационной процедуры.

Пользователь имеет возможность наблюдать итерации и следить за изменениями этих значений. Окончательную конфигурацию можно просмотреть в таблице результатов, а также на двух- и трехмерных диаграммах рассеяния в пространстве шкал с отмеченными точками-объектами. В качестве выходных результатов выдаются: нестандартизованный стресс (F), коэффициент стресса Краскела S и коэффициент отчуждения. Уровень согласия может быть оценен с помощью диаграмм Шепарда (с величинами "d с крышкой" и "d со звездочкой"). Как и все результаты анализа в системе STATISTICA , окончательная конфигурация может быть сохранена в виде файла данных.

Модуль содержит полную реализацию методов пошагового дискриминантного анализа с помощью дискриминантных функций. STATISTICA также включает модуль Общие модели Дискриминантного анализа (GDA) для подгонки ANOVA/ANCOVA-подобных планов категориальных зависимых переменных или для выполнения различных типов анализов (например, лучший выбор предсказаний, профилирование апостериорных вероятностей).

Программа позволяет проводить анализ с пошаговым включением или исключением переменных или вводить в модель заданные пользователем блоки переменных. В дополнение к многочисленным графикам и статистикам, описывающим разделяющую (дискриминирующую) функцию, программа содержит также большой набор средств и статистик для классификации старых и новых наблюдений (для оценки качества модели). В качестве результатов выдаются: статистика лямбда Уилкса для каждой переменной, частная лямбда, статистика F для включения (или исключения), уровни значимости p, значения толерантности и квадрата коэффициента множественной корреляции. Программа выполняет полный канонический анализ и выдает все собственные значения (в непосредственном виде и кумулятивные), их уровни значимости p, коэффициенты дискриминантной (канонической) функции (в непосредственном и стандартизованном виде), коэффициенты структурной матрицы (нагрузки факторов), средние значения дискриминантной функции и дискриминантные веса для каждого объекта (их можно автоматически добавить в файл данных).

Встроенные средства графической поддержки включают: гистограммы канонических весов для каждой группы (и общие по всем группам), специальные диаграммы рассеяния для пар канонических переменных (на которых отмечено, к какой группе принадлежит каждое наблюдение), большой набор категоризованных (множественных) графиков, позволяющий исследовать распределение и взаимосвязи между зависимыми переменными для разных групп (в том числе: множественные графики типа диаграмм размаха, гистограммы, диаграммы рассеяния и нормальные вероятностные графики) и многое другое.

В модуле можно также вычислить стандартные функции классификации для каждой группы. Результаты классификации наблюдений можно вывести в терминах расстояний Махаланобиса, апостериорных вероятностей и собственно результатов классификации, а значения дискриминантной функции для отдельных наблюдений (канонические значения) можно просмотреть на обзорных пиктографиках и других многомерных диаграммах, доступных непосредственно из таблиц результатов. Все эти данные можно автоматически добавить в текущий файл данных для дальнейшего анализа. Можно вывести также итоговую матрицу классификации, где указано число и процент правильно классифицированных наблюдений. Имеются различные варианты задания априорных вероятностей принадлежности классам, а также условий отбора, позволяющих включать или исключать определенные наблюдения из процедуры классификации (например, чтобы затем проверить ее качество на новой выборке).

Общие модели дискриминантного анализа (GDA)

Модуль Общие модели дискриминантного анализа STATISTICA (GDA) является приложением и расширением Общих Линейных Моделей для классификации задач. Также как и модуль Дискриминантный Анализ , GDA позволяет выполнять обычные последовательные дискриминантные анализы. GDA представляет задачу дискриминантного анализа, как специальный случай общей линейной модели и, таким образом, предоставляет чрезвычайно полезные новые пользовательские аналитические технологии.

Также как и обычный дискриминантный анализ, GDA позволяет выбрать нужные категории зависимых переменных. В анализе группы элементов записаны в виде индикаторных переменных, и можно легко применять все методы GRM. В диалоге результатов GDA доступен широкий выбор остаточных статистик GRM и GLM.

GDA предоставляет разнообразные эффективные средства для добычи данных и прикладных исследований. GDA вычисляет все стандартные результаты дискриминантного анализа, включая коэффициенты дискриминантной функции, канонические результаты анализа (стандартизованные и необработанные коэффициенты, пошаговые тесты канонических корней и т. п.), классификационные статистики (включая, расстояние Махаланобиса, апостериорные вероятности, классификацию наблюдений в допустимых анализах, матрицы ошибочной классификации и т. п.). Для дополнительной информации об уникальных особенностях GDA

Теория случайных величин изучает вероятностные явления «в статике», рассматривая их как некоторые зафиксированные результаты экспериментов. Для описания сигналов, которые отображают развивающиеся во времени случайные явления, методы классической теории вероятностей оказываются недостаточными. Подобные задачи изучает особая ветвь математики, получившая название теории случайных процессов.

По определению, случайный процесс - это особого вида функция, характеризующаяся тем, что в любой момент времени принимаемые ею значения являются случайными величинами.

Ансамбли реализаций.

Имея дело с детерминированными сигналами, мы отображаем их функциональными зависимостями или осциллограммами. Если же речь идет о случайных процессах, то ситуация оказывается сложнее. Фиксируя на определенном промежутке времени мгновенные значения случайного сигнала, получаем лишь единственную реализацию случайного процесса. Случайный процесс представляет собой бесконечную совокупность таких реализаций, образующих статистический ансамбль. Например, ансамблем является набор сигналов , которые можно одновременно наблюдать на выходах совершенно одинаковых генераторов шумового напряжения.

Совсем необязательно, чтобы реализации случайного процесса представлялись функциями со сложным, нерегулярным во времени поведением. Часто приходится рассматривать случайные процессы, образованные, например, всевозможными гармоническими сигналами , у которых однн из трех параметров - случайная величина, принимающая определенное значение в каждой реализации. Случайный характер такого сигнала заключен в невозможности заранее, до опыта зиать значение этого параметра.

Случайные процессы, образованные реализациями, зависящими от конечного числа параметров, принято называть квазидетерминированными случайными процессами.

Плотности вероятности случайных процессов.

Пусть - случайный процесс, заданный ансамблем реализаций, - некоторый произвольный момент времени. Фиксируя величины получаемые в отдельных реализациях, осуществляем одномерное сечение данного случайного процесса и наблюдаем случайную величину Ее плотность вероятности называют одномерной плотностью вероятности процесса в момент времени

Согласно определению, величина есть вероятность того, что реализации случайного процесса в момент времени примут значения, лежащие в интервале

Информация, которую можно извлечь из одномерной плотности, недостаточна для того, чтобы судить о характере развития реализаций случайного процесса во времени. Гораздо больше сведений можно получить, располагая двумя сечениями случайного процесса в несовпадающие моменты времени Возникающая при таком мысленном эксперименте двумерная случайная величина описывается двумерной плотностью вероятности Эта характеристика случайного процесса позволяет вычислить вероятность события, заключающегося в том, что реализация случайного процесса при проходит в малой окрестности точки а при - в малой окрестности точки

Естественным обобщением является -мерное сечение случайного процесса приводящее к -мерной плотности вероятности

Многомерная плотность вероятности случайного процесса должна удовлетворять обычным условиям, налагаемым на плотность вероятности совокупности случайных величин (см. § 6.2). Помимо этого, величина не должна зависеть от того, в каком порядке располагаются ее аргументы (условие симметрии).

Иногда вместо -мерной плотности вероятности удобно пользоваться -мерной характеристической функцией, которая связана с соответствующей плотностью преобразованием Фурье:

Описание свойств случайных процессов с помощью многомерных плотностей вероятности высокой размерности может быть весьма подробным. Однако на этом пути часто встречаются серьезные математические трудности.

Моментные функция случайных процессов.

Менее детальные, но, как правило, вполне удовлетворительные в практическом смысле характеристики случайных процессов можно получить, вычисляя моменты тех случайных величин, которые наблюдаются в сечениях этих процессов. Поскольку в общем случае эти моменты зависят от временных аргументов, они получили название моментных функций.

Для статистической радиотехники наибольшее значение имеют три моментные функции низших порядков, называемые математическим ожиданием, дисперсией и функцией корреляции.

Математическое ожидание

есть среднее значение процесса X(t) в текущий момент времени ; усреднение проводится по всему ансамблю реализаций процесса.

Дисперсия

позволяет судить о степени разброса мгновенных значений, принимаемых отдельными реализациями в фиксированном сечении t, относительно среднего значения.

Двумерный центральный момент

называется функцией корреляции случайного процесса Эта моментная функция характеризует степень статистической связи тех случайных величин, которые наблюдаются при Сравнивая формулы (6.37), (6.38), заметим, что при совмещении сечений функция корреляции численно равна дисперсии:

Стационарные случайные процессы.

Так принято называть случайные процессы, статистические характеристики которых одинаковы во всех сечениях.

Говорят, что случайный процесс стационарен в узком смысле; если любая его -мерная плотность вероятности инвариантна относительно временного сдвига

Если же ограничить требования тем, чтобы математическое ожидание и дисперсия процесса не зависели от времени, а функция корреляции зависела лишь от разности - , то подобный случайный процесс будет стационарен в широком смысле. Понятно, что из стационарности в узком смысле следует стационарность в широком смысле, но не наоборот.

Как следует из определения, функция корреляции стационарного случайного процесса является четной:

Кроме того, абсолютные значения этой функции при любых не превышают ее значения при :

Метод доказательства таков: из очевидного неравенства

следует, что

откуда непосредственно вытекает неравенство (6.41).

Часто удобно использовать нормированную функцию корреляции

для которой .

Чтобы проиллюстрировать понятие стационарного случайного процесса, рассмотрим два примера.

Пример 6.5. Случайный процесс образован реализациями вида где известны заранее, в то время как фазовый угол - случайная величина, равномерно распределенная на отрезке -

Так как плотность вероятности фазового угла то математическое ожидание процесса

Аналогично можно найти дисперсию:

Наконец, функция корреляции

Итак, данный случайный процесс удовлетворяет всем условиям, которые необходимы для того, чтобы обеспечить стационарность в широком смысле.

Пример 6.6. Случайный процесс имеет реализации вида и причем - заданные числа. - случайная величина с произвольным законом распределения. Математическое ожидание

будет не зависимым от времени лишь при Поэтому в общем случае рассматриваемый случайный процесс будет нестационарным.

Свойство эргодичности.

Стационарный случайный процесс называют эргодическим, если при нахождении его моментных функций усреднение по статистическому ансамблю можно заменить усреднением по времени. Операция усреднения выполняется над единственной реализацией длительность Т которой теоретически может быть сколь угодно велика,

Обозначая усреднение по времени угловыми скобками, запишем математическое ожидание эргодического случайного процесса:

которое равно постоянной составляющей выбранной реализации.

Дисперсия подобного процесса

Поскольку величина представляет собой среднюю мощность реализации, а величина - мощность постоянной составляющей, дисперсия имеет наглядный смысл мощности флуктуационной составляющей эргодического процесса.

Аналогично находят функцию корреляции:

Достаточным условием эргодичности случайного процесса, стационарного в широком смысле, является стремление к нулю функции корреляции при неограниченном росте временного сдвига :

В математике показано, что это требование можно несколько ослабить. Оказывается, что случайный процесс эргодичен, если выполнено условие Слуцкого :

Так, равенство (6.47) справедливо применительно к гармоническому процессу со случайной начальной фазой (см. пример 6.5).

Измерение характеристик случайных процессов.

Если случайный процесс является эргодическим, то его реализация достаточной длины есть «типичный» представитель статистического ансамбля. Изучая эту реализацию экспериментально, можно получить много сведений, характеризующих данный случайный процесс.

Прибор для измерения одномерной плотности вероятности случайного процесса может быть выполнен следующим образом. Одномерная плотность вероятности эргодического случайного процесса есть величина, пропорциональная относительному времени пребывания его реализации на уровне между Предположим, что имеется устройство с двумя входами, на один из которых подается исследуемая реализация х(t), а на другой - опорное постоянное напряжение, уровень которого можно регулировать. На выходе устройства возникают прямоугольные видеоимпульсы постоянной амплитуды, начало и конец которых определяются моментами времени, когда текущие значения случайного сигнала совпадают либо с уровнем либо с уровнем Если теперь измерить, скажем, с помощью обычного стрелочного прибора среднее значение тока, создаваемого последовательностью видеоимпульсов, то показания этого прибора будут пропорциональны плотности вероятности

Любой достаточно инерционный стрелочный прибор может быть использован для измерения математического ожидания случайного процесса [см. формулу (6.43)].

Прибор, измеряющий дисперсию случайного процесса, как это следует из (6.44), должен иметь на входе конденсатор, отделяющий постоянную составляющую. Дальнейшие этапы процесса измерения - возведение в квадрат и усреднение по времени - выполняются инерционным квадратичным вольтметром.

Принцип работы измерителя функции корреляции (коррелометра) вытекает из формулы (6.45). Здесь мгновенные значения случайного сигнала после фильтрации постоянной составляющей, разделяясь на канала, поступают на перемножитель, причем в одном из каналов сигнал задерживается на время . Для получения значения функции корреляции сигнал с выхода перемножителя обрабатывается инерционным звеном, которое осуществляет усреднение.

Независимо от величины

Здесь приняты те же обозначения, что и в формуле (6.26). Элементы корреляционной матрицы этого случайного процесса определяются нормированной функцией корреляции:

В дальнейшем часто будет использоваться двумерная гауссова плотность

Стационарный гауссов процесс занимает исключительное место среди прочих случайных процессов - любая его многомерная плотность вероятности определяется даумя характеристиками: математическим ожиданием и функцией корреляции.