Анализ данных и прогнозирование. Анализ данных: Конспект лекций

англ. analysis, data; нем. Datenanalyse. Этап эмпирического социол. исследования, в ходе к-рого при помощи содержательных соображений и мате-матико-статист. методов на основе первичной информации раскрываются связи исследуемых переменных.

Отличное определение

Неполное определение ↓

АНАЛИЗ ДАННЫХ

1. Совокупность действий, осуществляемых исследователем в процессе изучения полученных тем или иным образом данных с целью формирования определенных представлений о характере явления, описываемого этими данными. В процессе А.д. исследователь чаще всего пытается сократить их количество, стремясь потерять при этом как можно меньше полезной информации, потенциально в них заложенной. Делается это обычно с помощью математич. методов. При использовании математич. статистики, напр., сокращение количества данных достигается за счет двух взаимно дополняющих друг друга принципов: выборочного метода и свертки информации. Первый из них декларирует отказ от всей совокупности данных в пользу специально организованной их части - выборки (см.), а второй заменяет всю выборку несколькими числами - ее характеристиками Таковыми могут быть, напр., среднее арифметич. и дисперсия, уравнение регрессии, рез-ты применения факторного анализа, методов классификации и т. д. Для получения подобных характеристик данные подвергаются нек-рым воздействиям: они или обрабатываются, или исследуются, или анализируются. Поэтому процесс "свертки" данных называется не только их анализом, но и их обработкой, исследованием. 2. Процесс изучения статистич. данных (т. е. анализ этих данных в смысле п. 1) с помощью математич. методов, не предполагающих вероятностной модели интересующего исследователя явления (в частности, не опирающихся на допущения о вероятностной природе исходных данных, о статистич. модели порождения данных). Развитие теории и практики статистич. обработки данных идет в двух параллельных направлениях. Одно из них представлено методами, предусматривающими возможность вероятностной интерпретации данных и полученных в рез-те обработки статистич. выводов, использования вероятностных моделей для построения и выбора наилучших методов статистич. обработки. Эти методы обычно называют вероятностно-статистическими. Они предполагают адекватную реальности определенную вероятностную модель изучаемого с их помощью явления. В предположении этой адекватности получаемые с помощью таких методов выводы будут основываться на строго доказанных математич. рез-тах, дающих возможность помимо всего прочего устанавливать точность упомянутых выводов (см. Оценивание статистическое, Проверка статистических гипотез). Др. направление представлено методами А.д., не предполагающими вероятностных моделей изучаемых явлений. Строгих же математич. методов обработки статистич. данных с помощью такого рода методов пока не существует. Они не основываются на строго доказанных математич. рез-тах и, как следствие, не дают возможности устанавливать точность получаемых с их помощью выводов. Применение методов А.д. чаще всего основывается на следующей схеме. Подлежащие статистич. обработке исходные данные не могут интерпретироваться как выборка из генеральной совокупности и, следовательно, использование вероятностных моделей при построении и выборе наилучших методов статистич. обработки и последующая вероятностная интерпретация статистич. выводов оказываются неправомерными. Из множества методов, реализующих поставленную цель статистич. обработки данных, в качестве к-рой может выступать классификация объектов, нахождение латентных факторов и т. д. (см. Статистика математич. и Анализ многомерный статистич.), наилучший метод обычно выбирается с помощью оптимизации нек-рого задаваемого из эвристич., содержательных соображений критерия (функционала) качества метода. Естественно, что при этом проблема обоснованности получаемых с помощью методов А.д. выводов требует особого внимания. Здесь особенно острой является необходимость выделения "точек соприкосновения содержания задачи и математич. формализма (см. Адекватность математич. метода, п. 1). К методам А.д. следует отнести и вероятностно-статистич. метод, если у исследователя не имеется возможности проверить адекватность реальности предполагаемой методом вероятностной модели изучаемого явления; тем более, если в подобной ситуации социолог имеет основания сомневаться в такой адекватности. Правомерность использования вероятностно-статистич. метода в таком случае также должна опираться на содержательные соображения. Поскольку методы А.д. с т.зр. ортодоксальной математики не являются достаточно обоснованными, то имеет смысл использовать эти методы лишь на предварительном этапе анализа для уточнения представлений исследователя об изучаемом явлении, корректировки понятийного аппарата, формулировки гипотез и т. д. Однако с этим положением, выдвигаемым рядом авторов как неоспоримое, во многих ситуациях трудно согласиться. Методы А.д. могут служить и средством получения фундаментального знания, выявления неизвестных ранее закономерностей, если перейти на новый уровень понимания самого математич. формализма: считать, что адекватным решаемой задаче является не к.-л. отдельный метод (при этом не играет роли, имеется в виду вероятностно-статистич. метод или метод А.д.), а целая совокупность таких методов, применяемых в соответствии с определенными методологич. принципами (см. п. 4). Выделение класса методов анализа данных в рассматриваемом смысле обусловлено потребностями целого ряда наук, в т. ч. и социологии. В этих науках, с одной стороны, велика потребность анализа статистич. данных, а с другой - традиционные предположения, лежащие в основе вероятностно-статистич. методов, разработанных специально для решения такого рода задач, часто не выполняются. Однако невыполнение вероятностно-статистич. посылок не является единственной причиной отсутствия "законной" возможности использования вероятностно-статистич. аппарата в социологии. Др. не менее распространенной причиной непригодности тех или иных методов является их неадекватность относительно типа используемых шкал (см. Адекватность математич. метода, п. 2). Так, неадекватным является применение традиционных математико-статистич. методов к данным, полученным по порядковым шкалам, что часто делается на практике. Метод, используемый для шкал, относительно типа к-рых он не адекватен, также может быть отнесен к области А.д. 3. А.д. - прикладная статистика, понимаемая как науч. дисциплина, разрабатывающая и систематизирующая понятия, приемы, математич. методы и модели, предназначенные для организации сбора (имеется в виду лишь определение способа отбора подлежащих статистич. обследованию единиц из всей исследуемой совокупности), стандартной записи, систематизации и обработки (в т. ч. с помощью ЭВМ) статистич. данных с целью их удобного представления, интерпретации и получения науч. и практич. выводов. 4. Такие процедуры получения "свертки" информации (см. п.1), к-рые не допускают формального алгоритмич. подхода. Такое понимание термина "А.д." отвечает новому направлению исследований, оказавшемуся в центре внимания многих статистиков и специалистов по переработке данных. Применение любого математич. метода для изучения любого явления означает использование формальной модели этого явления - определенной системы предпосылок и постулатов. Специфика социологич. (и не только социологич.) задач проявляется, в частности, в том, что для большинства известных математико-статистич. методов проверка адекватности этих предпосылок и постулатов, состоятельности соответствующей модели является весьма проблематичным делом. А.д. предлагает "затеять игру" с предпосылками: варьировать их и рассматривать последствия такого варьирования. Так, можно сначала смотреть на данные как на числа (детерминированная модель), а потом - как на случайные величины (стохастическая модель) и выбирать такой ответ, к-рый лучше гармонируют с требованиями конкретной задачи. Такое отношение к предпосылкам в А.д., возведенное в принцип, назовем первым. Второй принцип А.д. - системный подход. А.д. изыскивает различ. приемы для наиболее полного использования эндогенной информации (т. е. данных, описывающих изучаемый объект), но вместе с тем он постоянно нацелен на максимальное использование экзогенной информации (т. е. данных, описывающих "среду обитания" объекта). Системный подход предъявляет исследователям повышенные требования, поскольку он носит принципиально междисциплинарный характер. Третьим принципом А.д. можно считать отказ от той т.зр., что любое исследование имеет начало и конец. Анализ - способ существования данных. Готовность к постоянному возврату к одним и тем же данным - важная новая особенность процесса применения математики для получения нового знания. В непрерывном процессе анализа предусматриваются разрывы, позволяющие извлекать накопленную информацию и принимать решения, связанные с управлением обработкой данных и с их дальнейшим анализом. Формальные операции перемежаются с неформальными процедурами принятия решения. С появлением новых экспериментальных данных возникают новые идеи, подходы, методы, уточняется понимание происходящих процессов и т. д. А.д. сводит воедино изначально как бы не связанные друг с другом элементы, подчинив их единому механизму решения задачи, открыв тем самым дорогу новому взгляду на возможности сбора, анализа и интерпретации данных различ. природы. В социологии насущная необходимость использования А.д. обусловливается отнюдь не только трудностью проверки предпосылок, заложенных в представляющихся подходящими (для решения соответствующих задач) методах. Напротив, известно много таких пригодных для социологии методов, к-рым отвечают сравнительно слабые предпосылки. Таковыми являются, напр., многие методы поиска взаимодействий (см.), в т. ч. такой, как анализ детерминационный (см.), к-рые вообще практически не предполагают никакой модели реальности, не опираются ни на какие предпосылки. Тем не менее потребность в А.д. остается, поскольку у социолога очень часто отсутствует та априорная социологич. модель изучаемого явления (см. Адекватность математич. метода, п.1), формирование к-рой является необходимой для однозначного выбора математич. формализма (да и вообще для проведения исследования, начиная с формулировки гипотез и разработки анкеты). Творческая реализация принципов А.д. позволяет восполнить этот недостаток. (См. также: Комплексное использование математич. методов.). В качестве одной из главных целей разработки алгоритмов А.д. в смысле п. 2 и принципов комплексного использования серии алгоритмов в смысле п. 4 нек-рые авторы (Дж.У.Тьюки) выдвигают такой "охват" содержания исходных данных значительного объема, к-рый позволяет прийти к представлениям (предпочтительно визуальным), легко доступным для понимания пользователя (см. Интерпретация рез-тов применения математич. метода). Лит.: Тьюки Дж.У. Анализ данных, вычисления на ЭВМ и математика// Современные проблемы математики. М., 1977; Миркин Б.Г. Анализ качественных признаков и структур. М., 1980; Тьюки Дж.У. Анализ результатов наблюдений: разведочный анализ. М., 1981; Мостеллер Ф., Тьюки Дж.У. Анализ данных и регрессия. М., 1982; Елисеева И.И., Рукавишников В.О. Логика прикладного статистического анализа. М., 1982; Айвазян С.А., Енюков И.С., Мешалкин Н.Д. Прикладная статистика. М., 1983; Дидэ Э. и др. Методы анализа данных. М., 1985; Дрейпер Н., Смит Г. Прикладной регрессионный анализ. Т.2. М., 1987; Толстова Ю.Н. Логика математического анализа социологических данных. М., 1991; Benzecri J.P. Lanalyse des donnees. Vol. 1. La taxonomie. Vol. 2. Lanalyse des correspon-dances. Dunod, 1973; Statistical data analysis. Providence, Rhode Island: American Mathematical Society, 1983; Фелингер А.Ф. Статистические алгоритмы социологических исследований. Новосибирск, 1985; Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. М., 1995. Андре-енков В.Г. Анализ и интерпретация эмпирических данных/ /Социология. Основы общей теории (под ред. Осипова Г.В., Москвичева Л.Н.). М., 1996; см. также лит. к ст. Комплексное использование математич. методов. Ю.Н. Толстова

Понятие анализа данных достаточно широкое. Само понятие «анализ» пришло к нам из Древней Греции и значит «распутывать», «освобождать». В области анализа данных определений много и все они разные. Обратимся к Большому экономическому словарю (Институт новой экономики. А.Н. Азрилиян, 1997):

Анализ данных – это направление статистических исследований, включающее комплекс методов обработки многомерной системы данных наблюдений, характеризующейся многими признаками. В отличие от классических математико-статистических методов, предполагающих известную вероятностную модель порождения данных, методы анализа данных используют только сведения, зафиксированные в этих .

В целом определение верное и точное. Но для бизнеса важна и другая составляющая такого анализа. В определении словаря говорится только об обработке данных, но для любого руководителя или топ-менеджера важна не сама обработка и структурирование данных. Намного интереснее и полезнее при заключительный этап — поиск скрытых закономерностей и получение новых знаний.

Поэтому в бизнес-среде в последнее время очень популярно определение Марио Фариа (Mario Faria), вице-президента Gartner:

Анализ - преобразование данных в выводы, на основе которых будут приниматься решения и строиться действия с помощью людей, процессов и технологий.

Невозможно и неправильно смотреть на анализ данных только как на обработку информации после ее получения и сбора. В первую очередь, анализ данных - это средство и способ проверки гипотез и способ решения задач исследователя. Поэтому среди важных задач анализа данных мы выделяем:

  • прогнозирование,
  • выявление отклонений,
  • получение рекомендаций.

Характеристики данных анализа

С точки зрения своих характеристик данные, которое мы используем при анализе, делятся на 2 большие группы:

  • количественные
  • и качественные.

Качественные данные важны при маркетинговых исследованиях – какой ваш товар, за что его должны «полюбить» потребители. Наиболее интересными для прогнозирования, конечно, являются количественные данные. Цифры – наше все! На их основе можно, например, прогнозировать спады или рост продаж. А это, согласитесь, очень важно. Возможность закупить правильный объем товара, выстроить логистическую цепочку, подготовить персонал – все это, в конечном счете, влияет на выручку компании.

Как анализировать быстро и полезно?

Информации в мире становится все больше. В исследовании компании IBS говорится, что уже к 2003 году в миру было накоплено 5 эксабайтов данных (1 ЭБ = 1 млрд гигабайтов). В 2011 году данных будет уже 1,76 зеттабайта (1 ЗБ = 1024 эксабайта), а в мае 2015 года мировой объем данных составил более 6,5 ЗБ. По информации из исследования The Data Age 2025 прогнозируется, что к 2025 году будет сформировано более 400 зеттабайтов информации.

Но главное – все эти накопленные данные содержат в себе важную информацию, с помощью которой можно и нужно прогнозировать, делать выводы и принимать решения. Для того чтобы из всего массива накопленных данных выделить полезную информацию, необходима обработка этих данных. Или – анализ данных.

Обрабатывать данные становится все сложнее. Если раньше, лет 15 назад, в Excel был пределом совершенства, то сейчас это уже действительно «прошлый век». Вслед за запросом на анализ «больших данных» на рынке появляются новые решения для бизнеса – малого, среднего и крупного.

Решения для анализа данных варьируются в зависимости от стоимости внедрения и персонала, который будет задействован для управления ими. Есть решения для крупных корпораций, где, конечно, не обойтись без больших вложений – как на этапе внедрения, так и позже – на этапе работы решения (основная трата – это специалисты, работающие с ПО).

Опрос сотрудников, клиентов, потребителей – не просто сбор информации, это полноценное исследование. А целью всякого исследования является научно- обоснованная интерпретация изученных фактов. Первичный материал необходимо обработать, а именно упорядочить и проанализировать.

Анализ данных исследования – ключевой этап. Он представляет собой совокупность приемов и методов, направленных на то, чтобы проверить, насколько были верны предположения и гипотезы, а также ответить на заданные вопросы. Данный этап является, пожалуй, наиболее сложным с точки зрения интеллектуальных усилий и профессиональной квалификации, однако позволяет получить максимум полезной информации из собранных данных.

Методы анализа данных многообразны. Выбор конкретного метода анализа данных зависит, в первую очередь, от того, на какие вопросы мы хотим получить ответ.

Можно выделить два класса процедур анализа данных:

  • одномерные (дескриптивные) и
  • многомерные.

Многомерные типы анализа данных

Многомерный анализ данных позволяет одновременно исследовать взаимоотношения двух и более переменных и проверять гипотезы о причинных связях между ними.

Техники многомерного анализа разнообразны. Мы рассмотрим следующие:

Суть факторного анализа , состоит в том, чтобы имея большое число параметров, выделить малое число макропараметров, которыми и будут определяться различия между измеряемыми параметрами. Это позволит оптимизировать структуру анализируемых данных.

Применение факторного анализа преследует две цели:

  • сокращение числа переменных;
  • классификация данных.

Факторный анализ довольно полезен на практике. Приведем несколько примеров.

Перед вами стоит задача исследовать имидж компании. Клиенту предлагается оценить данную компанию по целому ряду критериев, общее число которых может превышать несколько десятков. Применение факторного анализа в данном случае позволяет снизить общее количество переменных путем распределения их в обобщенные пучки факторов, например, «материальные условия компании», «взаимодействие с персоналом», «удобство обслуживания».

Еще одним случаем применения данного метода может служить составление социально-психологических портретов потребителей. Респонденту необходимо выразить степень своего согласия/несогласия с перечнем высказываний о стиле жизни. В итоге, можно выделить, например, целевые группы потребителей: «новаторы», «прогрессисты» и «консерваторы».

Актуальным примером исследования в сфере банковского дела, может послужить, изучение уровня доверия клиента к банку, которое можно описать следующими факторами:

— надежность сделок (включающий такие параметры, как сохранность средств, возможность беспрепятственного их перевода);

— обслуживание клиентов (профессионализм сотрудников, их благожелательность) и

— качество обслуживания (точность выполнение операций, отсутствие ошибок) и др.

(от англ. сluster – сгусток, пучок, гроздь) – это один из способов классификации объектов. Он позволяет рассматривать достаточно большой объем информации, сжимая его и делая компактными и наглядными.

Термин «кластерный анализ» был введен в 1939 году английским ученым Р. Трионом, предложившим соответствующий метод, который сводился к поиску групп с тесно коррелирующим признаком в каждой из них.

Целью кластерного анализа является выделение сравнительно небольшого числа групп объектов, как можно более схожих между собой внутри группы, и как можно более отличающихся в разных группах. В настоящее время разработано достаточно большое число алгоритмов кластерного анализа. Однако, попробуем объяснить его суть, не прибегая к строгому теоретизированию.

Допустим, вы планируете провести опрос потребителей, (а все потребители разные), и вам, соответственно, необходимы различные стратегии для их привлечения. Для решения данной задачи мы предлагаем сегментировать клиентов, прибегнув к методу кластеризации. Для этого выполняем следующие шаги:

  1. формируем выборку и проводим опрос клиентов,
  2. определяем переменные (характеристики), по которым будем оценивать респондентов в выборке,
  3. вычисляем значения меры сходства и различия между ответами респондентов,
  4. выбираем метод кластеризации (т.е. правила объединения респондентов в группы),
  5. определяем оптимальное число кластеров (групп).

В результате получаем таблицу следующего содержания:

Информация, представленная в таблице, позволяет нам составить портрет клиентов каждого кластера, которые впоследствии необходимо учитывать при составлении стратегии успешного продвижения продукта на рынке.

  • В социологии: разделение респондентов на различные социально-демографические группы.
  • В маркетинге: сегментация рынка по группам потребителей, группировка конкурентов по факторам конкурентоспособности.
  • В менеджменте: выделение групп сотрудников с разным уровнем мотивации, выявление мотивирующих/демотивирующих факторов в организации, классификация конкурентоспособных отраслей и поставщиков, и др.
  • В медицине — классификация симптомов, признаков заболеваний, пациентов, препаратов для успешной терапии.
  • А также психиатрии, биологии, экологии, информатике и т.д.

При анализе информации вы часто будете сталкиваться с тем, что теоретическое великолепие методов анализа разбивается о действительность. Ведь вроде все давно решено, известно множество методов решения задач анализа. Почему же довольно часто они не работают?

Дело в том, что безупречные с точки зрения теории методы имеют мало общего с действительностью. Чаще всего аналитик сталкивается с ситуацией, когда трудно сделать какие-либо четкие предположения относительно исследуемой задачи. Модель не известна, и единственным источником сведений для ее построения является таблица экспериментальных данных типа "вход – выход", каждая строка которой содержит значения входных характеристик объекта и соответствующие им значения выходных характеристик.

В результате они вынуждены использовать всякого рода эвристические или экспертные предположения и о выборе информативных признаков, и о классе моделей, и о параметрах выбранной модели. Эти предположения аналитика основываются на его опыте, интуиции, понимании смысла анализируемого процесса. Выводы, получаемые при таком подходе, базируются на простой, но фундаментальной гипотезе о монотонности пространства решений, которую можно выразить так: "Похожие входные ситуации приводят к похожим выходным реакциям системы". Идея на интуитивном уровне достаточно понятная, и этого обычно достаточно для получения практически приемлемых решений в каждом конкретном случае.

В результате применения такого метода решений академическая строгость приносится в жертву реальному положению вещей. Собственно, в этом нет ничего нового. Если какие – то подходы к решению задачи вступают в противоречие с реальностью, то обычно их изменяют. Возвращаясь к анализу данных, или, вернее, к тому, что сейчас называют Data Mining, следует обратить внимание еще на один момент: процесс извлечения знаний из данных происходит по той же схеме, что и установление физических законов: сбор экспериментальных данных, организация их в виде таблиц и поиск такой схемы рассуждений, которая, во-первых, делает полученные результаты очевидными и, во-вторых, дает возможность предсказать новые факты. При этом имеется ясное понимание того, что наши знания об анализируемом процессе, как и любом физическом явлении, в какой – то степени приближение. Вообще, всякая система рассуждений о реальном мире предполагает разного рода приближения. Фактически термин Data Mining – это попытка узаконить физический подход в отличие от математического к решению задач анализа данных. Что же мы вкладываем в понятие "физический подход"?

Это такой подход, при котором аналитик готов к тому, что анализируемый процесс может оказаться слишком запутанным и не поддающимся точному анализу с помощью строгих аналитических методов. Но можно все же получить хорошее представление о его поведении в различных обстоятельствах, подходя к задаче с различных точек зрения, руководствуясь знанием предметной области, опытом, интуицией и используя различные эвристические подходы. При этом мы движемся от грубой модели ко все более точным представлениям об анализируемом процессе. Слегка перефразировав Р. Фейнмана, скажем так: можно идеально изучить характеристики анализируемой системы, стоит только не гнаться за точностью.

Общая схема работы при этом выглядит следующим образом:

Таким образом, данный подход подразумевает, что:

  1. При анализе нужно отталкиваться от опыта эксперта.
  2. Необходимо рассматривать проблему под разными углами и комбинировать подходы.
  3. Не стоит стремиться сразу к высокой точности. Двигаться к решению нужно от более простых и грубых моделей ко все более сложным и точным.
  4. Стоит останавливаться как только получим приемлемый результат, не стремясь получить идеальную модель.
  5. По прошествии времени и накоплению новых сведений нужно повторять цикл – процесс познания бесконечен.

Пример работы

В качестве примера можно в общих чертах рассмотреть процесс анализа рынка недвижимости в г. Москве. Цель – оценка инвестиционной привлекательности проектов. Одна из задач, решаемых при этом, – построение модели ценообразования для жилья в новостройках, другими словами, количественную зависимость цены жилья от ценообразующих факторов. Для типового жилья таковыми, в частности, являются:

  • Местоположение дома (престижность района; инфраструктура района; массовая или точечная застройка; окружение дома (напр. нежелательное соседство с промышленными предприятиями, "хрущевками", рынками и т.д.); экология района (близость к лесопарковым массивам))
  • Местоположение квартиры (этаж – первые и последние этажи дешевле; секция – квартиры в торцевых секциях дешевле; ориентация квартиры по сторонам света – северная сторона дешевле; вид из окон).
  • Тип дома (самая популярная серия П-44Т).
  • Площадь квартиры.
  • Наличие лоджий (балконов)
  • Стадия строительства (чем ближе к сдаче дома, тем выше цена за кв.м).
  • Наличие отделки ("черновая" отделка, частичная отделка, под ключ. Большинство новостроек сдаются с черновой отделкой).
  • Телефонизация дома.
  • Транспортное сообщение (близость к метро, удаленность от крупных магистралей, удобный подъезд, наличие автостоянки около дома (наличие парковочных мест)).
  • Кто продает квартиру ("из первых рук" (инвестор, застройщик) или посредники (риэлтеры). Риэлтеры, как правило, берут за свои услуги – 3-6%).

Это далеко неполный перечень, но и он повергает в уныние. Вот тут-то очень кстати приходится высказывание Р. Фейнмана ("можно идеально изучить характеристики анализируемой системы, стоит только не гнаться за точностью"). Для начала из имеющейся истории продаж мы ограничились данными для одного района Москвы. В качестве входных факторов взяли ограниченный набор характеристик с точки зрения экспертов, очевидно влияющих на продажную цену жилья: серия дома, отделка, этаж (первый, последний, средний), готовность объекта, количество комнат, секция (угловая, обычная), метраж. Выходным значением являлась цена за квадратный метр, по которой продавались квартиры. Получилась вполне обозримая таблица с разумным количеством входных факторов.

На этих данных обучили нейросеть, то есть построили довольно грубую модель. При всей своей приблизительности у нее было одно существенное достоинство: она правильно отражала зависимость цены от учитываемых факторов. Например, при прочих равных условиях квартира в угловой секции стоила дешевле, чем в обычной, а стоимость квартир по мере готовности объекта возрастала. Теперь оставалось ее лишь совершенствовать, делать более полной и точной.

На следующем этапе в обучающее множество были добавлены записи о продажах в других районах Москвы. Соответственно, в качестве входных факторов стали учитываться такие характеристики, как престижность района, экология района, удаленность от метро. Так же в обучающую выборку была добавлена цена за аналогичное жилье на вторичном рынке. Специалисты, имеющие опыт работы на рынке недвижимости, имели возможность в процессе совершенствования модели безболезненно экспериментировать, добавляя или исключая факторы, т. к., напомню, процесс поиска более совершенной модели сводился к обучению нейросети на разных наборах данных. Главное здесь вовремя понять, что процесс этот бесконечен.

Это пример, как нам кажется, довольно эффективного подхода к анализу данных: использование опыта и интуиции специалиста в своей области для последовательного приближения ко все более точной модели анализируемого процесса. Основное требование при этом – наличие качественной информации достаточного объема, что невозможно без системы автоматизации сбора и хранения информации, о чем всегда надо помнить тем, кто серьезно занимается информационным обеспечением бизнеса. Но данная тема выходит за рамки статьи.

Вывод

Описанный подход позволяет решать реальные задачи с приемлемым качеством. Конечно, можно найти у данной методики множество недостатков, но в действительности реальной альтернативы ей нет, разве что отказаться от анализа вообще. Хотя если физики с успехом используют такие методы анализа уже много веков, почему бы не взять его на вооружение и в других областях?

Механизм анализа данных и прогнозирования предоставляет пользователям (экономистам, аналитикам и т.д.) возможность осуществлять поиск неочевидных закономерностей в данных, накопленных в информационной базе. Этот механизм позволяет:

  • осуществлять поиск закономерностей в исходных данных информационной базы;
  • управлять параметрами выполняемого анализа как программно, так и интерактивно;
  • осуществлять программный доступ к результату анализа;
  • автоматически выводить результат анализа в табличный документ;
  • создавать модели прогноза, позволяющие автоматически прогнозировать последующие события или значения неких характеристик новых объектов.

Механизм анализа данных представляет собой набор взаимодействующих друг с другом объектов встроенного языка, что позволяет разработчику использовать его составные части в произвольной комбинации в любом прикладном решении. Встроенные объекты позволяют легко организовать интерактивную настройку параметров анализа пользователем, а также позволяют выводить результат анализа в удобной для отображения форме в табличный документ.

Механизм позволяет работать как с данными, полученными из информационной базы, так и с данными, полученными из внешнего источника, предварительно загруженными в таблицу значений или табличный документ:

Применяя к исходным данным один из видов анализа, можно получить результат анализа. Результат анализа представляет собой некую модель поведения данных. Результат анализа может быть отображен в итоговом документе, или сохранен для дальнейшего использования.

Дальнейшее использование результата анализа заключается в том, что на его основе может быть создана модель прогноза, позволяющая прогнозировать поведение новых данных в соответствии с имеющейся моделью.

Например, можно проанализировать, какие товары приобретаются вместе (в одной накладной) и сохранить этот результат анализа в базе данных. В дальнейшем, при создании очередной накладной:

на основании сохраненного результата анализа можно построить модель прогноза, подать ей "на вход" новые данные, содержащиеся в этой накладной, и "на выходе" получить прогноз, - список товаров, которые контрагент Петров Б.С. тоже, скорее всего, приобретет, если их ему предложить:

В механизме анализа данных и прогнозирования реализовано несколько типов анализа данных:

Реализованные типы анализа

Общая статистика

Представляет собой механизм для сбора информации о данных, находящихся в исследуемой выборке. Этот тип анализа предназначен для предварительного исследования анализируемого источника данных.

Анализ показывает ряд характеристик числовых и непрерывных полей. При выводе отчета в табличный документ заполняются круговые диаграммы для отображения состава полей.

Поиск ассоциаций

Данный тип анализа осуществляет поиск часто встречаемых вместе групп объектов или значений характеристик, а также производит поиск правил ассоциаций. Поиск ассоциаций может использоваться, например, для определения часто приобретаемых вместе товаров, или услуг:

Этот тип анализа может работать с иерархическими данными, что позволяет, например, находить правила не только для конкретных товаров, но и для их групп. Важной особенностью этого типа анализа является возможность работать как с объектным источником данных, в котором каждая колонка содержит некоторую характеристику объекта, так и с событийным источником, где характеристики объекта располагаются в одной колонке.

Для облегчения восприятия результата предусмотрен механизм отсечения избыточных правил.

Поиск последовательностей

Тип анализа поиск последовательностей позволяет выявлять в источнике данных последовательные цепочки событий. Например, это может быть цепочка товаров или услуг, которые часто последовательно приобретают клиенты:

Этот тип анализа позволяет осуществлять поиск по иерархии, что дает возможность отслеживать не только последовательности конкретных событий, но и последовательности родительских групп.

Набор параметров анализа позволяет специалисту ограничивать временные расстояния между элементами искомых последовательностей, а также регулировать точность получаемых результатов.

Кластерный анализ

Кластерный анализ позволяет разделить исходный набор исследуемых объектов на группы объектов, таким образом, чтобы каждый объект был более схож с объектами из своей группы, чем с объектами других групп. Анализируя в дальнейшем полученные группы, называемые кластерами, можно определить, чем характеризуется та или иная группа, принять решение о методах работы с объектами различных групп. Например, при помощи кластерного анализа можно разделить клиентов, с которыми работает компания, на группы, для того, чтобы применять различные стратегии при работе с ними:

При помощи параметров кластерного анализа аналитик может настроить алгоритм, по которому будет производиться разбиение, а также может динамически изменять состав характеристик, учитываемых при анализе, настраивать для них весовые коэффициенты.

Результат кластеризации может быть выведен в дендрограмму - специальный объект, предназначенный для отображения последовательных связей между объектами.

Дерево решений

Тип анализа дерево решений позволяет построить иерархическую структуру классифицирующих правил, представленную в виде дерева.

Для построения дерева решений необходимо выбрать целевой атрибут, по которому будет строиться классификатор и ряд входных атрибутов, которые будут использоваться для создания правил. Целевой атрибут может содержать, например, информацию о том, перешел ли клиент к другому поставщику услуг, удачна ли была сделка, качественно ли была выполнена работа и т.д. Входными атрибутами, для примера, могут выступать возраст сотрудника, стаж его работы, материальное состояние клиента, количество сотрудников в компании и т.п.

Результат работы анализа представляется в виде дерева, каждый узел которого содержит некоторое условие. Для принятия решения, к какому классу следует отнести некий новый объект, необходимо, отвечая на вопросы в узлах, пройти цепочку от корня до листа дерева, переходя к дочерним узлам в случае утвердительного ответа и к соседнему узлу в случае отрицательного.

Набор параметров анализа позволяет регулировать точность полученного дерева:

Модели прогноза

Модели прогноза, создаваемые механизмом, представляют собой специальные объекты, которые создаются из результата анализа данных, и позволяют в дальнейшем автоматически выполнять прогноз для новых данных.

Например, модель прогноза поиска ассоциаций, построенная при анализе покупок клиентов, может быть использована при работе с осуществляющим покупку клиентом, для того, чтобы предложить ему товары, которые он с определенной степенью вероятности приобретет вместе с выбранными им товарами.

Использование механизма анализа данных в прикладных решениях

Для ознакомления разработчиков прикладных решений с механизмом анализа данных, на диске «Информационно-технологическое сопровождение» (ИТС) размещена демонстрационная информационная база. В ее состав входит универсальная обработка "Консоль анализа данных", которая позволяет выполнять анализ данных в любом прикладном решении, без доработки конфигурации.