Оценка статистической значимости модели. Критерии оценки качества регрессионной модели, или какая модель хорошая, а какая лучше

Лекция 2. Корреляционно-регрессионный анализ. Парная регрессия

1. Сущность корреляционно-регрессионного анализа и его задачи.

2. Определение регрессии и ее виды.

3. Особенности спецификации модели. Причины существования случайной величины.

4. Методы выбора парной регрессии.

5. Метод наименьших квадратов.

6. Показатели измерения тесноты и силы связи.

7. Оценки статистической значимости.

8. Прогнозируемое значение переменной у и доверительные интервалы прогноза.

1. Сущность корреляционно-регрессионного анализа и его задачи. Экономические явления, будучи весьма разнообразными, характеризуются множеством признаков, отражающих определенные свойства этих процессов и явлений и подверженных взаимообусловленным изменениям. В одних случаях зависимость между признаками оказывается очень тесной (например, часовая выработка работника и его заработная плата), а в других случаях такая связь не выражена вовсе или крайне слаба (например, пол студентов и их успеваемость). Чем теснее связь между этими признаками, тем точнее принимаемые решения.

Различают два типа зависимостей между явлениями и их признаками:

    функциональная (детерминированная, причинная) зависимость . Задается в виде формулы, которая каждому значению одной переменной ставит в соответствие строго определенное значение другой переменной (воздействием случайных факторов при этом пренебрегают). Иными словами,функциональная зависимость – это связь, при которой каждому значению независимой переменной х соответствует точно определенное значение зависимой переменной у. В экономике функциональные связи между переменными являются исключениями из общего правила;

    статистическая (стохастическая, недетерминированная) зависимость – это связь переменных, на которую накладывается воздействие случайных факторов, т.е. это связь, при которой каждому значению независимой переменной х соответствует множество значений зависимой переменной у, причем заранее неизвестно, какое именно значение примет у.

Частным случаем статистической зависимости является корреляционная зависимость.

Корреляционная зависимость – это связь, при которой каждому значению независимой переменной х соответствует определенное математическое ожидание (среднее значение) зависимой переменной у.

Корреляционная зависимость является «неполной» зависимостью, которая проявляется не в каждом отдельном случае, а только в средних величинах при достаточно большом числе случаев. Например, известно, что повышение квалификации работника ведет к росту производительности труда. Это утверждение часто подтверждается на практике, но не означает, что у двух и более работников одного разряда / уровня, занятых аналогичным процессом, будет одинаковая производительность труда.

Корреляционная зависимость исследуется с помощью методы корреляционного и регрессионного анализа.

Корреляционно-регрессионный анализ позволяет установить тесноту, направление связи и форму этой связи между переменными, т.е. ее аналитическое выражение.

Основная задача корреляционного анализа состоит в количественном определении тесноты связи между двумя признаками при парной связи и между результативными и несколькими факторными признаками при многофакторной связи и статистической оценке надежности установленной связи.

2. Определение регрессии и ее виды. Регрессионный анализ является основным математико-статистическим инструментом в эконометрике.Регрессией принято называть зависимость среднего значения какой-либо величины (y) от некоторой другой величины или от нескольких величин (x i).

В зависимости от количества факторов, включенных в уравнение регрессии, принято различать простую (парную) и множественную регрессии.

Простая (парная) регрессия представляет собой модель, где среднее значение зависимой (объясняемой) переменной у рассматривается как функция одной независимой (объясняющей) переменной х. В неявном виде парная регрессия – это модель вида:

В явном виде:

,

где aиb– оценки коэффициентов регрессии.

Множественная регрессия представляет собой модель, где среднее значение зависимой (объясняемой) переменной у рассматривается как функция нескольких независимых (объясняющих) переменных х 1 , х 2 , … х n . В неявном виде парная регрессия – это модель вида:

.

В явном виде:

где aиb 1 ,b 2 ,b n – оценки коэффициентов регрессии.

Примером такой модели может служить зависимость заработной платы работника от его возраста, образования, квалификации, стажа, отрасли и т.д.

Относительно формы зависимости различают:

      линейную регрессию;

      нелинейную регрессию, предполагающую существование нелинейных соотношений между факторами, выражающихся соответствующей нелинейной функцией. Зачастую нелинейные по внешнему виду модели могут быть приведены к линейному виду, что позволяет их относить к классу линейных.

3. Особенности спецификации модели. Причины существования случайной величины. Любое эконометрическое исследование начинается соспецификации модели , т.е. с формулировки вида модели, исходя из соответствующей теории связи между переменными.

Прежде всего из всего круга факторов, влияющих на результативный признак, необходимо выделить наиболее существенно влияющие факторы. Парная регрессия достаточна, если имеется доминирующий фактор, который и используется в качестве объясняющей переменной. Уравнение простой регрессии характеризует связь между двумя переменными, которая проявляется как некоторая закономерность лишь в среднем в целом по совокупности наблюдений. В уравнении регрессии корреляционная связь представляется в виде функциональной зависимости, выраженной соответствующей математической функцией. Практически в каждом отдельном случае величина у складывается из двух слагаемых:

,

где у – фактическое значение результативного признака;

– теоретическое значении результативного признака, найденное исходя из уравнения регрессии;

– случайная величина, характеризующая отклонения реального значения результативного признака от теоретического, найденного по уравнению регрессии.

Случайная величина называется также возмущением. Она включает влияние не учтенных в модели факторов, случайных ошибок и особенностей измерения. Присутствие в модели случайной величины порождено тремя источниками:

    спецификацией модели,

    выборочным характером исходных данных,

    особенностями измерения переменных.

К ошибкам спецификации будут относиться не только неправильный выбор той или иной математической функции, но и недоучет в уравнении регрессии какого-либо существенного фактора (использование парной регрессии вместо множественной).

Наряду с ошибками спецификации могут иметь место ошибки выборки, поскольку исследователь чаще всего имеет дело с выборочными данными при установлении закономерностей связи между признаками. Ошибки выборки имеют место и в силу неоднородности данных в исходной статистической совокупности, что, как правило, бывает при изучении экономических процессов. Если совокупность неоднородна, то уравнение регрессии не имеет практического смысла. Для получения хорошего результата обычно исключают из совокупности единицы с аномальными значениями исследуемых признаков. И в этом случае результаты регрессии представляют собой выборочные характеристики. Исходных данных

Однако наибольшую опасность в практическом использовании методов регрессии представляют ошибки измерения. Если ошибки спецификации можно уменьшить, изменяя форму модели (вид математической формулы), а ошибки выборки – увеличивая объем исходных данных, то ошибки измерения практически сводят на нет все усилия по количественной оценке связи между признаками.

4. Методы выбора парной регрессии. Предполагая, что ошибки измерения сведены к минимуму, основное внимание в эконометрических исследованиях отводится ошибкам спецификации модели. В парной регрессии выбор вида математической функции
может быть осуществлен тремя методами:

    графическим;

    аналитическим, т.е. исходя из теории изучаемой взаимосвязи;

    экспериментальным.

При изучении зависимости между двумя признаками графический метод подбора вида уравнения регрессии достаточно нагляден. Он основан на поле корреляции.Основные типы кривых, используемых при количественной оценке связей




Класс математических функций для описания связи двух переменных достаточно широк, также используются и другие типы кривых.

Аналитический метод выбор типа уравнения регрессии основан на изучении материальной природы связи исследуемых признаков, а также визуальной оценке характера связи. Т.е. если мы говорим о кривой Лаффера, показывающей зависимость между прогрессивностью налогообложения и доходами бюджета, то речь идет о параболической кривой, а в микроанализе изокванты представляют собой гиперболы.

5. Метод наименьших квадратов. Линейная регрессия находит широкое применение в эконометрике в виду четкой экономической интерпретации ее параметров и сводится к нахождению уравнения вида:

,

где х – объясняющая (независимая) переменная – неслучайная величина;

у – объясняемая (зависимая) величина;

– случайный член (ошибка регрессии);

 и β – параметры уравнения.

Теоретические значения представляют линию регрессии. Построение линейной регрессии сводится к оценке параметров a и b уравнения
.

Оценки параметров линейной регрессии могут быть найдены разными способами.

Метод наименьших квадратов (МНК) – классический подход к оцениванию параметров линейной регрессии.

Обратимся к полю корреляции.

По графику можно определить значения параметров. Параметр а – точка пересечения линии регрессии с осью Оу, а параметр b оценивается исходя из угла наклона линии регрессии , где dy – приращение фактора у, а dx – приращение фактора х.

МНК позволяет получить такие оценки параметров a и b, при которых сумма квадратов отклонений фактических значений результативного признака у от расчетных (теоретических) значений минимальна:

Т.е. линия регрессии выбирается таким образом, чтобы сумма квадратов расстояний по вертикали между точками и этой линией была бы минимальна.

где
.

Вычислим частные производные по каждому из параметров a и b.

Разделим обе части уравнений на n и получим систему уравнений, из которой можно вычислить оба параметра.

Из МНК можно получить две другие формулы для нахождения параметра b:

1.

2.
или

Оценка параметра а находится одинаковым способом во всех случаях:

.

Параметр b называется коэффициентом регрессии и показывает, на сколько единиц в среднем изменится переменная у при увеличении переменной х на 1 единицу. Знак при коэффициенте регрессии показывает направление связи: при b < 0 – связь обратная, при b > 0 – связь прямая.

Параметр а формально представляет собой значение у при х = 0. Если х не имеет или не может иметь нулевого значения, то а не имеет смысла. Он может и не иметь экономического смысла. При а<0 экономическая интерпретация может оказаться абсурдной.

Интерпретировать можно знак при параметре а. Если а>0, то относительное изменение результата происходит медленнее, чем изменение фактора. Если а<0, то изменение результата опережает изменение фактора.

6. Показатели измерения тесноты и силы связи . Уравнение регрессии всегда дополняется показателем тесноты связи.

Качество парной регрессии определяется с помощью парного линейного коэффициента корреляции:

или

,

где
,

– среднеквадратические отклонения, которые показывают разброс значений в множестве значений х и у. Большое значение среднеквадратического отклонения показывает большой разброс значений в представленном множестве со средней величиной множества; маленькое значение, соответственно, показывает, что значения в множестве сгруппированы вокруг среднего значения.

Линейный коэффициент корреляции находится в пределах:

1 < < 1.

Если коэффициент корреляции положительный (рис. а), то связь между признаками прямая, т.е. с увеличением (уменьшением) x признак y увеличивается (уменьшается). Если коэффициент корреляции отрицательный (рис. б), то связь между признаками обратная, т.е. с увеличением (уменьшением) x признак y уменьшается (увеличивается).

Чем ближе значение коэффициента корреляции к 1, тем теснее связь (рис. б), чем ближе к 0, тем слабее (рис. а).

Если 0 < || <0,3, то связь между признаками практически отсутствует,

если 0,3 < || <0,5, то связь слабая,

если 0,5 < || <0,7, то связь умеренная,

если 0,7 < || <1, то связь сильная.

И, наконец, при r = 0 линейная корреляционная связь отсутствует. При этом линия регрессии параллельна оси Ох.

Следует отметить, что величина линейного коэффициента корреляции оценивает тесноту связи рассматриваемых признаков в ее линейной форме. Поэтому близость абсолютной величины коэффициента корреляции к нулю еще не означает отсутствие связи между признаками. При иной спецификации модели связь между признаками может оказаться достаточно тесной.

Для оценки качества подбора линейной функции рассчитывается квадрат линейного коэффициента корреляции R 2 , называемыйкоэффициентом детерминации . Он характеризует долю дисперсии результативного признака у, объясняемую регрессией, в общей дисперсии результативного признака.

Соответственно величина 1 – R 2 характеризует долю дисперсии у, вызванную влиянием остальных не учтенных в модели факторов.

В силу своего определения R 2 принимает значения между 0 и 1, т.е.

0 ≤ R 2 ≤ 1.

Если R 2 = 0, то это означает, что регрессия ничего не дает, т.е х не улучшает качество предсказания у по сравнению с тривиальным предсказанием
.

Другой крайний вариант R 2 = 1 означает точную подгонку модели: все точки наблюдений лежат на регрессионной прямой (все=0). Чем ближеR 2 к 1, тем лучше качество подгонки модели и тем точнее.

Параметре регрессии b хотя и показывает, на сколько единиц в среднем изменится переменная у при увеличении переменной х на 1 единицу, но использовать для непосредственной оценки влияния факторного признака на результативный нельзя из-за различия единиц измерения исследуемых показателей. Для этих целей используют коэффициент эластичности . Коэффициент эластичности показывает, на сколько процентов изменяется результативный признак у при изменении факторного признака х на 1%, и вычисляется по формуле:

,

где
– первая производная, характеризующая соотношение приростов результата и фактора для соответствующей формы связи.

В силу того того, что коэффициент эластичности для линейной функции не является величиной постоянной, а зависит от соответствующего значения х, то обычно рассчитывается средний коэффициент эластичности:

.

Несмотря на широкое использование в эконометрике коэффициентов эластичности, возможны случаи, когда их расчет не имеет экономического смысла. Это происходит тогда, когда для рассматриваемых признаков бессмысленно определение изменения значений в процентах (например, на сколько процентов изменится урожайность пшеницу, если качество почвы улучшится на 1%).

Коэффициенты эластичности для ряда математических функций

7. Оценки статистической значимости. После того как найдено уравнение регрессии, проводится оценка значимости как уравнения в целом, так и отдельных его параметров.

Оценка значимости уравнения в целом. Оценка значимости уравнения регрессии в целом дается с помощьюF-критерия Фишера и служит для выяснения того, что полученное значение коэффициента детерминации
неслучайно, т.е. соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной.

В парной линейной регрессии проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

Для проверки значимости уравнения регрессии в целом используют F-критерий Фишера. В случае парной линейной регрессии значимость модели регрессии проверяется по следующей формуле:

,

где m– количество объясняющих факторных признаков, т.е. х.

Наблюдаемые значения сравниваются с табличными.

,

где α – уровень значимости, соответствующий доверительному интервалу;

Если при заданном уровне значимости F набл >F крит, то модель считается значимой, гипотеза о случайной природе оцениваемых характеристик отрицается и признается их статистическая значимость и надежность.

Если F набл

Стандартная ошибка оценки уравнения регрессии. Хотя МНК дает нам линию регрессии, которая обеспечивает минимум вариации, не все наблюдения совпадают с линией регрессии. Поэтому необходима статистическая мера вариации фактических значений у от предсказанных значений. Мера вариации относительно линии регрессии называетсястандартной ошибкой оценки .

Стандартная ошибка оценки определяется как:

,

где у – фактические значения зависимой переменной для заданных значений независимой переменной;

– теоретические / предсказанные значения зависимой переменной для заданных значений независимой переменной;

m – количество объясняющих переменных х.

Данный коэффициент характеризует меру вариации фактических данных вокруг линии регрессии.

Проверка значимости параметров. Кроме того, проверяется значимость параметров регрессии. Проверка значимости параметров отдельных коэффициентов регрессии проводится по t-критерию Стьюдента путем проверки гипотезы о равенстве нулю каждого коэффициента регрессии. При этом выясняют, не являются ли полученные значения параметров результатом действия случайных величин.

Значимость коэффициентов регрессии проверяется по следующим формулам. Для коэффициента b:

,

где S b – стандартная ошибка коэффициента b, которая в свою очередь определяется как:

.

Для коэффициента а аналогично:

,

где S a – стандартная ошибка свободного члена а, также находится по формуле:

.

Расчетные значения t-критерия сравниваются с табличным значением критерия , где k = n–m–1 степеням свободы и соответствующем уровне значимости α.

Если расчетное значение t-критерия превосходит его табличное значение, то параметр признается значимым, т.е. не является случайно найденным.

8. Прогнозируемое значение переменной у и доверительные интервалы прогноза. Точечный прогноз заключается в получении прогнозного значения Y*, которое определяется путем подстановки в уравнение регрессии
соответствующего прогнозного значения X*:

.

Вероятность реализации точечного прогноза практически равна нулю, поэтому рассчитывается доверительный интервал прогноза с большей надежностью.

Интервальный прогноз заключается в построении доверительного интервала прогноза, т.е. нижней и верхней – минимально и максимально возможных границ интервала, содержащего точную величину для прогнозного значения Y* с заданной вероятностью, т.е.:

У min

Доверительные интервалы прогноза определяются по следующим формулам:

где
– стандартная ошибка предсказаний для парной регрессии.

Доверительный интервал для коэффициентов регрессии определяются как:

Так как коэффициент регрессии в эконометрических исследованиях имеет четкую экономическую интерпретацию, то доверительные границы интервала для коэффициента регрессии не должны содержать противоречивых результатов, например, -10b40 – такого рода запись указывает на то, что истинное значение коэффициента регрессии одновременно содержит положительные и отрицательные величины и даже ноль, чего быть не может. Тогда параметр принимается равным нулю.

Расчет параметров и построение регрессионных моделей

Корреляционный анализ

Его цель - определить характер связи (прямая, обратная) и силу связи (связь отсутствует, связь слабая, умеренная, заметная, сильная, весьма сильная, полная связь). Корреляционный анализ создает информацию о характере и степени выраженности связи (коэффициент корреляции), которая используется для отбора существенных факторов, а также для планирования эффективной последовательности расчета параметров регрессионных уравнений. При одном факторе вычисляют коэффициент корреляции, а при наличии нескольких факторов строят корреляционную матрицу, из которой выясняют два вида связей: (1) связи зависимой переменной с независимыми, (2) связи между самими независимыми.

Рассмотрение матрицы позволяет, во первых, выявить факторы, действительно влияющие на исследуемую зависимую переменную, и выстроить (ранжировать) их по убыванию связи; во-вторых, минимизировать число факторов в модели, исключив часть факторов, которые сильно или функционально связаны с другими факторами (речь идет о связях независимых переменных между собой).

Известно, что наиболее надежными на практике бывают одно- и двухфакторные модели.

Если будет обнаружено, что два фактора имеют сильную или полную связь между собой, то в регрессионное уравнение достаточно будет включить один из них.

Здесь стремятся отыскать наиболее точную меру выявленной связи, для того чтобы можно было прогнозировать, предсказывать значения зависимой величины Y, если будут известны значения независимых величин Х 1 , Х 2 ,.... Х n

Эту меру обобщенно выражают математической моделью линейной множественной регрессионной зависимости:

Y = a 0 + b 1 Х 1 + b 2 Х 2 + ... +b n X n

ЭВМ вычисляет параметры модели: свободный член а 0 (константа, или пересечение) и коэффициенты b п (коэффициенты регрессии). Величину у называют откликом, а Х 1 , Х 2 , .. ., Х п - факторами или предикторами.

После получения каждого варианта уравнения обязательной процедурой является оценка его статистической значимости, поскольку главная цель - получить уравнение наивысшей значимости. Однако в связи с тем, что расчеты выполняет ЭВМ, а решение на основе оценки значимости уравнения принимает исследователь (принять или отбросить уравнение), условно можно выделить третий этап этой человеко-машинной технологии как интеллектуальный немашинный этап, для которого почти все данные по оценке значимости уравнения подготавливает ЭВМ.

Статистическую значимость, т. е. пригодность постулируемой модели для использования ее в целях предсказания значений отклика. Для оценки качества полученной модели программа вычислила также целый ряд коэффициентов, которые обязан рассмотреть исследователь, сравнивая их с известными статистическими критериями и оценивая модель с точки зрения здравого смысла.



На этом этапе исключительно важную роль играют коэффициент детерминации и F-критерий значимости регрессии.

R Squared (R 2) - коэффициент детерминации - это квадрат множественного коэффициента корреляции между наблюдаемым значением Y и его теоретическим значением, вычисленным на основе модели с определенным набором факторов. Коэффициент детерминации измеряет действительность модели. Он может принимать значения от 0 до 1. Эта величина особенно полезна для сравнения ряда различных моделей и выбора наилучшей модели.

R 2 есть доля вариации прогнозной (теоретической) величины Y относительно наблюденных значений Y, объясненная за счет включенных в модель факторов. Очень хорошо, если R 2 >= 80%. Остальная доля теоретических значений У зависит от других, не участвовавших в модели факторов. Задача исследователя - находить факторы, увеличивающие R 2 , к давать объяснение вариаций прогноза, чтобы получить идеальное уравнение. Однако, коэффициент R 2 самое большее может достигнуть величины 1 (или 100%), когда все значения факторов различны. А если в данных есть повторяющиеся опыты, то величина R 2 не может достигнуть 1, как бы хороша ни была модель. Поэтому дубликаты данных следует удалять из исходной таблицы до начала расчета регрессии. Некоторые программные пакеты автоматически удаляют дубликат, оставляя лишь уникальные данные. Повторение одинаковых данных снижает надежность оценок модели. R 2 = 1 лишь при полном согласии экспериментальных (наблюденных) и теоретических (расчетных) данных, т. е. когда теоретические значения точно совпадают с наблюдаемыми. Однако это считается весьма маловероятным случаем.

Средствами регрессионного анализа, в т.ч. Excel, вычисляется F-критерий значимости регрессиидля уравнения в целом. Это рассчитанное по наблюденным данным значение Fp (F расчетный, наблюденный) следует сравнивать с соответствующим критическим значением Fк, (F критический, табличный) (см. приложение А). Fк исследователь выбирает из публикуемых статистических таблиц на заданном уровне вероятности (на том, на каком вычислялись параметры модели, например, 95%).

Если наблюденное значение Fp окажется меньше критического значения Fк, то уравнение нельзя считать значимым. В иной терминологии об этом же может быть сказано: не отвергнута нуль-гипотеза относительно значимости всех коэффициентов регрессии в постулируемой модели, т. е. коэффициенты практически равны нулю.

Электронная технология корреляционно-регрессионного анализа становится абсолютно бесполезной, если расчетные данные будут толковаться не вполне правильно.

Если полученная модель статистически значима, ее применяют для прогнозирования (предсказания), управления или объяснения.

Если же обнаружена незначимость, то модель отвергают, предполагая, что истинной окажется какая-то другая форма связи, которую надо поискать.

Коэффициент детерминации является статистикой, т.к.егозначения вычисляются по наблюденным данным. На основе коэффициента детерминации строится статистическая процедура, осуществляющая проверку, насколько значима линейная связь между факторами.

Статистика, проверяющая значимость всего уравнения регрессии имеет вид:

Получаем:

Возрастающим значениям статистики соответствуют и возрастающие значения статистики, поэтому гипотеза, не принимаемая при=, не принимается, если выполняется неравенство, где

Вероятность ошибочно отклонить гипотезу равна.

Вычислим критические значения при для разного количества наблюдений.

Рассмотрим простую линейную регрессию, так что

Критические значения, полученные в зависимости от числа наблюдений:

Т.е., при значительном количестве наблюдений даже малые отклонения фактического значения от 0 оказываются существенными для признания статистической значимости коэффициента регрессии, при содержательной объясняющей переменной.

Призначениесовпадает с квадратом коэффициента корреляции между переменными, такой же вывод верен и для коэффициента корреляции:

Рассмотрим теперь коэффициенты детерминации R 2 для полной и редуцированной модели. В полной модели значение R 2 всегда больше, чем в редуцированной, т.к. в полной модели с m объясняющими переменными минимизируем сумму

по всем значениям коэффициентов. При рассмотрении редуцированной модели, например, безm-ой объясняющей переменной, ищется минимум суммы

по всем значениям коэффициентов, Получаемое при этом значение минимума не может быть больше значения, получаемого при минимизации суммы отклонений по всем значениям, включая и значения. Отсюда и вытекает свойство коэффициента.

Для удобства процедуры выбора модели с использованием предлагается вместоиспользовать его скорректированную (adjusted) форму

в которой вводится штраф, связанный с увеличением числа объясняющих переменных. Получаем:

Таким образом, лучшей признается та из конкурирующих моделей, для которой принимает максимально возможное значение.

Если при сравнении конкурирующих моделей оценивание производится с использованием одинакового количества наблюдений, то сравнение моделей по величине эквивалентно сравнению этих моделей по значению или. При этом выбирается альтернативная модель с минимальным значением (или).

Кроме скорректированных коэффициентов детерминации, при выборе одной из нескольких альтернативных моделей используются информационные критерии, такие как критерий Шварца, критерий Акаике, «штрафующие» за увеличение объясняющих переменных, но несколько другими методами.

КритерийАкаике (Akaike"sinformationcriterion-AIC). Используя этот критерий линейная модель с объясняющими факторами, построенная по наблюдениям, сопоставляется сзначением

Остаточная сумма квадратов. Т.к. первое слагаемое с увеличениемчисла объясняющих переменных уменьшается, а второе слагаемое увеличивается, тоиз альтернативных моделей выбираем модель с наименьшим значением.Таким образом, достигается компромисс между остаточной суммой квадратов и числом объясняющих факторов.

КритерийШварца (Schwarz"sinformationcriterion-SC, SIC). Используя этот критерий линейная модель с объясняющими факторами, построенная по наблюдениям, сопоставляется сзначением

И здесь также как при использовании критерия Акаикеувеличение количества объясняющих факторов ведет к уменьшению первого слагаемогов правой части и к увеличению второго. Из полной и редуцированных альтернативных моделей выбирается модель с наименьшим значением.

25.07.16 Ирина Аничина

33095 0

В данной статье мы поговорим о том, как понять, качественную ли модель мы построили. Ведь именно качественная модель даст нам качественные прогнозы.

Prognoz Platform обладает обширным списком моделей для построения и анализа. Каждая модель имеет свою специфику и применяется при различных предпосылках.

Объект «Модель» позволяет построить следующие регрессионные модели:

  • Линейная регрессия (оценка методом наименьших квадратов);
  • Линейная регрессия (оценка методом инструментальных переменных);
  • Модель бинарного выбора (оценка методом максимального правдоподобия);
  • Нелинейная регрессия (оценка нелинейным методом наименьших квадратов).

Начнём с модели линейной регрессии. Многое из сказанного будет распространяться и на другие виды.

Модель линейной регрессии (оценка МНК)

где y – объясняемый ряд, x 1 , …, x k – объясняющие ряды, e – вектор ошибок модели, b 0 , b 1 , …, b k – коэффициенты модели.

Итак, куда смотреть?

Коэффициенты модели

Для каждого коэффициента на панели «Идентифицированное уравнение» вычисляется ряд статистик: стандартная ошибка, t -статистика , вероятность значимости коэффициента . Последняя является наиболее универсальной и показывает, с какой вероятностью удаление из модели фактора, соответствующего данному коэффициенту, не окажется значимым.

Открываем панель и смотрим на последний столбец, ведь он – именно тот, кто сразу же скажет нам о значимости коэффициентов.

Факторов с большой вероятностью незначимости в модели быть не должно.

Как вы видите, при исключении последнего фактора коэффициенты модели практически не изменились.

Возможные проблемы: Что делать, если согласно вашей теоретической модели фактор с большой вероятностью незначимости обязательно должен быть? Существуют и другие способы определения значимости коэффициентов. Например, взгляните на матрицу корреляции факторов.

Матрица корреляции

Панель «Корреляция факторов» содержит матрицу корреляции между всеми переменными модели, а также строит облако наблюдений для выделенной пары значений.

Коэффициент корреляции показывает силу линейной зависимости между двумя переменными. Он изменяется от -1 до 1. Близость к -1 говорит об отрицательной линейной зависимости, близость к 1 – о положительной.

Облако наблюдений позволяет визуально определить, похожа ли зависимость одной переменной от другой на линейную.

Если среди факторов встречаются сильно коррелирующие между собой, исключите один из них. При желании вместо модели обычной линейной регрессии вы можете построить модель с инструментальными переменными, включив в список инструментальных исключённые из-за корреляции факторы.

Матрица корреляции не имеет смысла для модели нелинейной регрессии, поскольку она показывает только силу линейной зависимости.

Критерии качества

Помимо проверки каждого коэффициента модели важно знать, насколько она хороша в целом. Для этого вычисляют статистики, расположенные на панели «Статистические характеристики».

Коэффициент детерминации (R 2 ) – наиболее распространённая статистика для оценки качества модели. R 2 рассчитывается по следующей формуле:

где n – число наблюдений; y i — значения объясняемой переменной; — среднее значение объясняемой переменной; i — модельные значения, построенные по оцененным параметрам.

R 2 принимает значение от 0 до 1 и показывает долю объяснённой дисперсии объясняемого ряда. Чем ближе R 2 к 1, тем лучше модель, тем меньше доля необъяснённого.

Возможные проблемы: Проблемы с использованием R 2 заключаются в том, что его значение не уменьшается при добавлении в уравнение факторов, сколь плохи бы они ни были. Он гарантированно будет равен 1, если мы добавим в модель столько факторов, сколько у нас наблюдений. Поэтому сравнивать модели с разным количеством факторов, используя R 2 , не имеет смысла.

Для более адекватной оценки модели используется скорректированный коэффициент детерминации (Adj R 2 ) . Как видно из названия, этот показатель представляет собой скорректированную версию R 2 , накладывая «штраф» за каждый добавленный фактор:

где k – число факторов, включенных в модель.

Коэффициент Adj R 2 также принимает значения от 0 до 1, но никогда не будет больше, чем значение R 2 .

Аналогом t -статистики коэффициента является статистика Фишера (F -статистика) . Однако если t -статистика проверяет гипотезу о незначимости одного коэффициента, то F -статистика проверяет гипотезу о том, что все факторы (кроме константы) являются незначимыми. Значение F -статистики также сравнивают с критическим, и для него мы также можем получить вероятность незначимости. Стоит понимать, что данный тест проверяет гипотезу о том, что все факторы одновременно являются незначимыми. Поэтому при наличии незначимых факторов модель в целом может быть значима.

Возможные проблемы: Большинство статистик строится для случая, когда модель включает в себя константу. Однако в Prognoz Platform мы имеем возможность убрать константу из списка оцениваемых коэффициентов. Стоит понимать, что такие манипуляции приводят к тому, что некоторые характеристики могут принимать недопустимые значения. Так, R 2 и Adj R 2 при отсутствии константы могут принимать отрицательные значения. В таком случае их уже не получится интерпретировать как долю, принимающую значение от 0 до 1.

Для моделей без константы в Prognoz Platform рассчитываются нецентрированные коэффициенты детерминации (R 2 и Adj R 2 ). Модифицированная формула приводит их значения к диапазону от 0 до 1 даже в модели без константы.

Посмотрим значения описанных критериев для приведённой выше модели:

Как мы видим, коэффициент детерминации достаточно велик, однако есть ещё значительная доля необъяснённой дисперсии. Статистика Фишера говорит о том, что выбранная нами совокупность факторов является значимой.

Сравнительные критерии

Кроме критериев, позволяющих говорить о качестве модели самой по себе, существует ряд характеристик, позволяющих сравнивать модели друг с другом (при условии, что мы объясняем один и тот же ряд на одном и том же периоде).

Большинство моделей регрессии сводятся к задаче минимизации суммы квадратов остатков (sum of squared residuals , SSR ) . Таким образом, сравнивая модели по этому показателю, можно определить, какая из моделей лучше объяснила исследуемый ряд. Такой модели будет соответствовать наименьшее значение суммы квадратов остатков.

Возможные проблемы: Стоит заметить, что с ростом числа факторов данный показатель так же, как и R 2 , будет стремиться к граничному значению (у SSR, очевидно, граничное значение 0).

Некоторые модели сводятся к максимизации логарифма функции максимального правдоподобия (LogL ) . Для модели линейной регрессии эти задачи приводят к одинаковому решению. На основе LogL строятся информационные критерии, часто используемые для решения задачи выбора как регрессионных моделей, так и моделей сглаживания:

  • информационный критерий Акаике (Akaike Information criterion , AIC )
  • критерий Шварца (Schwarz Criterion , SC )
  • критерий Ханнана-Куина (Hannan - Quinn Criterion , HQ )

Все критерии учитывают число наблюдений и число параметров модели и отличаются друг от друга видом «функции штрафа» за число параметров. Для информационных критериев действует правило: наилучшая модель имеет наименьшее значение критерия.

Сравним нашу модель с её первым вариантом (с «лишним» коэффициентом):

Как можно увидеть, данная модель хоть и дала меньшую сумму квадратов остатков, оказалась хуже по информационным критериям и по скорректированному коэффициенту детерминации.

Анализ остатков

Модель считается качественной, если остатки модели не коррелируют между собой. В противном случае имеет место постоянное однонаправленное воздействие на объясняемую переменную не учтённых в модели факторов. Это влияет на качество оценок модели, делая их неэффективными.

Для проверки остатков на автокорреляцию первого порядка (зависимость текущего значения от предыдущих) используется статистика Дарбина-Уотсона (DW ) . Её значение находится в промежутке от 0 до 4. В случае отсутствия автокорреляции DW близка к 2. Близость к 0 говорит о положительной автокорреляции, к 4 — об отрицательной.

Как оказалось, в нашей модели присутствует автокорреляция остатков. От автокорреляции можно избавиться, применив преобразование «Разность» к объясняемой переменной или воспользовавшись другим видом модели – моделью ARIMA или моделью ARMAX.

Возможные проблемы: Статистика Дарбина-Уотсона неприменима к моделям без константы, а также к моделям, которые в качестве факторов используют лагированные значения объясняемой переменной. В этих случаях статистика может показывать отсутствие автокорреляции при её наличии.

Модель линейной регрессии (метод инструментальных переменных)

Модель линейной регрессии с инструментальными переменными имеет вид:

где y – объясняемый ряд, x 1 , …, x k – объясняющие ряды, x ̃ 1 , …, x ̃ k – смоделированные при помощи инструментальных переменных объясняющие ряды, z 1 , …, z l – инструментальные переменные, e , j – вектора ошибок моделей, b 0 , b 1 , …, b k – коэффициенты модели, c 0 j , c 1 j , …, c lj – коэффициенты моделей для объясняющих рядов.

Схема, по которой следует проверять качество модели, является схожей, только к критериям качества добавляется J -статистика – аналог F -статистики, учитывающий инструментальные переменные.

Модель бинарного выбора

Объясняемой переменной в модели бинарного выбора является величина, принимающая только два значения – 0 или 1.

где y – объясняемый ряд, x 1 , …, x k – объясняющие ряды, e – вектор ошибок модели, b 0 , b 1 , …, b k – коэффициенты модели, F – неубывающая функция, возвращающая значения от 0 до 1.

Коэффициенты модели вычисляются методом, максимизирующим значение функции максимального правдоподобия. Для данной модели актуальными будут такие критерии качества, как:

  • Коэффициент детерминации МакФаддена (McFadden R 2 ) – аналог обычного R 2 ;
  • LR -статистика и её вероятность — аналог F -статистики;
  • Сравнительные критерии: LogL , AIC , SC , HQ.

Нелинейная регрессия

Под моделью линейной регрессии будем понимать модель вида:

где y – объясняемый ряд, x 1 , …, x k – объясняющие ряды, e – вектор ошибок модели, b – вектор коэффициентов модели.

Коэффициенты модели вычисляются методом, минимизирующим значение суммы квадратов остатков. Для данной модели будут актуальны те же критерии, что и для линейной регрессии, кроме проверки матрицы корреляций. Отметим ещё, что F-статистика будет проверять, является ли значимой модель в целом по сравнению с моделью y = b 0 + e , даже если в исходной модели у функции f (x 1 , …, x k , b ) нет слагаемого, соответствующего константе.

Итоги

Подведём итоги и представим перечень проверяемых характеристик в виде таблицы:

Надеюсь, данная статья была полезной для читателей! В следующий раз мы поговорим о других видах моделей, а именно ARIMA, ARMAX.

Cтраница 1


Значимость модели для решения конкретных исследовательских задач заключается в том, что она позволяет дать количественную оценку скрытых параметров, отражающих динамику двухпродуктовых систем. При решении таких задач понятия внутреннего (продукта I рода) и внешнего (продукта II рода) могут меняться. Так, в построенной В. М. Глушковым с сотрудниками (1979) модели биосинтеза белка роль продуктов I и II рода играют регуляторные и структурные белки, в модели иммунного ответа - соответственно стволовые клетки и лимфоциты, в модели регуляции сердечных сокращений - вещества, которые доставляются миокардиоцитам соответственно через коронарные сосуды и через аорту.  

Оценка значимости модели дается через / - критерий и / J2 для каждого уравнения в отдельности.  

Предположение о значимости модели основывается на двух положениях.  

Все это не умаляет значимости модели. Естественно, без йот немыслимо сущостжшание музыки.  

Наконец, максимальному ограничению значимости договорной модели как таковой способствовало то, что почти все действовавшие в этой области нормы носили абсолютно обязательный (императивный) характер.  

Применение дисперсионного анализа в дополнение к регрессионному позволяет оценить не только значимость модели в целом, но и значимость частных зависимостей.  

Из приведенных данных также следует, что при разбуривании более твердых пород значимости модели выше. Доказательство значимости полученной модели подтверждает гипотезу о нелинейной зависимости рассматриваемых параметров.  

Несмотря на успехи в развитии теории принятия решений она еще долго, по-видимому, будет находиться на промежуточном месте между искусством - умением принимать решения, присущим данному носителю решений, - и наукой как системой принципов, общих положений, процедур и методов. Однако это не снижает актуальности книги: число систем человек - ЭВМ будет увеличиваться, значение принятий решений в сложных ситуациях будет расти, и человек будет все более затрудняться решать соответствующие задачи старыми (точными и вероятностными) методами. Поэтому значимость моделей, использующих формализованные неопределенности на основе идей, отличных от математики случая, может только увеличиваться.  

При индуктивном подходе, характерном для процесса моделирования в рамках анализа хозяйственной деятельности, модель получается путем обобщения наблюдений по единичным частным фактам, учет которых считается важным для принятия решений. Индуктивным путем разрабатываются модели для решения конкретных проблем управления экономикой. Модели включают в себя учет специфических исторически сформированных свойств моделируемого процесса. Основной проблемой составления индуктивных моделей является выбор из совокупности единичных наблюдений тех, которые определяют сущность принимаемого решения, и представление их структуры и связей в формализованном виде. Значимость индуктивных моделей состоит в том, что путем упрощенного описания взаимосвязей информация, содержащаяся в большой совокупности наблюдений, будет представлена в наглядном и сжатом виде. Качество индуктивных моделей не определяется точностью копирования комплексной реальности путем символических систем, а зависит от того, насколько удается, с одной стороны, так упростить модель, чтобы добиться решения проблемы с приемлемыми затратами, но, с другой стороны, отразить основные свойства реальности.  

Если такого рода трудовые соглашения фиксируют уровень заработной платы, то когда ее рыночный уровень отклоняется от уровня, ожидаемого работниками и работодателями при подписании контракта, тогда и для работников, и для работодателей было бы оптимальным изменить установленную номинальную заработную плату. Следовательно, при том, что условия на рынке труда постоянно изменяются, было бы логичным предположить, что с течением времени подобные трудовые соглашения перестанут существовать. Работники и работодатели придут к тому, что номинальную заработную плату нужно менять каждый день, что приведет к эластичной изменчивости номинальной заработной платы в соответствии с динамикой спроса и предложения на рынке труда. На самом деле подтверждением верности подобной критики служит резкое сокращение деятельности профсоюзов в отраслях США в конце 1970 - х - 1980 - е годы. Конечно же, работники, не состоящие в профсоюзах, часто имеют официальные или неофициальные трудовые соглашения с работодателями, но некоторые экономисты считают, что подобное снижение доли состоящих в профсоюзах является подтверждением снижения значимости модели коллективных договоров для экономики США.