15.10.2019

Уравнение регрессии. Уравнение множественной регрессии. Основы линейной регрессии


Регрессионный анализ -- метод моделирования измеряемых данных и исследования их свойств. Данные состоят из пар значений зависимой переменной (переменной отклика) и независимой переменной (объясняющей переменной). Регрессионная модель есть функция независимой переменной и параметров с добавленной случайной переменной.

Корреляционный анализ и регрессионный анализ являются смежными разделами математической статистики, и предназначаются для изучения по выборочным данным статистической зависимости ряда величин; некоторые из которых являются случайными. При статистической зависимости величины не связаны функционально, но как случайные величины заданы совместным распределением вероятностей.

Исследование зависимости случайных величин приводит к моделям регрессии и регрессионному анализу на базе выборочных данных. Теория вероятностей и математическая статистика представляют лишь инструмент для изучения статистической зависимости, но не ставят своей целью установление причинной связи. Представления и гипотезы о причинной связи должны быть привнесены из некоторой другой теории, которая позволяет содержательно объяснить изучаемое явление.

Числовые данные обычно имеют между собой явные (известные) или неявные (скрытые) связи.

Явно связаны показатели, которые получены методами прямого счета, т. е. вычислены по заранее известным формулам. Например, проценты выполнения плана, уровни, удельные веса, отклонения в сумме, отклонения в процентах, темпы роста, темпы прироста, индексы и т. д.

Связи же второго типа (неявные) заранее неизвестны. Однако необходимо уметь объяснять и предсказывать (прогнозировать) сложные явления для того, чтобы управлять ими. Поэтому специалисты с помощью наблюдений стремятся выявить скрытые зависимости и выразить их в виде формул, т. е. математически смоделировать явления или процессы. Одну из таких возможностей предоставляет корреляционно-регрессионный анализ.

Математические модели строятся и используются для трех обобщенных целей:

  • * для объяснения;
  • * для предсказания;
  • * для управления.

Пользуясь методами корреляционно-регрессионного анализа, аналитики измеряют тесноту связей показателей с помощью коэффициента корреляции. При этом обнаруживаются связи, различные по силе (сильные, слабые, умеренные и др.) и различные по направлению (прямые, обратные). Если связи окажутся существенными, то целесообразно будет найти их математическое выражение в виде регрессионной модели и оценить статистическую значимость модели.

Регрессионный анализ называют основным методом современной математической статистики для выявления неявных и завуалированных связей между данными наблюдений.

Постановка задачи регрессионного анализа формулируется следующим образом.

Имеется совокупность результатов наблюдений. В этой совокупности один столбец соответствует показателю, для которого необходимо установить функциональную зависимость с параметрами объекта и среды, представленными остальными столбцами. Требуется: установить количественную взаимосвязь между показателем и факторами. В таком случае задача регрессионного анализа понимается как задача выявления такой функциональной зависимости y = f (x2, x3, …, xт), которая наилучшим образом описывает имеющиеся экспериментальные данные.

Допущения:

количество наблюдений достаточно для проявления статистических закономерностей относительно факторов и их взаимосвязей;

обрабатываемые данные содержат некоторые ошибки (помехи), обусловленные погрешностями измерений, воздействием неучтенных случайных факторов;

матрица результатов наблюдений является единственной информацией об изучаемом объекте, имеющейся в распоряжении перед началом исследования.

Функция f (x2, x3, …, xт), описывающая зависимость показателя от параметров, называется уравнением (функцией) регрессии. Термин "регрессия" (regression (лат.) - отступление, возврат к чему-либо) связан со спецификой одной из конкретных задач, решенных на стадии становления метода.

Решение задачи регрессионного анализа целесообразно разбить на несколько этапов:

предварительная обработка данных;

выбор вида уравнений регрессии;

вычисление коэффициентов уравнения регрессии;

проверка адекватности построенной функции результатам наблюдений.

Предварительная обработка включает стандартизацию матрицы данных, расчет коэффициентов корреляции, проверку их значимости и исключение из рассмотрения незначимых параметров.

Выбор вида уравнения регрессии Задача определения функциональной зависимости, наилучшим образом описывающей данные, связана с преодолением ряда принципиальных трудностей. В общем случае для стандартизованных данных функциональную зависимость показателя от параметров можно представить в виде

y = f (x1, x2, …, xm) + e

где f - заранее не известная функция, подлежащая определению;

e - ошибка аппроксимации данных.

Указанное уравнение принято называть выборочным уравнением регрессии. Это уравнение характеризует зависимость между вариацией показателя и вариациями факторов. А мера корреляции измеряет долю вариации показателя, которая связана с вариацией факторов. Иначе говоря, корреляцию показателя и факторов нельзя трактовать как связь их уровней, а регрессионный анализ не объясняет роли факторов в создании показателя.

Еще одна особенность касается оценки степени влияния каждого фактора на показатель. Регрессионное уравнение не обеспечивает оценку раздельного влияния каждого фактора на показатель, такая оценка возможна лишь в случае, когда все другие факторы не связаны с изучаемым. Если изучаемый фактор связан с другими, влияющими на показатель, то будет получена смешанная характеристика влияния фактора. Эта характеристика содержит как непосредственное влияние фактора, так и опосредованное влияние, оказанное через связь с другими факторами и их влиянием на показатель.

В регрессионное уравнение не рекомендуется включать факторы, слабо связанные с показателем, но тесно связанные с другими факторами. Не включают в уравнение и факторы, функционально связанные друг с другом (для них коэффициент корреляции равен 1). Включение таких факторов приводит к вырождению системы уравнений для оценок коэффициентов регрессии и к неопределенности решения.

Функция f должна подбираться так, чтобы ошибка e в некотором смысле была минимальна. В целях выбора функциональной связи заранее выдвигают гипотезу о том, к какому классу может принадлежать функция f, а затем подбирают "лучшую" функцию в этом классе. Выбранный класс функций должен обладать некоторой "гладкостью", т.е. "небольшие" изменения значений аргументов должны вызывать "небольшие" изменения значений функции.

Частным случаем, широко применяемым на практике, является полином первой степени или уравнение линейной регрессии

Для выбора вида функциональной зависимости можно рекомендовать следующий подход:

в пространстве параметров графически отображают точки со значениями показателя. При большом количестве параметров можно строить точки применительно к каждому из них, получая двумерные распределения значений;

по расположению точек и на основе анализа сущности взаимосвязи показателя и параметров объекта делают заключение о примерном виде регрессии или ее возможных вариантах;

после расчета параметров оценивают качество аппроксимации, т.е. оценивают степень близости расчетных и фактических значений;

если расчетные и фактические значения близки во всей области задания, то задачу регрессионного анализа можно считать решенной. В противном случае можно попытаться выбрать другой вид полинома или другую аналитическую функцию, например периодическую.

Вычисление коэффициентов уравнения регрессии

Систему уравнений на основе имеющихся данных однозначно решить невозможно, так как количество неизвестных всегда больше количества уравнений. Для преодоления этой проблемы нужны дополнительные допущения. Здравый смысл подсказывает: желательно выбрать коэффициенты полинома так, чтобы обеспечить минимум ошибки аппроксимации данных. Могут применяться различные меры для оценки ошибок аппроксимации. В качестве такой меры нашла широкое применение среднеквадратическая ошибка. На ее основе разработан специальный метод оценки коэффициентов уравнений регрессии - метод наименьших квадратов (МНК). Этот метод позволяет получить оценки максимального правдоподобия неизвестных коэффициентов уравнения регрессии при нормальном распределения вариант, но его можно применять и при любом другом распределении факторов.

В основе МНК лежат следующие положения:

значения величин ошибок и факторов независимы, а значит, и некоррелированы, т.е. предполагается, что механизмы порождения помехи не связаны с механизмом формирования значений факторов;

математическое ожидание ошибки e должно быть равно нулю (постоянная составляющая входит в коэффициент a0), иначе говоря, ошибка является центрированной величиной;

выборочная оценка дисперсии ошибки должна быть минимальна.

Если же линейная модель неточна или параметры измеряются неточно, то и в этом случае МНК позволяет найти такие значения коэффициентов, при которых линейная модель наилучшим образом описывает реальный объект в смысле выбранного критерия среднеквадратического отклонения.

Качество полученного уравнения регрессии оценивают по степени близости между результатами наблюдений за показателем и предсказанными по уравнению регрессии значениями в заданных точках пространства параметров. Если результаты близки, то задачу регрессионного анализа можно считать решенной. В противном случае следует изменить уравнение регрессии и повторить расчеты по оценке параметров.

При наличии нескольких показателей задача регрессионного анализа решается независимо для каждого из них.

Анализируя сущность уравнения регрессии, следует отметить следующие положения. Рассмотренный подход не обеспечивает раздельной (независимой) оценки коэффициентов - изменение значения одного коэффициента влечет изменение значений других. Полученные коэффициенты не следует рассматривать как вклад соответствующего параметра в значение показателя. Уравнение регрессии является всего лишь хорошим аналитическим описанием имеющихся данных, а не законом, описывающим взаимосвязи параметров и показателя. Это уравнение применяют для расчета значений показателя в заданном диапазоне изменения параметров. Оно ограниченно пригодно для расчета вне этого диапазона, т.е. его можно применять для решения задач интерполяции и в ограниченной степени для экстраполяции.

Главной причиной неточности прогноза является не столько неопределенность экстраполяции линии регрессии, сколько значительная вариация показателя за счет неучтенных в модели факторов. Ограничением возможности прогнозирования служит условие стабильности неучтенных в модели параметров и характера влияния учтенных факторов модели. Если резко меняется внешняя среда, то составленное уравнение регрессии потеряет свой смысл.

Прогноз, полученный подстановкой в уравнение регрессии ожидаемого значения параметра, является точечным. Вероятность реализации такого прогноза ничтожна мала. Целесообразно определить доверительный интервал прогноза. Для индивидуальных значений показателя интервал должен учитывать ошибки в положении линии регрессии и отклонения индивидуальных значений от этой линии .

Регрессионный анализ лежит в основе создания большинства эконометрических моделей, к числу которых следует отнести и модели оценки стоимости. Для построения моделей оценки этот метод можно использовать, если количество аналогов (сопоставимых объектов) и количество факторов стоимости (элементов сравнения) соотносятся между собой следующим образом: п > (5 -г-10) х к, т.е. аналогов должно быть в 5-10 раз больше, чем факторов стоимости. Это же требование к соотношению количества данных и количества факторов распространяется и на другие задачи: установление связи между стоимостью и потребительскими параметрами объекта; обоснование порядка расчета корректирующих индексов; выяснение трендов цен; установление связи между износом и изменениями влияющих факторов; получение зависимостей для расчета нормативов затрат и т.п. Выполнение данного требования необходимо для того, чтобы уменьшить вероятность работы с выборкой данных, которая не удовлетворяет требованию нормальности распределения случайных величин.

Регрессионная связь отражает лишь усредненную тенденцию изменения результирующей переменной, например, стоимости, от изменения одной или нескольких факторных переменных, например, местоположения, количества комнат, площади, этажа и т.п. В этом заключается отличие регрессионной связи от функциональной, при которой значение результирующей переменной строго определено при заданном значении факторных переменных.

Наличие регрессионной связи / между результирующей у и факторными переменными х р ..., х к (факторами) свидетельствует о том, что эта связь определяется не только влиянием отобранных факторных переменных, но и влиянием переменных, одни из которых вообще неизвестны, другие не поддаются оценке и учету:

Влияние неучтенных переменных обозначается вторым слагаемым данного уравнения ?, которое называют ошибкой аппроксимации.

Различают следующие типы регрессионных зависимостей:

  • ? парная регрессия - связь между двумя переменными (результирующей и факторной);
  • ? множественная регрессия - зависимость одной результирующей переменной и двух или более факторных переменных, включенных в исследование.

Основная задача регрессионного анализа - количественное определение тесноты связи между переменными (при парной регрессии) и множеством переменных (при множественной регрессии). Теснота связи количественно выражается коэффициентом корреляции.

Применение регрессионного анализа позволяет установить закономерность влияния основных факторов (гедонистических характеристик ) на изучаемый показатель как в их совокупности, так и каждого из них в отдельности. С помощью регрессионного анализа, как метода математической статистики, удается, во-первых, найти и описать форму аналитической зависимости результирующей (искомой) переменной от факторных и, во-вторых, оценить тесноту этой зависимости.

Благодаря решению первой задачи получают математическую регрессионную модель, с помощью которой затем рассчитывают искомый показатель при заданных значениях факторов. Решение второй задачи позволяет установить надежность рассчитанного результата.

Таким образом, регрессионный анализ можно определить как совокупность формальных (математических) процедур, предназначенных для измерения тесноты, направления и аналитического выражения формы связи между результирующей и факторными переменными, т.е. на выходе такого анализа должна быть структурно и количественно определенная статистическая модель вида:

где у - среднее значение результирующей переменной (искомого показателя, например, стоимости, аренды, ставки капитализации) по п ее наблюдениям; х - значение факторной переменной (/-й фактор стоимости); к - количество факторных переменных.

Функция f(x l ,...,x lc), описывающая зависимость результирующей переменной от факторных, называется уравнением (функцией) регрессии. Термин «регрессия» (regression (лат.) - отступление, возврат к чему-либо) связан со спецификой одной из конкретных задач, решенных на стадии становления метода, и в настоящее время не отражает всей сущности метода, но продолжает применяться.

Регрессионный анализ в общем случае включает следующие этапы:

  • ? формирование выборки однородных объектов и сбор исходной информации об этих объектах;
  • ? отбор основных факторов, влияющих на результирующую переменную;
  • ? проверка выборки на нормальность с использованием х 2 или биноминального критерия;
  • ? принятие гипотезы о форме связи;
  • ? математическую обработку данных;
  • ? получение регрессионной модели;
  • ? оценку ее статистических показателей;
  • ? поверочные расчеты с помощью регрессионной модели;
  • ? анализ результатов.

Указанная последовательность операций имеет место при исследовании как парной связи между факторной переменной и одной результирующей, так и множественной связи между результирующей переменной и несколькими факторными.

Применение регрессионного анализа предъявляет к исходной информации определенные требования:

  • ? статистическая выборка объектов должна быть однородной в функциональном и конструктивно-технологическом отношениях;
  • ? достаточно многочисленной;
  • ? исследуемый стоимостной показатель - результирующая переменная (цена, себестоимость, затраты) - должен быть приведен к одним условиям его исчисления у всех объектов в выборке;
  • ? факторные переменные должны быть измерены достаточно точно;
  • ? факторные переменные должны быть независимы либо минимально зависимы.

Требования однородности и полноты выборки находятся в противоречии: чем жестче ведут отбор объектов по их однородности, тем меньше получают выборку, и, наоборот, для укрупнения выборки приходится включать в нее не очень схожие между собой объекты.

После того как собраны данные по группе однородных объектов, проводят их анализ для установления формы связи между результирующей и факторными переменными в виде теоретической линии регрессии. Процесс нахождения теоретической линии регрессии заключается в обоснованном выборе аппроксимирующей кривой и расчете коэффициентов ее уравнения. Линия регрессии представляет собой плавную кривую (в частном случае прямую), описывающую с помощью математической функции общую тенденцию исследуемой зависимости и сглаживающую незакономерные, случайные выбросы от влияния побочных факторов.

Для отображения парных регрессионных зависимостей в задачах по оценке чаще всего используют следующие функции: линейную - у - а 0 + арс + с степенную - у - aj&i + с показательную - у - линейно-показательную - у - а 0 + ар* + с. Здесь - е ошибка аппроксимации, обусловленная действием неучтенных случайных факторов.

В этих функциях у - результирующая переменная; х - факторная переменная (фактор); а 0 , а р а 2 - параметры регрессионной модели, коэффициенты регрессии.

Линейно-показательная модель относится к классу так называемых гибридных моделей вида:

где

где х (i = 1, /) - значения факторов;

b t (i = 0, /) - коэффициенты регрессионного уравнения.

В данном уравнении составляющие А, В и Z соответствуют стоимости отдельных составляющих оцениваемого актива, например, стоимости земельного участка и стоимости улучшений, а параметр Q является общим. Он предназначен для корректировки стоимости всех составляющих оцениваемого актива на общий фактор влияния, например, местоположение.

Значения факторов, находящихся в степени соответствующих коэффициентов, представляют собой бинарные переменные (0 или 1). Факторы, находящиеся в основании степени, - дискретные или непрерывные переменные.

Факторы, связанные с коэффициентами знаком умножения, также являются непрерывными или дискретными.

Спецификация осуществляется, как правило, с использованием эмпирического подхода и включает два этапа:

  • ? нанесение на график точек регрессионного поля;
  • ? графический (визуальный) анализ вида возможной аппроксимирующей кривой.

Тип кривой регрессии не всегда можно выбрать сразу. Для его определения сначала наносят на график точки регрессионного поля по исходным данным. Затем визуально проводят линию по положению точек, стремясь выяснить качественную закономерность связи: равномерный рост или равномерное снижение, рост (снижение) с возрастанием (убыванием) темпа динамики, плавное приближение к некоторому уровню.

Этот эмпирический подход дополняют логическим анализом, отталкиваясь от уже известных представлений об экономической и физической природе исследуемых факторов и их взаимовлияния.

Например, известно, что зависимости результирующих переменных - экономических показателей (цены, аренды) от ряда факторных переменных - ценообразующих факторов (расстояния от центра поселения, площади и др.) имеют нелинейный характер, и достаточно строго их можно описать степенной, экспоненциальной или квадратичной функциями. Но при небольших диапазонах изменения факторов приемлемые результаты можно получить и с помощью линейной функции.

Если все же невозможно сразу сделать уверенный выбор какой- либо одной функции, то отбирают две-три функции, рассчитывают их параметры и далее, используя соответствующие критерии тесноты связи, окончательно выбирают функцию.

В теории регрессионный процесс нахождения формы кривой называется спецификацией модели, а ее коэффициентов - калибровкой модели.

Если обнаружено, что результирующая переменная у зависит от нескольких факторных переменных (факторов) х { , х 2 , ..., х к, то прибегают к построению множественной регрессионной модели. Обычно при этом используют три формы множественной связи: линейную - у - а 0 + а х х х + а^х 2 + ... + а к х к, показательную - у - а 0 a *i а х т- а х ь, степенную - у - а 0 х х ix 2 a 2. .х^или их комбинации.

Показательная и степенная функции более универсальны, так как аппроксимируют нелинейные связи, каковыми и является большинство исследуемых в оценке зависимостей. Кроме того, они могут быть применены при оценке объектов и в методе статистического моделирования при массовой оценке, и в методе прямого сравнения в индивидуальной оценке при установлении корректирующих коэффициентов.

На этапе калибровки параметры регрессионной модели рассчитывают методом наименьших квадратов, суть которого состоит в том, что сумма квадратов отклонений вычисленных значений результирующей переменной у ., т.е. рассчитанных по выбранному уравнению связи, от фактических значений должна быть минимальной:

Значения j) (. и у. известны, поэтому Q является функцией только коэффициентов уравнения. Для отыскания минимума S нужно взять частные производные Q по коэффициентам уравнения и приравнять их к нулю:

В результате получаем систему нормальных уравнений, число которых равно числу определяемых коэффициентов искомого уравнения регрессии.

Положим, нужно найти коэффициенты линейного уравнения у - а 0 + арс. Сумма квадратов отклонений имеет вид:

/=1

Дифференцируют функцию Q по неизвестным коэффициентам а 0 и и приравнивают частные производные к нулю:

После преобразований получают:

где п - количество исходных фактических значений у их (количество аналогов).

Приведенный порядок расчета коэффициентов регрессионного уравнения применим и для нелинейных зависимостей, если эти зависимости можно линеаризовать, т.е. привести к линейной форме с помощью замены переменных. Степенная и показательная функции после логарифмирования и соответствующей замены переменных приобретают линейную форму. Например, степенная функция после логарифмирования приобретает вид: In у = 1пя 0 +а х 1пх. После замены переменных Y- In у, Л 0 - In а № X- In х получаем линейную функцию

Y=A 0 + cijX, коэффициенты которой находят описанным выше способом.

Метод наименьших квадратов применяют и для расчета коэффициентов множественной регрессионной модели. Так, система нормальных уравнений для расчета линейной функции с двумя переменными Xj и х 2 после ряда преобразований имеет следующий вид:

Обычно данную систему уравнений решают, используя методы линейной алгебры. Множественную степенную функцию приводят к линейной форме путем логарифмирования и замены переменных таким же образом, как и парную степенную функцию.

При использовании гибридных моделей коэффициенты множественной регрессии находятся с использованием численных процедур метода последовательных приближений.

Чтобы сделать окончательный выбор из нескольких регрессионных уравнений, необходимо проверить каждое уравнение на тесноту связи, которая измеряется коэффициентом корреляции, дисперсией и коэффициентом вариации. Для оценки можно использовать также критерии Стьюдента и Фишера. Чем большую тесноту связи обнаруживает кривая, тем она более предпочтительна при прочих равных условиях.

Если решается задача такого класса, когда надо установить зависимость стоимостного показателя от факторов стоимости, то понятно стремление учесть как можно больше влияющих факторов и построить тем самым более точную множественную регрессионную модель. Однако расширению числа факторов препятствуют два объективных ограничения. Во-первых, для построения множественной регрессионной модели требуется значительно более объемная выборка объектов, чем для построения парной модели. Принято считать, что количество объектов в выборке должно превышать количество п факторов, по крайней мере, в 5-10 раз. Отсюда следует, что для построения модели с тремя влияющими факторами надо собрать выборку примерно из 20 объектов с разным набором значений факторов. Во-вторых, отбираемые для модели факторы в своем влиянии на стоимостный показатель должны быть достаточно независимы друг от друга. Это обеспечить непросто, поскольку выборка обычно объединяет объекты, относящиеся к одному семейству, у которых имеет место закономерное изменение многих факторов от объекта к объекту.

Качество регрессионных моделей, как правило, проверяют с использованием следующих статистических показателей.

Стандартное отклонение ошибки уравнения регрессии (ошибка оценки):

где п - объем выборки (количество аналогов);

к - количество факторов (факторов стоимости);

Ошибка, необъясняемая регрессионным уравнением (рис. 3.2);

у. - фактическое значение результирующей переменной (например, стоимости); y t - расчетное значение результирующей переменной.

Этот показатель также называют стандартной ошибкой оценки {СКО ошибки ). На рисунке точками обозначены конкретные значения выборки, символом обозначена линия среднего значений выборки, наклонная штрихпунктирная линия - это линия регрессии.


Рис. 3.2.

Стандартное отклонение ошибки оценки измеряет величину отклонения фактических значений у от соответствующих расчетных значений у { , полученных с помощью регрессионной модели. Если выборка, на которой построена модель, подчинена нормальному закону распределения, то можно утверждать, что 68% реальных значений у находятся в диапазоне у ± & е от линии регрессии, а 95% - в диапазоне у ± 2d e . Этот показатель удобен тем, что единицы измерения сг? совпадают с единицами измерения у ,. В этой связи его можно использовать для указания точности получаемого в процессе оценки результата. Например, в сертификате стоимости можно указать, что полученное с использованием регрессионной модели значение рыночной стоимости V с вероятностью 95% находится в диапазоне от (V -2d,.) до + 2d s).

Коэффициент вариации результирующей переменной:

где у - среднее значение результирующей переменной (рис. 3.2).

В регрессионном анализе коэффициент вариации var представляет собой стандартное отклонение результата, выраженное в виде процентного отношения к среднему значению результирующей переменной. Коэффициент вариации может служить критерием прогнозных качеств полученной регрессионной модели: чем меньше величина var , тем более высокими являются прогнозные качества модели. Использование коэффициента вариации предпочтительнее показателя & е, так как он является относительным показателем. При практическом использовании данного показателя можно порекомендовать не применять модель, коэффициент вариации которой превышает 33%, так как в этом случае нельзя говорить о том, что данные выборки подчинены нормальному закону распределения.

Коэффициент детерминации (квадрат коэффициента множественной корреляции):

Данный показатель используется для анализа общего качества полученной регрессионной модели. Он указывает, какой процент вариации результирующей переменной объясняется влиянием всех включенных в модель факторных переменных. Коэффициент детерминации всегда лежит в интервале от нуля до единицы. Чем ближе значение коэффициента детерминации к единице, тем лучше модель описывает исходный ряд данных. Коэффициент детерминации можно представить иначе:

Здесь- ошибка, объясняемая регрессионной моделью,

а - ошибка, необъясняемая

регрессионной моделью. С экономической точки зрения данный критерий позволяет судить о том, какой процент вариации цен объясняется регрессионным уравнением.

Точную границу приемлемости показателя R 2 для всех случаев указать невозможно. Нужно принимать во внимание и объем выборки, и содержательную интерпретацию уравнения. Как правило, при исследовании данных об однотипных объектах, полученных примерно в один и тот же момент времени величина R 2 не превышает уровня 0,6-0,7. Если все ошибки прогнозирования равны нулю, т.е. когда связь между результирующей и факторными переменными является функциональной, то R 2 =1.

Скорректированный коэффициент детерминации:

Необходимость введения скорректированного коэффициента детерминации объясняется тем, что при увеличении числа факторов к обычный коэффициент детерминации практически всегда увеличивается, но уменьшается число степеней свободы (п - к - 1). Введенная корректировка всегда уменьшает значение R 2 , поскольку (п - 1) > {п- к - 1). В результате величина R 2 CKOf) даже может стать отрицательной. Это означает, что величина R 2 была близка к нулю до корректировки и объясняемая с помощью уравнения регрессии доля дисперсии переменной у очень мала.

Из двух вариантов регрессионных моделей, которые различаются величиной скорректированного коэффициента детерминации, но имеют одинаково хорошие другие критерии качества, предпочтительнее вариант с большим значением скорректированного коэффициента детерминации. Корректировка коэффициента детерминации не производится, если (п - к): к> 20.

Коэффициент Фишера:

Данный критерий используется для оценки значимости коэффициента детерминации. Остаточная сумма квадратов представляет собой показатель ошибки предсказания с помощью регрессии известных значений стоимости у.. Ее сравнение с регрессионной суммой квадратов показывает, во сколько раз регрессионная зависимость предсказывает результат лучше, чем среднее у . Существует таблица критических значений F R коэффициента Фишера, зависящих от числа степеней свободы числителя - к , знаменателя v 2 = п - к - 1 и уровня значимости а. Если вычисленное значение критерия Фишера F R больше табличного значения, то гипотеза о незначимости коэффициента детерминации, т.е. о несоответствии заложенных в уравнении регрессии связей реально существующим, с вероятностью р = 1 - а отвергается.

Средняя ошибка аппроксимации (среднее процентное отклонение) вычисляется как средняя относительная разность, выраженная в процентах, между фактическими и расчетными значениями результирующей переменной:

Чем меньше значение данного показателя, тем лучше прогнозные качества модели. При значении данного показателя не выше 7% говорят о высокой точности модели. Если 8 > 15%, говорят о неудовлетворительной точности модели.

Стандартная ошибка коэффициента регрессии:

где (/I) -1 .- диагональный элемент матрицы {Х Г Х)~ 1 к - количество факторов;

X - матрица значений факторных переменных:

X 7 - транспонированная матрица значений факторных переменных;

(ЖЛ) _| - матрица, обратная матрице.

Чем меньше эти показатели для каждого коэффициента регрессии, тем надежнее оценка соответствующего коэффициента регрессии.

Критерий Стьюдента (t-статистика):

Этот критерий позволяет измерить степень надежности (существенности) связи, обусловленной данным коэффициентом регрессии. Если вычисленное значение t . больше табличного значения

t av , где v - п - к - 1 - число степеней свободы, то гипотеза о том, что данный коэффициент является статистически незначимым, отвергается с вероятностью (100 - а)%. Существуют специальные таблицы /-распределения, позволяющие по заданному уровню значимости а и числу степеней свободы v определять критическое значение критерия. Наиболее часто употребляемое значение а равно 5%.

Мультиколлинеарность , т.е. эффект взаимных связей между факторными переменными, приводит к необходимости довольствоваться ограниченным их числом. Если это не учесть, то можно в итоге получить нелогичную регрессионную модель. Чтобы избежать негативного эффекта мультиколлинеарности, до построения множественной регрессионной модели рассчитываются коэффициенты парной корреляции r xjxj между отобранными переменными х. и х

Здесь XjX; - среднее значение произведения двух факторных переменных;

XjXj - произведение средних значений двух факторных переменных;

Оценка дисперсии факторной переменной х..

Считается, что две переменные регрессионно связаны между собой (т.е. коллинеарные), если коэффициент их парной корреляции по абсолютной величине строго больше 0,8. В этом случае какую-либо из этих переменных надо исключить из рассмотрения.

С целью расширения возможностей экономического анализа получаемых регрессионных моделей используются средние коэффициенты эластичности, определяемые по формуле:

где Xj - среднее значение соответствующей факторной переменной;

у - среднее значение результирующей переменной; a i - коэффициент регрессии при соответствующей факторной переменной.

Коэффициент эластичности показывает, на сколько процентов в среднем изменится значение результирующей переменной при изменении факторной переменной на 1 %, т.е. как реагирует результирующая переменная на изменение факторной переменной. Например, как реагирует цена кв. м площади квартиры на удаление от центра города.

Полезным с точки зрения анализа значимости того или иного коэффициента регрессии является оценка частного коэффициента детерминации:

Здесь - оценка дисперсии результирующей

переменной. Данный коэффициент показывает, на сколько процентов вариация результирующей переменной объясняется вариацией /-й факторной переменной, входящей в уравнение регрессии.

  • Под гедонистическими характеристиками понимаются характеристики объекта, отражающие его полезные (ценные) с точки зрения покупателей и продавцов свойства.

В своих работах, датированных ещё 1908 годом. Он описал его на примере работы агента, осуществляющего продажу недвижимости. В своих записях специалист по торговле домами вёл учёт широкого спектра исходных данных каждого конкретного строения. По результатам торгов определялось, какой фактор имел наибольшее влияние на цену сделки.

Анализ большого количества сделок дал интересные результаты. На конечную стоимость оказывали влияние множество факторов, иногда приводя к парадоксальным выводам и даже к явным «выбросам», когда дом с высоким изначальным потенциалом продавался по заниженному ценовому показателю.

Вторым примером применения подобного анализа приведена работа которому было доверено определение вознаграждения сотрудникам. Сложность задачи заключалась в том, что требовалась не раздача фиксированной суммы каждому, а строгое соответствие её величины конкретно выполненной работе. Появление множества задач, имеющих практически сходный вариант решения, потребовало более детального их изучения на математическом уровне.

В существенное место было отведено под раздел «регрессионный анализ», в нём объединились практические методы, используемые для исследования зависимостей, подпадающих под понятие регрессионных. Эти взаимосвязи наблюдаются между данными, полученными в ходе статистических исследований.

Среди множества решаемых задач основными ставит перед собой три цели: определение для уравнения регрессии общего вида; построение оценок параметров, являющихся неизвестными, которые входят в состав уравнения регрессии; проверка статистических регрессионных гипотез. В ходе изучения связи, возникающей между парой величин, полученных в результате экспериментальных наблюдений и составляющих ряд (множество) типа (x1, y1), ..., (xn, yn), опираются на положения теории регрессии и предполагают, что для одной величины Y наблюдается определённое вероятностное распределение, при том, что другое X остаётся фиксированным.

Результат Y зависит от значения переменной X, зависимость эта может определяться различными закономерностями, при этом на точность полученных результатов оказывает влияние характер наблюдений и цель анализа. Экспериментальная модель основывается на определённых допущениях, которые являются упрощёнными, но правдоподобными. Основным условием является то, что параметр X является величиной контролируемой. Его значения задаются до начала эксперимента.

Если в ходе эксперимента используется пара неконтролируемых величин XY, то регрессионный анализ осуществляется одним и тем же способом, но для интерпретации результатов, в ходе которой изучается связь исследуемых случайных величин, применяются методы Методы математической статистики не являются отвлеченной темой. Они находят себе применение в жизни в самых различных сферах деятельности человека.

В научной литературе для определения выше указанного метода нашёл широкое использование термин линейный регрессионный анализ. Для переменной X применяют термин регрессор или предиктор, а зависимые Y-переменные ещё называют критериальными. В данной терминологии отражается лишь математическая зависимость переменных, но никак не следственно-причинные отношения.

Регрессионный анализ служит наиболее распространённым методом, который используется в ходе обработки результатов самых различных наблюдений. Физические и биологические зависимости изучаются по средствам данного метода, он реализован и в экономике, и в технике. Масса других областей используют модели регрессионного анализа. Дисперсионный анализ, статистический анализ многомерный тесно сотрудничают с данным способом изучения.

Понятия корреляции и регрессии непосредственно связаны меж­ду собой. В корреляционном и регрессионном анализе много общих вычислительных приемов. Они используются для выявления причин­но-следственных соотношений между явлениями и процессами. Одна­ко, если корреляционный анализ позволяет оценить силу и направ­ление стохастической связи, то регрессионный анализ - еще и фор­му зависимости.

Регрессия может быть:

а) в зависимости от числа явлений (переменных):

Простой (регрессия между двумя переменными);

Множественной (регрессия между зависимой переменной (y) и несколькими объясняющими ее переменными (х1, х2...хn);

б) в зависимости от формы:

Линейной (отображается линейной функцией, а между изучае­мыми переменными существуют линейные соотношения);

Нелинейной (отображается нелинейной функцией, между изу­чаемыми переменными связь носит нелинейный характер);

в) по характеру связи между включенными в рассмотрение пе­ременными:

Положительной (увеличение значения объясняющей переменной приводит к увеличению значения зависимой переменной и наоборот);

Отрицательной (с увеличением значения объясняющей переменной значение объясняемой переменной уменьшается);

г) по типу:

Непосредственной (в этом случае причина оказывает прямое воздействие на следствие, т.е. зависимая и объясняющая перемен­ные связаны непосредственно друг с другом);

Косвенной (объясняющая переменная оказывает опосредован­ное действие через третью или ряд других переменных на зависимую переменную);

Ложной (нонсенс регрессия) - может возникнуть при поверх­ностном и формальном подходе к исследуемым процессам и явлениям. Примером бессмысленных является регрессия, устанавливающая связь между уменьшением количества потребляемого алкоголя в нашей стране и уменьшением продажи стирального порошка.

При проведении регрессионного анализа решаются следующие основные задачи:

1. Определение формы зависимости.

2. Определение функции регрессии. Для этого используют ма­тематическое уравнение того или иного типа, позволяющее, во-пер­вых, установить общую тенденцию изменения зависимой перемен­ной, а, во-вторых, вычислить влияние объясняющей переменной (или нескольких переменных) на зависимую переменную.

3. Оценка неизвестных значений зависимой переменной. Полу­ченная математическая зависимость (уравнение регрессии) позволя­ет определять значение зависимой переменной как в пределах ин­тервала заданных значений объясняющих переменных, так и за его пределами. В последнем случае регрессионный анализ выступает в качестве полезного инструмента при прогнозировании изменений со­циально-экономических процессов и явлений (при условии сохране­ния существующих тенденций и взаимосвязей). Обычно длина вре­менного отрезка, на который осуществляется прогнозирование, выбирается не более половины интервала времени, на котором прове­дены наблюдения исходных показателей. Можно осуществить как пас­сивный прогноз, решая задачу экстраполяции, так и активный, ведя рассуждения по известной схеме "если..., то" и подставляя раз­личные значения в одну или несколько объясняющих переменных рег­рессии.



Для построения регрессии используется специальный метод, получивший название метода наименьших квадратов . Этот метод име­ет преимущества перед другими методами сглаживания: сравнительно простое математическое определение искомых параметров и хорошее теоретическое обоснование с вероятностной точки зрения.

При выборе модели регрессии одним из существенных требова­ний к ней является обеспечение наибольшей возможной простоты, позволяющей получить решение с достаточной точностью. Поэтому для установления статистических связей вначале, как правило, рассматривают модель из класса линейных функций (как наиболее простейшего из всех возможных классов функций):

где bi, b2...bj - коэффициенты, определяющие влияние независимых переменных хij на величину yi; аi - свободный член; ei - слу­чайное отклонение, которое отражает влияние неучтенных факторов на зависимую переменную; n - число независимых переменных; N ­число наблюдений, причем должно соблюдаться условие (N . n+1).

Линейная модель может описывать весьма широкий класс различных задач. Однако на практике, в частности в социально-эконо­мических системах, подчас затруднительно применение линейных мо­делей из-за больших ошибок аппроксимации. Поэтому нередко ис­пользуются функции нелинейной множественной регрессии, допускающие линеаризацию. К их числу, например, относится производст­венная функция (степенная функция Кобба-Дугласа), нашедшая при­менение в различных социально-экономических исследованиях. Она имеет вид:

где b 0 - нормировочный множитель, b 1 ...b j - неизвестные коэффи­циенты, e i - случайное отклонение.

Используя натуральные логарифмы, можно преобразовать это уравнение в линейную форму:

Полученная модель позволяет использовать стандартные проце­дуры линейной регрессии, описанные выше. Построив модели двух видов (аддитивные и мультипликативные), можно выбрать наилучшие и провести дальнейшие исследования с меньшими ошибками аппрокси­мации.

Существует хорошо развитая система подбора аппроксимирующих функций - методика группового учета аргументов (МГУА) .

О правильности подобранной модели можно судить по результа­там исследования остатков, являющихся разностями между наблю­даемыми величинами y i и соответствующими прогнозируемыми с по­мощью регрессионного уравнения величинами y i . В этом случае для проверки адекватности модели рассчитывается средняя ошибка ап­проксимации:

Модель считается адекватной, если e находится в пределах не более 15%.

Особо подчеркнем, что применительно к социально-экономичес­ким системам далеко не всегда выполняются основные условия адек­ватности классической регрессионной модели.

Не останавливаясь на всех причинах возникающей неадекват­ности, назовем лишь мультиколлинеарность - самую сложную пробле­му эффективного применения процедур регрессионного анализа при изучении статистических зависимостей. Под мультиколлинеарностью понимается наличие линейной связи между объясняющими переменны­ми.

Это явление:

а) искажает смысл коэффициентов регрессии при их содержа­тельной интерпретации;

б) снижает точность оценивания (возрастает дисперсия оце­нок);

в) усиливает чувствительность оценок коэффициентов к выбо­рочным данным (увеличение объема выборки может сильно повлиять на значения оценок).

Существуют различные приемы снижения мультиколлинеарности. Наиболее доступный способ - устранение одной из двух переменных, если коэффициент корреляции между ними превышает значение, рав­ное по абсолютной величине 0,8. Какую из переменных оставить ре­шают, исходя из содержательных соображений. Затем вновь прово­дится расчет коэффициентов регрессии.

Использование алгоритма пошаговой регрессии позволяет пос­ледовательно включать в модель по одной независимой переменной и анализировать значимость коэффициентов регрессии и мультиколли­неарность переменных. Окончательно в исследуемой зависимости ос­таются только те переменные, которые обеспечивают необходимую значимость коэффициентов регрессии и минимальное влияние мульти­коллинеарности.

Целью регрессионного анализа является измерение связи меж­ду зависимой переменной и одной (парный регрессионный анализ) или не­сколькими (множественный) независимыми переменными. Независимые переменные называют также факторными, объясняющими, опреде­ляющими, регрессорами и предикторами.

Зависимую переменную иногда называют определяемой, объясняемой, «откликом». Чрезвы­чайно широкое распространение регрессионного анализа в эмпири­ческих исследованиях связано не только с тем, что это удобный ин­струмент тестирования гипотез. Регрессия, особенно множественная, является эффективным методом моделирования и прогнозирования.

Объяснение принципов работы с регрессионным анализом начнем с более простого - парного метода.

Парный регрессионный анализ

Первые действия при использовании регрессионного анализа будут практически идентичны предпринятым нами в рамках вычисления коэффициента корреляции. Три основных условия эффективности корреляционного анализа по методу Пирсона - нормальное распре­деление переменных, интервальное измерение переменных, линейная связь между переменными - актуальны и для множественной регрес­сии. Соответственно, на первом этапе строятся диаграммы рассеяния, проводится статистически-описательный анализ переменных и вы­числяется линия регрессии. Как и в рамках корреляционного анализа, линии регрессии строятся методом наименьших квадратов.

Чтобы более наглядно проиллюстрировать различия между двумя методами анализа данных, обратимся к уже рассмотренному приме­ру с переменными «поддержка СПС» и «доля сельского населения». Исходные данные идентичны. Отличие в диаграммах рассеяния бу­дет заключаться в том, что в регрессионном анализе корректно от­кладывать зависимую переменную - в нашем случае «поддержка СПС» по оси Y, тогда как в корреляционном анализе это не имеет значения. После чистки выбросов диаграмма рассеяния имеет вид:

Принципиальная идея регрессионного анализа состоит в том, что, имея общую тенденцию для переменных - в виде линии регрессии, - можно предсказать значение зависимой переменной, имея значения независимой.

Представим обычную математическую линейную функцию. Лю­бую прямую в евклидовом пространстве можно описать формулой:

где а - константа, задающая смещение по оси ординат; b - коэффи­циент, определяющий угол наклона линии.

Зная угловой коэффициент и константу, можно рассчитать (пред­сказать) значение у для любого х.

Эта простейшая функция и легла в основу модели регрессионного анализа с той оговоркой, что значение у мы предскажем не точно, а в рамках определенного доверительного интервала, т.е. приблизительно.

Константой является точка пересечения линии регрессии и оси ординат (F-пересечение, в статистических пакетах, как правило, обозначаемое «interceptor»). В нашем примере с голосованием за СПС ее округленное значение составит 10,55. Угловой коэффициент Ъ бу­дет равен примерно -0,1 (как и в корреляционном анализе, знак по­казывает тип связи - прямая или обратная). Таким образом, получен­ная модель будет иметь вид СП С = -0,1 х Сел. нас. + 10,55.

СПС = -0,10 х 47 + 10,55 = 5,63.

Разность между исходным и предсказанным значениями называет­ся остатком (с этим термином - принципиальным для статистики - мы уже сталкивались при анализе таблиц сопряженности). Так, для случая «Республика Адыгея» остаток будет равен 3,92 - 5,63 = -1,71. Чем больше модульное значение остатка, тем менее удачно предсказа­но значение.

Рассчитываем предсказанные значения и остатки для всех случаев:
Случай Сел. нас. СПС

(исходное)

СПС

(предсказанное)

Остатки
Республика Адыгея 47 3,92 5,63 -1,71 -
Республика Алтай 76 5,4 2,59 2,81
Республика Башкортостан 36 6,04 6,78 -0,74
Республика Бурятия 41 8,36 6,25 2,11
Республика Дагестан 59 1,22 4,37 -3,15
Республика Ингушетия 59 0,38 4,37 3,99
И т.д.

Анализ соотношения исходных и предсказанных значений служит для оценки качества полученной модели, ее прогностической способности. Одним из главных показателей регрессионной статистики является множественный коэффициент корреляции R - коэффициент корреляции между исходными и предсказанными значениями зави­симой переменной. В парном регрессионном анализе он равен обыч­ному коэффициенту корреляции Пирсона между зависимой и неза­висимой переменной, в нашем случае - 0,63. Чтобы содержательно интерпретировать множественный R, его необходимо преобразовать в коэффициент детерминации. Это делается так же, как и в корреля­ционном анализе - возведением в квадрат. Коэффициент детерминации R -квадрат (R 2) показывает долю вариации зависимой пере­менной, объясняемую независимой (независимыми) переменными.

В нашем случае R 2 = 0,39 (0,63 2); это означает, что переменная «доля сельского населения» объясняет примерно 40% вариации переменной «поддержка СПС». Чем больше величина коэффициента детер­минации, тем выше качество модели.

Другим показателем качества модели является стандартная ошиб­ка оценки (standard error of estimate). Это показатель того, насколько сильно точки «разбросаны» вокруг линии регрессии. Мерой разброса для интервальных переменных является стандартное отклонение. Со­ответственно, стандартная ошибка оценки - это стандартное откло­нение распределения остатков. Чем выше ее значение, тем сильнее разброс и тем хуже модель. В нашем случае стандартная ошибка со­ставляет 2,18. Именно на эту величину наша модель будет «ошибаться в среднем» при прогнозировании значения переменной «поддерж­ка СПС».

Регрессионная статистика включает в себя также дисперсионный анализ. С его помощью мы выясняем: 1) какая доля вариации (дисперсии) зависимой переменной объясняется независимой перемен­ной; 2) какая доля дисперсии зависимой переменной приходится на остатки (необъясненная часть); 3) каково отношение этих двух вели­чин (/"-отношение). Дисперсионная статистика особенно важна для выборочных исследований - она показывает, насколько вероятно наличие связи между независимой и зависимой переменными в генеральной совокупности. Однако и для сплошных исследований (как в нашем примере) изучение результатов дисперсионного анализа небесполезно. В этом случае проверяют, не вызвана ли выявленная ста­тистическая закономерность стечением случайных обстоятельств, насколько она характерна для того комплекса условий, в которых на­ходится обследуемая совокупность, т.е. устанавливается не истинность полученного результата для какой-то более обширной гене­ральной совокупности, а степень его закономерности, свободы от случайных воздействий.

В нашем случае статистика дисперсионного анализа такова:

SS df MS F значение
Регрес. 258,77 1,00 258,77 54,29 0.000000001
Остат. 395,59 83,00 Л,11
Всего 654,36

F-отношение 54,29 значимо на уровне 0,0000000001. Соответ­ственно, мы можем с уверенностью отвергнуть нулевую гипотезу (что обнаруженная нами связь носит случайный характер).

Аналогичную функцию выполняет критерий t, но уже в отношении регрессионных коэффициентов (углового и F-пересечения). С помо­щью критерия / проверяем гипотезу о том, что в генеральной совокуп­ности регрессионные коэффициенты равны нулю. В нашем случае мы вновь можем уверенно отбросить нулевую гипотезу.

Множественный регрессионный анализ

Модель множественной регрессии практически идентична модели парной регрессии; разница лишь в том, что в линейную функцию последовательно включаются несколько независимых переменных:

Y = b1X1 + b2X2 + …+ bpXp + а.

Если независимых переменных больше двух, мы не имеем возмож­ности получить визуальное представление об их связи, в этом плане множественная регрессия менее «наглядна», нежели парная. При на­личии двух независимых переменных данные бывает полезно отобразить на трехмерной диаграмме рассеяния. В профессиональных ста­тистических пакетах программ (например, Statisticа) существует опция вращения трехмерной диаграммы, позволяющая хорошо визуально представить структуру данных.

При работе с множественной регрессией, в отличие от парной, не­обходимо определять алгоритм анализа. Стандартный алгоритм включает в итоговую регрессионную модель все имеющиеся предикторы. Пошаговый алгоритм предполагает последовательное включе­ние (исключение) независимых переменных, исходя из их объяснительного «веса». Пошаговый метод хорош, когда имеется много независимых переменных; он «очищает» модель от откровенно слабых предикторов, делая ее более компактной и лаконичной.

Дополнительным условием корректности множественной регрес­сии (наряду с интервальностью, нормальностью и линейностью) является отсутствие мультиколлинеарности - наличия сильных корреляционных связей между независимыми переменными.

Интерпретация статистики множественной регрессии включает в себя все злементы, рассмотренные нами для случая парной регрессии. Кроме того, в статистике множественного регрессионного анализа есть и другие важные составляющие.

Работу с множественной регрессией мы проиллюстрируем на при­мере тестирования гипотез, объясняющих различия в уровне электоральной активности по регионам России. В ходе конкретных эмпири­ческих исследований были высказаны предположения, что на уровень явки избирателей влияют:

Национальный фактор (переменная «русское население»; операционализирована как доля русского населения в субъектах РФ). Предполагается, что увеличение доли русского населения ведет к сни­жению активности избирателей;

Фактор урбанизации (переменная «городское население»; операционализирована как доля городского населения в субъектах РФ, с этим фактором мы уже работали в рамках корреляционного анализа). Предполагается, что увеличение доли городского населения также ве­дет к снижению активности избирателей.

Зависимая переменная - «интенсивность избирательной активно­сти» («актив») операционализирована через усредненные данные яв­ки по регионам на федеральных выборах с 1995 по 2003 г. Исходная таблица данных для двух независимых и одной зависимой перемен­ной будет иметь следующий вид:

Случай Переменные
Актив. Гор. нас. Рус. нас.
Республика Адыгея 64,92 53 68
Республика Алтай 68,60 24 60
Республика Бурятия 60,75 59 70
Республика Дагестан 79,92 41 9
Республика Ингушетия 75,05 41 23
Республика Калмыкия 68,52 39 37
Карачаево-Черкесская Республика 66,68 44 42
Республика Карелия 61,70 73 73
Республика Коми 59,60 74 57
Республика Марий Эл 65,19 62 47

И т.д. (после чистки выбросов остается 83 случая из 88)

Статистика, описывающая качество модели:

1. Множественный R = 0,62; Л-квадрат = 0,38. Следовательно, национальный фактор и фактор урбанизации вместе объясняют около 38% вариации переменной «электоральная активность».

2. Средняя ошибка составляет 3,38. Именно настолько «в среднем ошибается» построенная модель при прогнозировании уровня явки.

3. /л-отношение объясненной и необъясненной вариации состав­ляет 25,2 на уровне 0,000000003. Нулевая гипотеза о случайности выявленных связей отвергается.

4. Критерий /для константы и регрессионных коэффициентов пе­ременных «городское население» и «русское население» значим на уровне 0,0000001; 0,00005 и 0,007 соответственно. Нулевая гипотеза о случайности коэффициентов отвергается.

Дополнительная полезная статистика в анализе соотношения ис­ходных и предсказанных значений зависимой переменной - расстояние Махаланобиса и расстояние Кука. Первое - мера уникальности слу­чая (показывает, насколько сочетание значений всех независимых переменных для данного случая отклоняется от среднего значения по всем независимым переменным одновременно). Второе - мера влия­тельности случая. Разные наблюдения по-разному влияют на наклон линии регрессии, и с помощью расстояния Кука можно сопоставлять их по этому показателю. Это бывает полезно при чистке выбросов (вы­брос можно представить как чрезмерно влиятельный случай).

В нашем примере к уникальным и влиятельным случаям, в частно­сти, относится Дагестан.

Случай Исходные

значения

Предска­

значения

Остатки Расстояние

Махаланобиса

Расстояние
Адыгея 64,92 66,33 -1,40 0,69 0,00
Республика Алтай 68,60 69.91 -1,31 6,80 0,01
Республика Бурятия 60,75 65,56 -4,81 0,23 0,01
Республика Дагестан 79,92 71,01 8,91 10,57 0,44
Республика Ингушетия 75,05 70,21 4,84 6,73 0,08
Республика Калмыкия 68,52 69,59 -1,07 4,20 0,00

Собственно регрессионная модель обладает следующими парамет­рами: У-пересечение (константа) = 75,99; Ь (Гор. нас.) = -0,1; Ъ (Рус. нас.) = -0,06. Итоговая формула.