Последние статьи
Домой / Дом / Многофакторная модель корреляционно-регрессионного анализа. Статистический анализ и прогнозирование безработицы

Многофакторная модель корреляционно-регрессионного анализа. Статистический анализ и прогнозирование безработицы

– это один из самых распространенных методов изучения отношений между численными величинами. Его основная цель состоит в нахождении зависимости между двумя параметрами и ее степени с последующим выведением уравнения. Например, у нас есть студенты, которые сдали экзамен по математике и английскому языку. Мы можем использовать корреляцию для того, чтобы определить, влияет ли успешность сдачи одного теста на результаты по другому предмету. Что касается регрессионного анализа, то он помогает предсказать оценки по математике, исходя из баллов, набранных на экзамене по английскому языку, и наоборот.

Что такое корреляционная диаграмма?

Любой анализ начинается со сбора информации. Чем ее больше, тем точнее полученный в конечном итоге результат. В вышеприведенном примере у нас есть две дисциплины, по которым школьникам нужно сдать экзамен. Показатель успешности на них – это оценка. Корреляционно-регрессионный анализ показывает, влияет ли результат по одному предмету на баллы, набранные на втором экзамене. Для того чтобы ответить на этот вопрос, необходимо проанализировать оценки всех учеников на параллели. Но для начала нужно определиться с зависимой переменной. В данном случае это не так важно. Допустим, экзамен по математике проходил раньше. Баллы по нему – это независимая переменная (откладываются по оси абсцисс). Английский язык стоит в расписании позже. Поэтому оценки по нему – это зависимая переменная (откладываются по оси ординат). Чем больше полученный таким образом график похож на прямую линию, тем сильнее линейная корреляция между двумя избранными величинами. Это означает, что отличники в математике с большой долей вероятности получат пятерки на экзамене по английскому.

Допущения и упрощения

Метод корреляционно-регрессионного анализа предполагает нахождение причинно-следственной связи. Однако на первом этапе нужно понимать, что изменения обеих величин могут быть обусловлены какой-нибудь третьей, пока не учтенной исследователем. Также между переменными могут быть нелинейные отношения, поэтому получение коэффициента, равного нулю, это еще не конец эксперимента.

Линейная корреляция Пирсона

Данный коэффициент может использоваться при соблюдении двух условий. Первое – все значения переменных являются рациональными числами, второе – ожидается, что величины изменяются пропорционально. Данный коэффициент всегда находится в пределах между -1 и 1. Если он больше нуля, то имеет место быть прямо пропорциональная зависимость, меньше – обратно, равен – данные величины никак не влияют одна на другую. Умение вычислить данный показатель – это основы корреляционно-регрессионного анализа. Впервые данный коэффициент был разработан Карлом Пирсоном на основе идеи Френсиса Гальтона.

Свойства и предостережения

Коэффициент корреляции Пирсона является мощным инструментом, но его также нужно использовать с осторожностью. Существуют следующие предостережения в его применении:

  1. Коэффициент Пирсона показывает наличие или отсутствие линейной зависимости. Корреляционно-регрессионный анализ на этом не заканчивается, может оказаться, что переменные все-таки связаны между собой.
  2. Нужно быть осторожным в интерпретировании значения коэффициента. Можно найти корреляцию между размером ноги и уровнем IQ. Но это не означает, что один показатель определяет другой.
  3. Коэффициент Пирсона не говорит ничего о причинно-следственной связи между показателями.

Коэффициент ранговой корреляции Спирмана

Если изменение величины одного показателя приводит к увеличению или уменьшению значения другого, то это означает, что они являются связанными. Корреляционно-регрессионный анализ, пример которого будет приведен ниже, как раз и связан с такими параметрами. Ранговый коэффициент позволяет упростить расчеты.

Корреляционно-регрессионный анализ: пример

Предположим, происходит оценка эффективности деятельности десяти предприятий. У нас есть двое судей, которые выставляют им баллы. Корреляционно-регрессионный анализ предприятия в этом случае не может быть проведен на основе линейного коэффициента Пирсона. Нас не интересует взаимосвязь между оценками судей. Важны ранги предприятий по оценке судей.

Данный тип анализа имеет следующие преимущества:

  • Непараметрическая форма отношений между исследуемыми величинами.
  • Простота использования, поскольку ранги могут приписываться как в порядке возрастания значений, так и убывания.

Единственное требование данного типа анализа – это необходимость конвертации исходных данных.

Проблемы применения

В основе корреляционно-регрессионного анализа лежат следующие предположения:

  • Наблюдения считаются независимыми (пятикратное выпадение «орла» никак не влияет на результат следующего подбрасывания монетки).
  • В корреляционном анализе обе переменные рассматриваются как случайные. В регрессионном – только одна (зависимая).
  • При проверке гипотезы должно соблюдаться нормальное распределение. Изменение зависимой переменной должно быть одинаковым для каждой величины на оси абсцисс.
  • Корреляционная диаграмма – это только первая проверка гипотезы о взаимоотношениях между двумя рядами параметров, а не конечный результат анализа.

Зависимость и причинно-следственная связь

Предположим, мы вычислили коэффициент корреляции объема экспорта и ВВП. Он оказался равным единице по модулю. Провели ли мы корреляционно-регрессионный анализ до конца? Конечно же нет. Полученный результат вовсе не означает, что ВВП можно выразить через экспорт. Мы еще не доказали причинно-следственную связь между показателями. Корреляционно-регрессионный анализ – прогнозирование значений одной переменной на основе другой. Однако нужно понимать, что зачастую на параметр влияет множество факторов. Экспорт обуславливает ВВП, но не только он. Есть и другие факторы. Здесь имеет место быть и корреляция, и причинно-следственная связь, хотя и с поправкой на другие составляющие валового внутреннего продукта.

Гораздо опаснее другая ситуация. В Великобритании был проведен опрос, который показал, что дети, родители которых курили, чаще являются правонарушителями. Такой вывод сделан на основе сильной корреляции между показателя. Однако правилен ли он? Во-первых, зависимость могла быть обратной. Родители могли начать курить из-за стресса от того, что их дети постоянно попадают в переделки и нарушают закон. Во-вторых, оба параметра могут быть обусловлены третьим. Такие семьи принадлежат к низким социальным классам, для которых характерны обе проблемы. Поэтому на основе корреляции нельзя сделать вывод о наличии причинно-следственной связи.

Зачем использовать регрессионный анализ?

Корреляционная зависимость предполагает нахождение отношений между величинами. Причинно-следственная связь в этом случае остается за кадром. Задачи корреляционного и регрессионного анализа совпадают только в плане подтверждения наличия зависимости между значениями двух величин. Однако первоначально исследователь не обращает внимания на возможность причинно-следственной связи. В регрессионном анализе всегда есть две переменные, одна и которых является зависимой. Он проходит в несколько этапов:

  1. Выбор правильной модели с помощью метода наименьших квадратов.
  2. Выведение уравнения, описывающего влияние изменения независимой переменной на другую.

Например, если мы изучаем влияние возраста на рост человека, то регрессионный анализ может помочь предсказать изменения с течением лет.

Линейная и множественная регрессия

Предположим, что X и Y – это две связанные переменные. Регрессионный анализ позволяет предсказать величину одной из них на основе значений другой. Например, зрелость и возраст – это зависимые признаки. Зависимость между ними отражается с помощью линейной регрессии. Фактически можно выразить X через Y или наоборот. Но зачастую только одна из линий регрессии оказывается правильной. Успех анализа во многом зависит от правильности определения независимой переменной. Например, у нас есть два показателя: урожайность и объем выпавших осадков. Из житейского опыта становится ясно, что первое зависит от второго, а не наоборот.

Множественная регрессия позволяет рассчитать неизвестную величину на основе значений трех и более переменных. Например, урожайность риса на акр земли зависит от качества зерна, плодородности почвы, удобрений, температуры, количества осадков. Все эти параметры влияют на совокупный результат. Для упрощения модели используются следующие допущения:

  • Зависимость между независимой и влияющими на нее характеристиками является линейной.
  • Мультиколлинеарность исключена. Это означает, что зависимые переменные не связаны между собой.
  • Гомоскедастичность и нормальность рядов чисел.

Применение корреляционно-регрессионного анализа

Существует три основных случая использования данного метода:

  1. Тестирование казуальных отношений между величинами. В этом случае исследователь определяет значения переменной и выясняет, влияют ли они на изменение зависимой переменной. Например, можно дать людям разные дозы алкоголя и измерить их артериальное давление. В этом случае исследователь точно знает, что первое является причиной второго, а не наоборот. Корреляционно-регрессионный анализ позволяет обнаружить прямо-пропорциональную линейную зависимость между данными двумя переменными и вывести формулу, ее описывающую. При этом сравниваться могут величины, выраженные в совершенно различных единицах измерения.
  2. Нахождение зависимости между двумя переменными без распространения на них причинно-следственной связи. В этом случае нет разницы, какую величину исследователь назовет зависимой. При этом в реальности может оказаться, что на их обе влияет третья переменная, поэтому они и изменяются пропорционально.
  3. Расчет значений одной величины на основе другой. Он осуществляется на основе уравнения, в которое подставляются известные числа.

Таким образом корреляционный анализ предполагает нахождение связи (не причинно-следственной) между переменными, а регрессионный – ее объяснение, зачастую с помощью математической функции.

Линейный многофакторный регрессионный анализ На практике при анализе результатов научных исследований часто имеет место ситуация, когда количественное изменение изучаемого явления (функции отклика) зависит не от одного, а от нескольких причин (факторов). При проведении экспериментов в такой множественной ситуации исследователь записывает показания приборов о состоянии функции отклика (y) и всех факторов, от которых она зависит (x). Результатами наблюдений являются уже не два вектор-столбца (x и y), как при проведении однофакторного регрессионного анализа, а матрица результатов наблюдений. где yi – значение функции отклика в i-ом эксперименте, Xij – значение j-го фактора на i-ом эксперименте, n – количество экспериментов, p – количество факторов Задача многофакторного линейного регрессионного анализа состоит в построении такого уравнении плоскости в (p+1)-мерном пространстве, отклонения результатов наблюдений yi от которой были бы минимальными.

Или, другими словами, следует вычислить значения коэффициентов b 0, bj в уравнении на которых достигается минимум Для отыскания минимума необходимо найти частные производные по всем неизвестным b 0, bj и приравнять их нулю. Полученные уравнения образуют систему нормальных уравнений, которая в матричной форме имеет вид где Из этого уравнения можем найти вектор-столбец коэффициентов регрессии: , каждый элемент которого можно найти по формуле: В которой cij – элементы обратной матрицы (XTX)-1.

Проверка значимости коэффициентов регрессии Проверка значимости уравнения регрессии мало отличается от соответствующей проверки однофакторной регрессии. Вычисляют остаточную дисперсию по формуле: которую сравнивают с дисперсией среднего Фишера: с помощью критерия с числом степеней свободы в числителе (n-1) и в знаменателе (n-р-1). Значимость коэффициентов регрессии b 0, bj проверяют по критерию Стьюдента: (, где - диагональные элементы матрицы).

Парные коэффициенты корреляции Корреляционный анализ начинают с вычисления парных коэффициентов корреляции, характеризующих тесноту связи между двумя величинами. В многофакторной ситуации вычисляют два типа парных коэффициентов корреляции: 1) - коэффициенты, определяющие тесноту связи между функцией отклика и одним из факторов; 2) - коэффициенты, показывающие тесноту связи между одним из факторов и фактором (). , где Значимость парных коэффициентов корреляции можно проверить по критерию Стьюдента: , где

Корреляционная матрица Значение парного коэффициента корреляции изменяется от - 1 до +1. Если, например, коэффициент - величина отрицательная, то это значит, что уменьшается с увеличением. Если положителен, то увеличивается с увеличением. Если один из коэффициентов окажется равным 1, то это означает, что факторы и функционально связаны между собой и тогда целесообразно один из них исключить из рассмотрения, причем оставляют тот фактор, у которого коэффициент больше. После вычисления всех парных коэффициентов корреляции и исключения из рассмотрения того или иного фактора можно построить матрицу коэффициентов корреляции вида:

Частные коэффициенты корреляции Используя парных коэффициентов корреляции матрицу, можно вычислить частные коэффициенты корреляции, которые показывают степень влияния одного из факторов на функцию отклика при условии, что остальные факторы закреплены на постоянном уровне. Частные коэффициенты корреляции вычисляются по формуле где - определитель матрицы, образованной из матрицы парных коэффициентов корреляции вычеркиванием 1 -й строки j-го столбца, определитель - j-ой строки j-го столбца. Как и парные коэффициенты, частные коэффициенты корреляции изменяются от -1 до +1. Значимость и доверительный интервал для коэффициентов частной корреляции определяются так же, как для коэффициентов парной корреляции с числом степеней свободы v = n – k - 2, где k = р - 1 - порядок частного коэффициента парной корреляции.

Коэффициент множественной корреляции и его значимость Для изучения тесноты связи между функцией отклика и несколькими факторами используют коэффициент множественной корреляции R. Коэффициент множественной корреляции служит и для оценки качества предсказания; R всегда положителен и изменяется от 0 до 1. Чем больше R, тем лучше качество предсказаний данной моделью опытных данных. Коэффициент множественной корреляции вычисляется по формуле Значимость коэффициента множественной корреляции проверяют по критерию Стьюдента: , где - среднеквадратическая погрешность коэффициента множественной корреляции: Значимость R можно проверить также и по критерию Фишера: Полученное значение сравнивают с табличным при выбранном уровне значимости и числах степеней свободы v 1 = n - р - 1 и v 2 = p. Если расчетное значение превышает табличное, то гипотезу o равенстве коэффициента множественной корреляции нулю отвергают и связь считают статистически значимой.

Многофакторный нелинейный регрессионный анализ Первый этап нелинейного многофакторного регрессионного анализа - получение полной квадратичной формы. Для этого определяют коэффициенты регрессии b 0, bk и bjk в полиноме Степень уравнения можно повышать до тех пор, пока уменьшается остаточная дисперсия. Задача нелинейной регрессии сводится к задаче линейной регрессии заменой переменных и т. д. Мерой тесноты связи в нелинейной зависимости служит множественное корреляционное отношение, но используя для вычисления у нелинейную форму уравнения. Сравнение множественного корреляционного отношения с коэффициентом множественной корреляции, вычисленным по линейной форме, дает некоторое представление о «кривизне» изучаемой зависимости.

Выбор оптимальной формы регрессии 1) метод полного перебора 2) метод отсеивания факторов При использовании метода исключения переменных уравнение регрессии расширяют сразу до полной квадратичной или, если возможно, до полной кубической формы. Исключение начинают с фактора, имеющего наименьший критерий Стьюдента. На каждом этапе после исключения каждого фактора для нового уравнения регрессии вычисляют множественный коэффициент корреляции, остаточную дисперсию и F-критерий Фишера. Наибольшую трудность представляет решение вопроса, на каком этапе прекратить исключение факторов. Здесь возможны следующие подходы: a) прекратить исключение факторов, когда остаточная дисперсия начнет увеличиваться; b) назначить уровень значимости (0. 05) при вычислении t-критерия Стьюдента для последнего оставляемого фактора. Во втором случае перед началом отсева факторов строят диаграмму ранжирования t-критериев Стьюдента для всех факторов расширенной модели.

3) метод включения факторов При использовании метода включения факторов в уравнение регрессии последовательно включаются факторы (наиболее значимые) пока остаточная дисперсия не увеличивается.

Пример регрессионного анализа Рассмотрим пример многофакторного регрессионного и корреляционного анализа с выбором оптимальной формы регрессии методом исключения эффектов (факторов и парных взаимодействий) на примере построения модели для вычисления ползучести бетона. В этой задаче строится зависимость удельных относительных деформаций ползучести бетона С(t, т) от десяти факторов: . В матрицу исходных данных включены результаты 367 опытов над бетонными образцами, в которых фиксировались значения у = С(t, т) , и следующих 10 факторов: -отношение массы цемента к массе заполнителя в 1 м 3 бетона (Ц/3); - расход цемента на 1 м 3 бетона (Ц); - влажность среды (W); - масштабный фактор (М); - водоцементное отношение (В/Ц); - возраст бетона в момент загружения (т); - время действия нагрузки (t - т); - нормальная густота цементного теста (НГ); - значение напряжений (); - модуль упругости заполнителя (E 3).

Решение Коэффициент корреляции близок к единице, поэтому фактор исключен из рассмотрения; На первом этапе была построена полная квадратичная модель с 54 эффектами. Критерий Фишера для этой модели получился: Затем был произведен 11 -ступенчатый отсев незначимых эффектов, в процессе которого было исключено 28 статистически незначимых по критерию Стьюдента эффектов, в результате была получена модель с 26 эффектами, для которой критерий Фишера возрос незначительно: а остальные параметры оказались хорошими Значимые, связи для наглядности удобно изображать в виде графа. Используя методы теории графов, можно построить таблицу, наглядно показывающую количество статистически значимых связей между функцией отклика и факторами. Такую таблицу называют еще матрицей смежности вершин.

Явления общественной жизни складываются под воздействием целого ряда факторов, то есть являются многофакторными. Между факторами существуют сложные взаимосвязи, поэтому их нельзя рассматривать как простую сумму изолированных влияний. Изучение связи между тремя и более связанными между собой признаками носит название многофакторного корреляционно-регрессионного анализа.

Впервые это понятие было введено Пирсоном в 1908 году.

Многофакторный корреляционно-регрессионный анализ включает в себя следующие этапы:

  • - теоретический анализ, направленный на выбор факторных признаков, существенных для поставленной задачи;
  • - выбор формы связи (уравнения регрессии);
  • - отбор существенных факторных признаков, удаление из модели несущественных, объединение нескольких факторных признаков в один (этот признак не всегда имеет содержательную интерпретацию);
  • - вычисление параметров уравнения регрессии и коэффициентов корреляции;
  • - проверка адекватности полученной модели;
  • - интерпретация полученных результатов.

На этапе отбора факторных признаков необходимо учитывать, что даже если числовые данные свидетельствуют о наличии связи между двумя величинами, это может быть лишь отражением того факта, что они обе зависят от одной или нескольких величин (например, длина волос - рост - пол; синдром пингвина).

Для любой формы зависимости, особенно в условиях малого объема исследуемой совокупности можно выбрать целый ряд уравнений, которые в той или иной степени будут описывать эти связи. Практика построения многофакторных моделей взаимосвязи показывает, что обычно для описания зависимостей между социально-экономическими явлениями используют линейные, полиномиальные, степенные, гиперболические функции. При выборе модели пользуются опытом предшествующих исследований или исследований в смежных областях.

Преимуществом линейных моделей является простота расчета параметров и экономической интерпретации. Зависимости, нелинейные по переменным (квазилинейные) могут быть приведены к линейной форме путем замены переменных. Параметры уравнения множественной регрессии находятся по методу наименьших квадратов из системы нормальных уравнений. В условиях использования ЭВМ определение параметров, как для линейных, так и для нелинейных зависимостей может быть осуществлено численными методами.

Важным этапом построения уже выбранного уравнения множественной регрессии является отбор факторных признаков. Для адекватного отражения моделируемого процесса в модель необходимо включить максимальное количество факторов, но, с другой стороны, избыточное количество параметров затрудняет работу с моделью. Кроме того, для того, чтобы полученные результаты были достаточно надежными и воспроизводимыми на каждый факторный признак должно приходиться 10-20 наблюдений. Поэтому необходим отбор факторов на основе анализа их значимости.

Отбор факторов может быть проведен на основании:

метода пошагового исключения;

метода пошаговой регрессии.

Сущность метода пошагового исключения заключается в последовательном исключении из уравнения регрессии тех факторов, чьи параметры оказались незначимыми при проверке по критерию Стьюдента.

Использование метода пошаговой регрессии заключается в том, что факторы вводятся в уравнение регрессии поочередно, и при этом оценивается изменение суммы квадратов остатков и множественного коэффициента корреляции. Фактор считается незначимым и исключается из рассмотрения, если при его включении в уравнение регрессии не изменилась сумма квадратов остатков, даже если при этом изменились коэффициенты регрессии. Фактор считается значимым и включается в модель, если при этом увеличился коэффициент множественной корреляции и уменьшилась сумма квадратов остатков, даже если при этом коэффициенты регрессии изменились несущественно.

При построении моделей регрессии может возникнуть проблема, связанная с мультиколлинеарностью. Сущность этой проблемы заключается в том, что между факторными признаками существует значительная линейная связь. Мультиколлинеарность возникает в том случае, когда факторы выражают одну и ту же сторону явления или один является составным элементом другого. Это приводит к искажению рассчитываемых параметров регрессии, осложняет выделение существенных факторов и изменяет смысл экономической интерпретации коэффициентов регрессии. Индикатором мультиколлинеарности служат выборочные коэффициенты корреляции () характеризующие тесноту связи между факторами и:

Устранение мультиколлинеарности может реализовываться путем исключения из корреляционной модели одного или нескольких линейно-связанных признаков или преобразование исходных факторных признаков в новые, укрупненные факторы.

После построения уравнения регрессии проводится проверка адекватности модели, включающая в себя проверку значимости уравнения регрессии и коэффициентов регрессии.

Вклад каждого фактора в изменение результативного признака оценивают по коэффициентам регрессии, по частным коэффициентам эластичности каждого фактора и по стандартизированным частным - коэффициентам регрессии.

Коэффициент регрессии показывает абсолютный уровень влияния фактора на результативный показатель при среднем уровне всех прочих входящих в модель факторов. Однако тот факт, что коэффициенты измеряются (в общем случае) в разных единицах измерения, не позволяет сравнить степени влияния признаков. Пример. Сменная добыча угля (т) зависит от мощности пласта (м) и уровня механизации (%):

Частные коэффициенты эластичности показывают, на сколько процентов в среднем изменяется анализируемый показатель с изменением на 1% каждого фактора при фиксированном положении других:

где - коэффициент регрессии при - том факторе, - среднее значение -того фактора, - среднее значение результативного признака.

· коэффициенты показывают, на какую часть среднего квадратического отклонения изменяется результативный признак с изменением - того факторного признака на величину его среднего квадратического отклонения.

где - среднее квадратическое отклонение -того фактора, - среднее квадратическое отклонение результативного признака.

Таким образом, по перечисленным показателям выявляют факторы, в которых заложены наибольшие резервы изменения результативного признака.

Кроме того, для выявления экстремальных наблюдений может быть проведен анализ остатков.

В рамках многомерного корреляционного анализа рассматривают две типовые задачи:

  • - оценка тесноты связи двух переменных при фиксировании или исключении влияния всех остальных;
  • - оценка тесноты связи одной переменной со всеми остальными.

В рамках решения первой задачи определяются частные коэффициенты корреляции - показатели, характеризующие тесноту связи между тым и тым признаками при элиминации всех остальных признаков.

В многомерном корреляционном анализе рассматриваются две типовые задачи:

Определение тесноты связи одной переменной (результативного признака) с совокупностью всех остальных переменных (факторных признаков), включенных в анализ.

Определение тесноты связи между двумя переменными при фиксировании или исключении влияния остальных переменных.

Эти задачи решаются при помощи множественных и частных коэффициентов корреляции.

Для их определения может быть использована матрица выборочных коэффициентов корреляции:

где - количество признаков, - выборочный парный коэффициент корреляции.

Тогда теснота взаимосвязи результативного признака с совокупностью факторных признаков в целом может быть измерена при помощи множественного (совокупного) коэффициента корреляции. Оценкой этого показателя является выборочный множественный коэффициент корреляции:

где - определитель матрицы

С помощью множественного коэффициента корреляции может быть сделан вывод о тесноте взаимосвязи, но не о ее направлении.

Если факторные признаки коррелируют друг с другом, то на величине парного коэффициента корреляции частично сказывается влияние других переменных. В связи с этим возникает задача исследовать частную корреляцию между переменными при исключении (элиминировании) влияния одной или нескольких других переменных. Выборочный частный коэффициент корреляции между переменными может быть рассчитан по формуле:

где - алгебраическое дополнение соответствующего элемента корреляционной матрицы

Частный коэффициент корреляции может принимать значения от -1 до 1.

В многофакторном корреляционном анализе изучается зависимость одного (одномерный КА) или нескольких (многомерный КА) результатов от нескольких факторов.

Вначале рассмотрим одномерный многофакторный корреляционный анализ и затем для сравнения - особенности многомерного К А, так как отличия его от одномерного несущественны.

Основной моделью, в рамках которой решаются задачи многофакторного анализа, является линейная модель вида

где е к - ошибка наблюдения.

  • X.

Особенностью многофакторного корреляционного анализа является то, что рассмотренные выше коэффициент корреляции и корреляционное отношение не содержат достаточно полной информации о взаимосвязи величин Y и X, в связи с чем возникает необходимость использования ряда других показателей, а именно:

  • - полных парных коэффициентов корреляции;
  • - частных коэффициентов корреляции;
  • - множественных коэффициентов корреляции.

Это объясняется тем, что в многофакторном, а, тем более, в многомерном случаях взаимосвязи между переменными существенно усложняются и коэффициент корреляции между двумя переменными может не соответствовать действительности. Например, корреляция между Y и X. может быть обусловлена их зависимостью от X fc , в то время как при фиксированном значении Х к эти величины являются стохастически независимыми. Поэтому при изучении связи между этими величинами необходимо исключить влияние X fc , т. е. найти тесноту связи между Y и X. при фиксированном значении X fc .

Многообразие связей между переменными находит отражение в частных и множественных коэффициентах корреляции. Если имеется совокупность с га признаками, то взаимозависимость между ними можно описать корреляционной матрицей Q , состоящей из парных коэффициентов корреляции


где г. к - парные коэффициенты корреляции;

т - порядок матрицы.

В случае многомерной корреляции зависимости между признаками более многообразны и сложны, чем в двумерном случае. Одной корреляционной матрицей нельзя полностью описать зависимости между признаками. Поэтому необходимо использовать частные коэффициенты корреляции. Частный коэффициент корреляции, так же как и парный коэффициент корреляции, изменяется в пределах от -1 до +1. В общем виде, когда система состоит из т признаков, частный коэффициент корреляции к-то порядка может быть найден из корреляционной матрицы. Например, при m = 5 и к = 2 необходимо определить частный коэффициент корреляции г 12 4 , т. е. как факторы 1 и 2 связаны с факторами 4 и 5. При этом фактор номер 3 не учитывается (фиксируется). В этом случае из исходной матрицы Q 5 необходимо вычеркнуть третью строку и третий столбец.

Формула для определения частного коэффициента корреляции имеет вид:

где - алгебраические дополнения к соответствующим

элементам корреляционной матрицы.

Часто представляет интерес оценить связь одного из признаков со всеми остальными. Это можно сделать с помощью множественного, или совокупного, коэффициента корреляции, который также вычисляется с использованием корреляционной матрицы

где |gj - определитель корреляционной матрицы, составленной из парных коэффициентов корреляции;

q.. - алгебраическое дополнение к элементу г ...

При проведении многофакторного корреляционного анализа решаются следующие задачи:

  • - оценивание наличия и тесноты связи между результатом Y и каждым фактором X.;
  • - оценивание тесноты связи между результатом Y и фактором X. при фиксированных значениях остальных факторов.

Пример 10.2. После качественного анализа факторов, влияющих на положение компании на рынке телекоммуникационных услуг, для проведения количественного анализа были оставлены следующие факторы Х.

Х х - количество сданных в аренду скоростных каналов,

Х 2 - количество каналов доступа в Интернет, шт.;

Х 3 - курс доллара США по отношению к рублю, руб.;

Х 4 - средний тариф на аренду одного канала, руб.;

Х 5 - доля каналов, приходящаяся на банковские структуры, шт.

В качестве выходных величин Y., характеризующих положение компании, приняты две величины:

Y: - общее количество каналов сданных в аренду, шт.;

Y 2 - доход компании, руб.

Данные по указанным величинам за два года приведены в табл. 10.3.

Таблица 10.3

Окончание табл. 10.3

С использованием пакета прикладных программ были проведены расчеты матрицы коэффициентов парной корреляции. Результаты расчетов приведены в табл. 10.4.

Таблица 10.4

В двух последних строках табл. 10.4 помещены значения выборочных средних и выборочных средних квадратических отклонений, необходимые для построения уравнения линейной регрессии.

Анализ корреляционной матрицы осуществляется по следующему правилу. Если коэффициент парной корреляции между факторами окажется близким к 1 (по крайней мере, превысит значение 0,9), то это означает, что наблюдается эффект мультиколлинеарности и исключению из рассмотрения подлежит тот фактор, который имеет наименьший коэффициент парной корреляции с выходной переменной (общим количеством каналов, сданных в аренду Y v или доходом компании

Руководствуясь данным правилом, для дальнейшего рассмотрения имеет смысл оставить два фактора Х 3 - курс доллара по отношению к рублю и Х 4 - средний тариф на аренду одного канала. Фактор Х 5 - доля каналов на банковские структуры - может быть исключен ввиду малости значения коэффициента парной корреляции.

С использованием выражений (10.13 и 10.15) были получены уравнения регрессии

Сопоставление действительных значений величин У [ иУ 2 с предсказанными по уравнениям (10.17) показали незначительные расхождения в пределах одного года (не более 3%), что говорит о приемлемом качестве модели для использования при интерполяции. Однако основная задача разработки регрессионной модели заключалась в использовании ее для целей экстраполяции. Как показывает проведенный анализ, полученная модель не может быть использована для целей прогноза в связи с существенной нелинейностью величин У 1 и У 2 .

Для определения прогнозных значений, характеризующих положение компании на рынке телекоммуникационных услуг в данной ситуации целесообразно использовать методы анализа временных рядов, регрессионного анализа (с построением полиномиальных моделей второй и, возможно, более высокой степени) . Эти методы могут быть использованы для среднесрочного прогноза.

Регрессионный и корреляционный анализ – статистические методы исследования. Это наиболее распространенные способы показать зависимость какого-либо параметра от одной или нескольких независимых переменных.

Ниже на конкретных практических примерах рассмотрим эти два очень популярные в среде экономистов анализа. А также приведем пример получения результатов при их объединении.

Регрессионный анализ в Excel

Показывает влияние одних значений (самостоятельных, независимых) на зависимую переменную. К примеру, как зависит количество экономически активного населения от числа предприятий, величины заработной платы и др. параметров. Или: как влияют иностранные инвестиции, цены на энергоресурсы и др. на уровень ВВП.

Результат анализа позволяет выделять приоритеты. И основываясь на главных факторах, прогнозировать, планировать развитие приоритетных направлений, принимать управленческие решения.

Регрессия бывает:

  • линейной (у = а + bx);
  • параболической (y = a + bx + cx 2);
  • экспоненциальной (y = a * exp(bx));
  • степенной (y = a*x^b);
  • гиперболической (y = b/x + a);
  • логарифмической (y = b * 1n(x) + a);
  • показательной (y = a * b^x).

Рассмотрим на примере построение регрессионной модели в Excel и интерпретацию результатов. Возьмем линейный тип регрессии.

Задача. На 6 предприятиях была проанализирована среднемесячная заработная плата и количество уволившихся сотрудников. Необходимо определить зависимость числа уволившихся сотрудников от средней зарплаты.

Модель линейной регрессии имеет следующий вид:

У = а 0 + а 1 х 1 +…+а к х к.

Где а – коэффициенты регрессии, х – влияющие переменные, к – число факторов.

В нашем примере в качестве У выступает показатель уволившихся работников. Влияющий фактор – заработная плата (х).

В Excel существуют встроенные функции, с помощью которых можно рассчитать параметры модели линейной регрессии. Но быстрее это сделает надстройка «Пакет анализа».

Активируем мощный аналитический инструмент:

После активации надстройка будет доступна на вкладке «Данные».

Теперь займемся непосредственно регрессионным анализом.



В первую очередь обращаем внимание на R-квадрат и коэффициенты.

R-квадрат – коэффициент детерминации. В нашем примере – 0,755, или 75,5%. Это означает, что расчетные параметры модели на 75,5% объясняют зависимость между изучаемыми параметрами. Чем выше коэффициент детерминации, тем качественнее модель. Хорошо – выше 0,8. Плохо – меньше 0,5 (такой анализ вряд ли можно считать резонным). В нашем примере – «неплохо».

Коэффициент 64,1428 показывает, каким будет Y, если все переменные в рассматриваемой модели будут равны 0. То есть на значение анализируемого параметра влияют и другие факторы, не описанные в модели.

Коэффициент -0,16285 показывает весомость переменной Х на Y. То есть среднемесячная заработная плата в пределах данной модели влияет на количество уволившихся с весом -0,16285 (это небольшая степень влияния). Знак «-» указывает на отрицательное влияние: чем больше зарплата, тем меньше уволившихся. Что справедливо.



Корреляционный анализ в Excel

Корреляционный анализ помогает установить, есть ли между показателями в одной или двух выборках связь. Например, между временем работы станка и стоимостью ремонта, ценой техники и продолжительностью эксплуатации, ростом и весом детей и т.д.

Если связь имеется, то влечет ли увеличение одного параметра повышение (положительная корреляция) либо уменьшение (отрицательная) другого. Корреляционный анализ помогает аналитику определиться, можно ли по величине одного показателя предсказать возможное значение другого.

Коэффициент корреляции обозначается r. Варьируется в пределах от +1 до -1. Классификация корреляционных связей для разных сфер будет отличаться. При значении коэффициента 0 линейной зависимости между выборками не существует.

Рассмотрим, как с помощью средств Excel найти коэффициент корреляции.

Для нахождения парных коэффициентов применяется функция КОРРЕЛ.

Задача: Определить, есть ли взаимосвязь между временем работы токарного станка и стоимостью его обслуживания.

Ставим курсор в любую ячейку и нажимаем кнопку fx.

  1. В категории «Статистические» выбираем функцию КОРРЕЛ.
  2. Аргумент «Массив 1» - первый диапазон значений – время работы станка: А2:А14.
  3. Аргумент «Массив 2» - второй диапазон значений – стоимость ремонта: В2:В14. Жмем ОК.

Чтобы определить тип связи, нужно посмотреть абсолютное число коэффициента (для каждой сферы деятельности есть своя шкала).

Для корреляционного анализа нескольких параметров (более 2) удобнее применять «Анализ данных» (надстройка «Пакет анализа»). В списке нужно выбрать корреляцию и обозначить массив. Все.

Полученные коэффициенты отобразятся в корреляционной матрице. Наподобие такой:

Корреляционно-регрессионный анализ

На практике эти две методики часто применяются вместе.

Пример:


Теперь стали видны и данные регрессионного анализа.