Коэффициент корреляции

Алан-э-Дейл       31.08.2022 г.

Оглавление

Интерпретация результата вычисления по Пирсону

Величина коэффициента линейной корреляции Пирсона не может превышать +1 и быть меньше чем -1. Эти два числа +1 и -1 – являются границами для коэффициента корреляции. Когда при расчете получается величина большая +1 или меньшая -1 – следовательно, произошла ошибка в вычислениях.

Если коэффициент корреляции по модулю оказывается близким к 1, то это соответствует высокому уровню связи между переменными.

Если же получен знак минус, то большей величине одного признака соответствует меньшая величина другого. Иначе говоря, при наличии знака минус, увеличению одной переменной (признака, значения) соответствует уменьшение другой переменной. Такая зависимость носит название обратно пропорциональной зависимости

Эти положения очень важно четко усвоить для правильной интерпретации полученной корреляционной зависимости

Понятие о корреляционном анализе

Существует множество определений термина. Исходя из вышеизложенного, можно сказать, что корреляционный анализ — это метод, применяющийся с целью проверки гипотезы о статистической значимости двух и более переменных, если исследователь их может измерять, но не изменять.

Есть и другие определения рассматриваемого понятия. Корреляционный анализ — это метод обработки статистических данных, заключающийся в изучении коэффициентов корреляции между переменными. При этом сравниваются коэффициенты корреляции между одной парой или множеством пар признаков, для установления между ними статистических взаимосвязей. Корреляционный анализ — это метод по изучению статистической зависимости между случайными величинами с необязательным наличием строгого функционального характера, при которой динамика одной случайной величины приводит к динамике математического ожидания другой.

Условия использования метода

Результативные факторы зависят от одного до нескольких факторов. Метод корреляционного анализа может применяться в том случае, если имеется большое количество наблюдений о величине результативных и факторных показателей (факторов), при этом исследуемые факторы должны быть количественными и отражаться в конкретных источниках. Первое может определяться нормальным законом — в этом случае результатом корреляционного анализа выступают коэффициенты корреляции Пирсона, либо, в случае, если признаки не подчиняются этому закону, используется коэффициент ранговой корреляции Спирмена.

Генерирование джиттера

Поскольку каждое значение округлено до ближайшего сантиметра или килограмма, то значение, записанное как 180 см, на самом деле может быть каким угодно между 179.5 и 180.5 см, тогда как значение 80 кг на самом деле может быть каким угодно между 79.5 и 80.5 кг. Для создания случайных искажений, мы можем добавить случайные помехи в каждую точку данных роста в диапазоне между -0.5 и 0.5 и в том же самом диапазоне проделать с точками данных веса (разумеется, это нужно cделать до того, как мы возьмем логарифм значений веса):

График с джиттером выглядит следующим образом:

Как и в случае с внесением прозрачности в график рассеяния в первой серии постов об описательной статистике, генерирование джиттера — это механизм, который обеспечивает исключение несущественных факторов, таких как объем данных или артефакты округления, которые могут заслонить от нас возможность увидеть закономерности в данных.

Функция КОРРЕЛ для определения взаимосвязи и корреляции в Excel

КОРРЕЛ – функция, применяемая для подсчета коэффициента корреляции между 2-мя массивами. Разберем на четырех примерах все способности этой функции.

Примеры использования функции КОРРЕЛ в Excel

Первый пример. Есть табличка, в которой расписана информация об усредненных показателях заработной платы работников компании на протяжении одиннадцати лет и курсе $. Необходимо выявить связь между этими 2-умя величинами. Табличка выглядит следующим образом:

24

Алгоритм расчёта выглядит следующим образом:

25

Отображенный показатель близок к 1. Результат:

26

Определение коэффициента корреляции влияния действий на результат

Второй пример. Два претендента обратились за помощью к двум разным агентствам для реализации рекламного продвижения длительностью в пятнадцать суток. Каждые сутки проводился социальный опрос, определяющий степень поддержки каждого претендента. Любой опрошенный мог выбрать одного из двух претендентов или же выступить против всех. Необходимо определить, как сильно повлияло каждое рекламное продвижение на степень поддержки претендентов, какая компания эффективней.

27

Используя нижеприведенные формулы, рассчитаем коэффициент корреляции:

  • =КОРРЕЛ(А3:А17;В3:В17).
  • =КОРРЕЛ(А3:А17;С3:С17).

Результаты:

28

Из полученных результатов становится понятно, что степень поддержки 1-го претендента повышалась с каждыми сутками проведения рекламного продвижения, следовательно, коэффициент корреляции приближается к 1. При запуске рекламы другой претендент обладал большим числом доверия, и на протяжении 5 дней была положительная динамика. Потом степень доверия понизилась и к пятнадцатым суткам опустилась ниже изначальных показателей. Низкие показатели говорят о том, что рекламное продвижение отрицательно повлияло на поддержку. Не стоит забывать, что на показатели могли повлиять и остальные сопутствующие факторы, не рассматриваемые в табличной форме.

Анализ популярности контента по корреляции просмотров и репостов видео

Третий пример. Человек для продвижения собственных роликов на видеохостинге Ютуб применяет соцсети для рекламирования канала. Он замечает, что существует некая взаимосвязь между числом репостов в соцсетях и количеством просмотров на канале. Можно ли про помощи инструментов табличного процессора произвести прогноз будущих показателей? Необходимо выявить резонность применения уравнения линейной регрессии для прогнозирования числа просмотров видеозаписей в зависимости от количества репостов. Табличка со значениями:

29

Теперь необходимо провести определение наличия связи между 2-мя показателями по нижеприведенной формуле:

0,7;ЕСЛИ(КОРРЕЛ(A3:A8;B3:B8)>0,7;”Сильная  прямая зависимость”;”Сильная обратная зависимость”);”Слабая зависимость или ее отсутствие”)’ class=’formula’>

Если полученный коэффициент выше 0,7, то целесообразней применять функцию линейной регрессии. В рассматриваемом примере делаем:

30

Теперь производим построение графика:

31

Применяем это уравнение, чтобы определить число просматриваний при 200, 500 и 1000 репостов: =9,2937*D4-206,12. Получаем следующие результаты:

32

Функция ПРЕДСКАЗ позволяет определить число просмотров в моменте, если было проведено, к примеру, двести пятьдесят репостов. Применяем: 0,7;ПРЕДСКАЗ(D7;B3:B8;A3:A8);”Величины не взаимосвязаны”)’ class=’formula’>. Получаем следующие результаты:

33

Особенности использования функции КОРРЕЛ в Excel

Данная функция имеет нижеприведенные особенности:

  1. Не учитываются ячейки пустого типа.
  2. Не учитываются ячейки, в которых находится информация типа Boolean и Text.
  3. Двойное отрицание «–» применяется для учёта логических величин в виде чисел.
  4. Количество ячеек в исследуемых массивах обязаны совпадать, иначе будет выведено сообщение #Н/Д.

Коэффициент корреляции Спирмена

В статистике также существует коэффициент корреляции Спирмена, который назван в честь статистика Чарльза Эдварда Спирмена (Spearman).

Цель этого коэффициента заключается в измерении интенсивности соотношения между двумя переменными, независимо от того, являются ли они линейными или нет.

Корреляция Спирмена служит для оценки того, может ли интенсивность взаимосвязи между двумя анализируемыми переменными быть измерена монотонной функцией (математическая функция, которая сохраняет или инвертирует соотношение начальной последовательности).

Как считать коэффициент корреляции Спирмена

Расчет коэффициента корреляции Спирмена уже немного отличается от предыдущей. Для этого необходимо организовать имеющиеся данные в следующую таблицу.

1. У вас должны быть две пары данных, соответствующих друг другу. Вы должны внести их в эту таблицу. Например, дирекция ресторана хочет узнать, есть ли связь между количеством заказов бутылок воды и количеством заказов десертов. Директор взял наугад данные 4-х столиков. Таким образом, у него получились две пары данных: где “Data А” — это заказы десертов, а “Data B” — заказы воды (т. е. первый столик заказал 7 десертов и 8 бутылок воды, второй — 6 десертов и 3 бутылки с водой и т. д.):

2. В столбце «Ranking А» мы будем классифицировать наблюдения, которые находятся в «Data А», нарастающим образом: «1» является самым низким значением в столбце и n (общее количество наблюдений) — самым высоким значением в столбце «Data А». В нашем примере это:

3. Сделайте то же самое позиционирование (классификацию наблюдений) для второго столбца “Data B”, записав это в столбце “Ranking B”.

4. В столбце «d» посчитайте разницу между двумя последними столбцами-ранкингами (A — B). Знак здесь учитывать не нужно (в следующем шаге узнаете почему).

5. Возведите во вторую степень каждое из значений, полученное в столбце «d».

6. Сделайте сумму всех данных, которые у вас получились в столбце «d2». Это будет Σd². В нашем примере Σd² = 0+1+0+1 = 2.

7. Теперь используем формулу Спирмена.

В нашем случае n = 4, мы это видим по количеству пар данных (соответствует числу наблюдений).

8. И наконец, замените данные в формуле.

Наш результат равен 0,8 или 80 %. Это означает, что переменные имеют положительную корреляцию.

Т. е. заказы бутылок воды и заказы десертов клиентами этого ресторана зависят друг от друга (т. к. коэффициент 0,8 далёк от 0), но не полностью (т. к. коэффициент очень близок к 1, но не равен 1). А положительная, так как коэффициент больше чем 0, это означает, что количество воды и количество десертов увеличиваются вместе, а не наоборот (т. е. чем выше количество потребляемой воды, тем выше количество потребляемых десертов).

Отрицательная корреляция

Отрицательная (обратная) корреляция возникает, когда коэффициент корреляции меньше 0. Это указывает на то, что обе переменные движутся в противоположном направлении. Короче говоря, любое значение от 0 до -1 означает, что две ценные бумаги движутся в противоположных направлениях. Когда ρ равно -1, связь считается полностью отрицательно коррелированной. Короче говоря, если одна переменная увеличивается, другая уменьшается с той же величиной (и наоборот). Однако степень отрицательной корреляции двух ценных бумаг может меняться со временем (и они почти никогда не коррелируют точно все время).

Пример применения метода корреляционного анализа

В Великобритании было предпринято любопытное исследование. Оно посвящено связи курения с раком легких, и проводилось путем корреляционного анализа. Это наблюдение представлено ниже.

Исходные данные для корреляционного анализа

Профессиональная группа смертность
Фермеры, лесники и рыбаки
Шахтеры и работники карьеров
Производители газа, кокса и химических веществ
Изготовители стекла и керамики
Работники печей, кузнечных, литейных и прокатных станов
Работники электротехники и электроники
Инженерные и смежные профессии
Деревообрабатывающие производства
Кожевенники
Текстильные рабочие
Изготовители рабочей одежды
Работники пищевой, питьевой и табачной промышленности
Производители бумаги и печати
Производители других продуктов
Строители
Художники и декораторы
Водители стационарных двигателей, кранов и т. д.
Рабочие, не включенные в другие места
Работники транспорта и связи
Складские рабочие, кладовщики, упаковщики и работники разливочных машин
Канцелярские работники
Продавцы
Работники службы спорта и отдыха
Администраторы и менеджеры
Профессионалы, технические работники и художники

Начинаем корреляционный анализ. Решение лучше начинать для наглядности с графического метода, для чего построим диаграмму рассеивания (разброса).

Она демонстрирует прямую связь. Однако на основании только графического метода сделать однозначный вывод сложно. Поэтому продолжим выполнять корреляционный анализ. Пример расчета коэффициента корреляции представлен ниже.

С помощью программных средств (на примере MS Excel будет описано далее) определяем коэффициент корреляции, который составляет 0,716, что означает сильную связь между исследуемыми параметрами. Определим статистическую достоверность полученного значения по соответствующей таблице, для чего нам нужно вычесть из 25 пар значений 2, в результате чего получим 23 и по этой строке в таблице найдем r критическое для p=0,01 (поскольку это медицинские данные, здесь используется более строгая зависимость, в остальных случаях достаточно p=0,05), которое составляет 0,51 для данного корреляционного анализа. Пример продемонстрировал, что r расчетное больше r критического, значение коэффициента корреляции считается статистически достоверным.

Пошаговая регрессия

12mijxjxiy

На втором шаге строится уравнение регрессии с одной переменной, имеющей максимальный по абсолютной величине парный коэффициент корреляции с результативным признаком.

На третьем шаге в модель вводится новая переменная, имеющая наибольшее по абсолютной величине значение частного коэффициента корреляции с зависимой переменной при фиксированном влиянии ранее введенной переменной.
При введении в модель дополнительного фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться. Если этого не происходит, т. е. коэффициент множественной детерминации увеличивается незначительно, то ввод нового фактора признается нецелесообразным.

Пример №1. По 20 предприятиям региона изучается зависимость выработки продукции на одного работника y (тыс. руб.) от удельного веса рабочих высокой квалификации в общей численности рабочих x1 (% от стоимости фондов на конец года) и от ввода в действие новых основных фондов x2 (%).

Y X1 X2
6 10 3,5
6 12 3,6
7 15 3,9
7 17 4,1
7 18 4,2
8 19 4,5
8 19 5,3
9 20 5,3
9 20 5,6
10 21 6
10 21 6,3
11 22 6,4
11 23 7
12 25 7,5
12 28 7,9
13 30 8,2
13 31 8,4
14 31 8,6
14 35 9,5
15 36 10

Требуется:

  1. Построить корреляционное поле между выработкой продукции на одного работника и удельным весом рабочих высокой квалификации. Выдвинуть гипотезу о тесноте и виде зависимости между показателями X1 и Y .
  2. Оценить тесноту линейной связи между выработкой продукции на одного работника и удельным весом рабочих высокой квалификации с надежностью 0,9.
  3. Рассчитать коэффициенты линейного уравнения регрессии для зависимости выработки продукции на одного работника от удельного веса рабочих высокой квалификации.
  4. Проверить статистическую значимость параметров уравнения регрессии с надежностью 0,9 и построить для них доверительные интервалы.
  5. Рассчитать коэффициент детерминации. С помощью F -критерия Фишера оценить статистическую значимость уравнения регрессии с надежностью 0,9.
  6. Дать точечный и интервальный прогноз с надежностью 0,9 выработки продукции на одного работника для предприятия, на котором высокую квалификацию имеют 24% рабочих.
  7. Рассчитать коэффициенты линейного уравнения множественной регрессии и пояснить экономический смысл его параметров.
  8. Проанализировать статистическую значимость коэффициентов множественного уравнения с надежностью 0,9 и построить для них доверительные интервалы.
  9. Найти коэффициенты парной и частной корреляции. Проанализировать их.
  10. Найти скорректированный коэффициент множественной детерминации. Сравнить его с нескорректированным (общим) коэффициентом детерминации.
  11. С помощью F -критерия Фишера оценить адекватность уравнения регрессии с надежностью 0,9.
  12. Дать точечный и интервальный прогноз с надежностью 0,9 выработки продукции на одного работника для предприятия, на котором высокую квалификацию имеют 24% рабочих, а ввод в действие новых основных фондов составляет 5%.
  13. Проверить построенное уравнение на наличие мультиколлинеарности по: критерию Стьюдента; критерию χ2. Сравнить полученные результаты.

Решение проводим с помощью калькулятора. Далее приводится ход решения п.13.

Матрица парных коэффициентов корреляции R:

y x1 x2
y 1 0.97 0.991
x1 0.97 1 0.977
x2 0.991 0.977 1

ixjxix1 x2yxiyx1критнаблкритyx2наблкритx1x22Тестирование и устранение мультиколлинеарности222табл2табл2Определяем обратную матрицу-1

D =
55,365 -2,256 -52,656
-2,256 22,386 -19,642
-52,656 -19,642 72,373

kk12kТабл12Табл1табл2табл13табл2Частные коэффициенты корреляцииijyx1 /x2критнабл121yx2 /x1наблкрит21212

Пример №2. По 30 наблюдениям матрица парных коэффициентов корреляции оказалась следующей:

  y x1 x2 x3
y 1,0      
x1 0,30 1,0    
x2 0,60 0,10 1,0  
x3 0,40 0,15 0,80 1,0

уравнение регрессии в стандартном масштабе

Парная корреляция

Этот термин употребляется для обозначения взаимоотношений между двумя определенными величинами. Известно, что расходы на рекламу в США в значительной мере влияют на объем ВВП этой страны. Коэффициент корреляции между данными величинами по итогам наблюдений, продолжавшихся в течение 20 лет, составляет 0,9699.

Более «приземленный» пример – связь между посещаемостью страницы онлайн-магазина и объемом его продаж.

И уж, конечно, вряд ли кто-нибудь станет отрицать наличие зависимости, существующей между температурой воздуха и продажами пива или мороженого.

Корреляция – это взаимозависимость двух величин; коэффициент корреляции – это объективный показатель, определяющий степень этой взаимозависимости. Коэффициент корреляции может быть и положительным, и отрицательным. Что касается ценных бумаг, то они крайне редко бывают абсолютно коррелированными.

Наши группы:

Линейный коэффициент корреляции Пирсона

Обнаружение взаимосвязей между явлениями – одна из главных задач статистического анализа. На то есть две причины. Первая. Если известно, что один процесс зависит от другого, то на первый можно оказывать влияние через второй. Вторая. Даже если причинно-следственная связь отсутствует, то по изменению одного показателя можно предсказать изменение другого.

Взаимосвязь двух переменных проявляется в совместной вариации: при изменении одного показателя имеет место тенденция изменения другого. Такая взаимосвязь называется корреляцией, а раздел статистики, который занимается взаимосвязями – корреляционный анализ.

Корреляция – это, простыми словами, взаимосвязанное изменение показателей. Она характеризуется направлением, формой и теснотой. Ниже представлены примеры корреляционной связи.

При положительном отклонении X от своей средней, Y также в большинстве случаев отклоняется в положительную сторону от своей средней. Для X меньше среднего, Y, как правило, тоже ниже среднего.

Это прямая или положительная корреляция.

Бывает обратная или отрицательная корреляция, когда положительное отклонение от средней X ассоциируется с отрицательным отклонением от средней Y или наоборот.

Линейность корреляции проявляется в том, что точки расположены вдоль прямой линии. Положительный или отрицательный наклон такой линии определяется направлением взаимосвязи.

Крайне важная характеристика корреляции – теснота. Чем теснее взаимосвязь, тем ближе к прямой точки на диаграмме. Как же ее измерить?

Складывать отклонения каждого показателя от своей средней нет смысла, получим нуль. Похожая проблема встречалась при измерении вариации, а точнее дисперсии. Там эту проблему обходят через возведение каждого отклонения в квадрат.

Квадрат отклонения от средней измеряет вариацию показателя как бы относительно самого себя. Если второй множитель в числителе заменить на отклонение от средней второго показателя, то получится совместная вариация двух переменных, которая называется ковариацией.

Чем больше пар имеют одинаковый знак отклонения от средней, тем больше сумма в числителе (произведение двух отрицательных чисел также дает положительное число).

Интервалы уверенности

Установив, что в более широкой популяции, безусловно, существует корреляция, мы, возможно, захотим количественно выразить диапазон значений, внутри которого, как мы ожидаем, будет лежать параметр ρ, вычислив для этого интервал уверенности. Как и в случае со средним значением в предыдущей серии постов, интервал уверенности для r выражает вероятность (выраженную в %), что параметр ρ популяции находится между двумя конкретными значениями.

Однако при попытке вычислить стандартную ошибку коэффициента корреляции возникает сложность, которой не было в случае со средним значением. Поскольку абсолютное значение коэффициента корреляции r не может превышать 1, распределение возможных выборок коэффициентов корреляции r смещается по мере приближения r к пределу своего диапазона.

Приведенный выше график показывает отрицательно скошенное распределение r-выборок для параметра ρ, равного 0.6.

К счастью, трансформация под названием z-преобразование Фишера стабилизирует дисперсию r  по своему диапазону. Она аналогична тому, как наши данные о весе спортсменов стали нормально распределенными, когда мы взяли их логарифм.

Уравнение для z-преобразования следующее:

Стандартная ошибка z равна:

Таким образом, процедура вычисления интервалов уверенности состоит в преобразовании r в z с использованием z-преобразования, вычислении интервала уверенности в терминах стандартной ошибки SEz и затем преобразовании интервала уверенности в r.

В целях вычисления интервала уверенности в терминах SEz, мы можем взять число стандартных отклонений от среднего, которое дает нам требуемый уровень доверия. Обычно используют число 1.96, так как оно является числом стандартных отклонений от среднего, которое содержит 95% площади под кривой. Другими словами, 1.96 стандартных ошибок от среднего значения выборочного r содержит истинную популяционную корреляцию ρ с 95%-ой определенностью.

Мы можем убедиться в этом, воспользовавшись функцией scipy . Она вернет стандартную оценку, связанную с заданной интегральной вероятностью в условиях односторонней проверки.

Однако, как показано на приведенном выше графике, мы хотели бы вычесть ту же самую величину, т.е. 2.5%, из каждого хвоста с тем, чтобы 95%-й интервал уверенности был центрирован на нуле. Для этого при выполнении двусторонней проверки нужно просто уменьшить разность наполовину и вычесть результат из 100%. Так что, требуемый уровень доверия в 95% означает, что мы обращаемся к критическому значению 97.5%:

Поэтому наш 95%-й интервал уверенности в z-пространстве для ρ задается следующей формулой:

Подставив в нашу формулу zrи SEz, получим:

Для r=0.867 и n=859 она даст нижнюю и верхнюю границу соответственно 1.137 и 1.722. В целях их преобразования из z-оценок в r-значения, мы используем следующее обратное уравнение z-преобразования:

Преобразования и интервал уверенности можно вычислить при помощи следующего исходного кода:

В результате получаем 95%-й интервал уверенности для ρ, расположенный между 0.850 и 0.883. Мы можем быть абсолютно уверены в том, что в более широкой популяции олимпийских пловцов существует сильная положительная корреляция между ростом и весом.

Примеры исходного кода для этого поста находятся в моем репо на Github. Все исходные данные взяты в репозитории автора книги.

В следующем посте, посте №2, будет рассмотрена сама тема серии — регрессия и приемы оценивания ее качества.

Построение парной регрессионной модели

Рекомендации к решению контрольной работы.

Статистические данные по экономике можно получить на странице Россия в цифрах.
После определения зависимой и объясняющих переменных можно воспользоваться сервисом Множественная регрессия. Регрессионную модель с 2-мя объясняющими переменными можно построить используя матричный метод нахождения параметров уравнения регрессии или метод Крамера для нахождения параметров уравнения регрессии.

Пример №3. Исследуется зависимость размера дивидендов y акций группы компаний от доходности акций x1, дохода компании x2 и объема инвестиций в расширение и модернизацию производства x3. Исходные данные представлены выборкой объема n=50.

Тема I. Парная линейная регрессия
Постройте парные линейные регрессии — зависимости признака y от факторов x1, x2, x3 взятых по отдельности. Для каждой объясняющей переменной:

  1. Постройте диаграмму рассеяния (поле корреляции). При построении выберите тип диаграммы «Точечная» (без отрезков, соединяющих точки).
  2. Вычислите коэффициенты уравнения выборочной парной линейной регрессии (для вычисления коэффициентов регрессии воспользуйтесь встроенной функцией ЛИНЕЙН (функция находится в категории «Статистические») или надстройкой Пакет Анализа), коэффициент детерминации, коэффициент корреляции (функция КОРЕЛЛ), среднюю ошибку аппроксимации .
  3. Запишите полученное уравнение выборочной регрессии. Дайте интерпретацию найденным в предыдущем пункте значениям.
  4. Постройте на поле корреляции прямую линию выборочной регрессии по точкам .
  5. Постройте диаграмму остатков.
  6. Проверьте статистическую значимость коэффициентов регрессии по критерию Стьюдента (табличное значение определите с помощью функции СТЬЮДРАСПОБР) и всего уравнения в целом по критерию Фишера (табличное значение Fтабл определите с помощью функции FРАСПОБР).
  7. Постройте доверительные интервалы для коэффициентов регрессии. Дайте им интерпретацию.
  8. Постройте прогноз для значения фактора, на 50% превышающего его среднее значение.
  9. Постройте доверительный интервал прогноза. Дайте ему экономическую интерпретацию.
  10. Оцените полученные результаты — сделайте выводы о качестве построенной модели, влиянии рассматриваемого фактора на показатель.

Тема II. Множественная линейная регрессия
1. Постройте выборочную множественную линейную регрессию показателя на все указанные факторы. Запишите полученное уравнение, дайте ему экономическую интерпретацию.
2. Определите коэффициент детерминации, дайте ему интерпретацию. Вычислите среднюю абсолютную ошибку аппроксимации и дайте ей интерпретацию.
3. Проверьте статистическую значимость каждого из коэффициентов и всего уравнения в целом.
4. Постройте диаграмму остатков.
5. Постройте доверительные интервалы коэффициентов. Для статистически значимых коэффициентов дайте интерпретации доверительных интервалов.
6. Постройте точечный прогноз значения показателя yпри значениях факторов, на 50% превышающих их средние значения.
7. Постройте доверительный интервал прогноза, дайте ему экономическую интерпретацию.
8. Постройте матрицу коэффициентов выборочной корреляции между показателем и факторами. Сделайте вывод о наличии проблемы мультиколлинеарности.
9. Оцените полученные результаты — сделайте выводы о качестве построенной модели, влиянии рассматриваемых факторов на показатель.

Суть

Коэффициент линейной корреляции может быть полезен при определении взаимосвязи между инвестициями и рынком в целом или другими ценными бумагами. Его часто используют для прогнозирования доходности фондового рынка. Это статистическое измерение полезно во многих отношениях, особенно в финансовой отрасли. Например, это может быть полезно для определения того, насколько хорошо взаимный фонд ведет себя по сравнению с его  эталонным  индексом, или его можно использовать для определения того, как взаимный фонд ведет себя по отношению к другому фонду или  классу активов. Добавляя взаимный фонд с низкой или отрицательной корреляцией к существующему портфелю, можно получить преимущества диверсификации.

Частная корреляция

С помощью коэффициента частной корреляции определяется теснота связи между двумя
факторами при фиксировании или исключении влияния остальных. Коэффициент частной корреляции рассчитывается
по следующей формуле:

Пример 2. Собраны данные для установления зависимости цены квартиры,
с одной стороны, и общей площади, площади жилой зоны и площади кухни, с другой стороны. Установить тесноту связи между
ценой квартиры и её общей площади при исключении влияния площади жилой зоны и площади кухни.

Решение. Сначала выбираем две независимые переменные — площадь жилой зоны и общая площадь.
Устанавливаем тесноту связи между ценой квартиры и площадью жилой зоны при исключении влияния общей
площади. Значение коэффициента частной корреляции: 0,74. Теперь устанавливаем тесноту связи между ценой
квартиры и площадью жилой зоны при исключении влияния площади кухни. Значение коэффициента частной
корреляции: 0,61. Вывод: от площади жилой зоны цена квартиры более тесно зависит при исключении влияния
общей площади, чем при исключении площади кухни.

Назад Листать Вперёд>>>

Всё по теме «Математическая статистика»

Дополнительное замечание про распределения:

нормально ли, что анализируя данные геофизического мониторинга, мы никогда не встречаемся с нормальным распределением? 

Да-да, я в курсе про Центральную предельную теорему. Но еще больше я склонен верить практике обработки тысяч различных экспериментальных сигналов — прежде всего, данных геофизического мониторинга, но далеко не только его. Поэтому большая просьба к тем «чистым» математикам, которых задевает утверждение, что отсутствие нормальности — это нормально: не надо ругаться! Просто возьмите десяток-другой экспериментальных рядов, полученных в результате длительных (многие недели и месяцы) наблюдений и содержащих достаточное количество точек данных (десятки тысяч и более). И попробуйте найти среди них такие, чье распределение неотличимо от нормального, например, по критерию хи-квадрат. К сожалению или к счастью, жизнь несколько отличается от

Можно с уверенностью утверждать, что для подавляющего большинства сигналов, получаемых при долговременном мониторинге, условия ЦПТ не выполнены. Во-первых, нет никаких гарантий, что поведение контролируемой величины зависит от многих малых и независимых причинных факторов — наоборот, обычно они коррелированы между собой, а вклад некоторых преобладает

Но еще более важно, что практически все природные процессы нестационарны, что сразу же выводит их за рамки явлений, к которым может быть применена ЦПТ. Впрочем, это уже отдельный вопрос, который обсуждается в

Надстройка Пакет анализа

В

надстройке Пакет анализа

для вычисления ковариации и корреляции

имеются одноименные инструменты

анализа

После вызова инструмента появляется диалоговое окно, которое содержит следующие поля:

  • Входной интервал : нужно ввести ссылку на диапазон с исходными данными для 2-х переменных
  • Группирование : как правило, исходные данные вводятся в 2 столбца
  • Метки в первой строке : если установлена галочка, то Входной интервал должен содержать заголовки столбцов. Рекомендуется устанавливать галочку, чтобы результат работы Надстройки содержал информативные столбцы
  • Выходной интервал : диапазон ячеек, куда будут помещены результаты вычислений. Достаточно указать левую верхнюю ячейку этого диапазона.

Надстройка возвращает вычисленные значения корреляции и ковариации (для ковариации также вычисляются дисперсии обоих случайных величин).

Предвзятость средств массовой информации

Рассмотрим, как наличие корреляционной связи может быть неправильно истолковано. Группу британских студентов, отличающихся плохим поведением, опросили относительно того, курят ли их родители. Потом тест опубликовали в газете. Результат показал сильную корреляцию между курением родителей и правонарушениями их детей. Профессор, который проводил это исследование, даже предложил поместить на пачки сигарет предупреждение об этом. Однако существует целый ряд проблем с таким выводом. Во-первых, корреляция не показывает, какая из величин является независимой. Поэтому вполне можно предположить, что пагубная привычка родителей вызвана непослушанием детей. Во-вторых, нельзя с уверенностью сказать, что обе проблемы не появились из-за какого-то третьего фактора. Например, низкого дохода семей. Следует отметить эмоциональный аспект первоначальных выводов профессора, который проводил исследование. Он был ярым противником курения. Поэтому нет ничего удивительного в том, что он интерпретировал результаты своего исследования именно так.

Расчет ρ

Ковариация  двух переменных в вопросе должны быть рассчитаны, прежде чем корреляция может быть определена. Затем требуется стандартное отклонение каждой переменной . Коэффициент корреляции определяется делением ковариации на произведение стандартных отклонений двух переменных.

Стандартное отклонение – это мера  разброса  данных от среднего значения. Ковариация – это мера того, как две переменные изменяются вместе. Однако его масштабы безграничны, поэтому его трудно интерпретировать. Нормализованная версия статистики вычисляется путем деления ковариации на произведение двух стандартных отклонений. Это коэффициент корреляции.

Гость форума
От: admin

Эта тема закрыта для публикации ответов.