Урок 4. Корреляция и парная линейная регрессия
Таблица из видеоурока: Курсы валют для регрессии и корреляции
На этом уроке вы научитесь рассчитывать коэффициент корреляции, находить коэффициенты парной линейной регрессии и использовать их для прогнозирования.
Коэффициент корреляции Пирсона позволяет анализировать взаимосвязь двух переменных. Он измеряется от -1 до +1. Значение коэффициента -1 говорит о наличии отрицательной корреляции — то есть при увеличении одной переменной, вторая будет сокращаться. При коэффициенте корреляции равном +1 имеет место положительная корреляция — если значения одной переменной возрастают, то возрастают и значения второй переменной. Значение 0 (ноль) означает отсутствие корреляции между двумя переменными.
В гугл-таблицах коэффициент корреляции рассчитывается при помощи функции CORREL(диапазон данных 1 переменной, диапазон данных 2 переменной). С самой формулой расчета коэффициента корреляции Пирсона можно ознакомиться здесь.
Парная линейная регрессия моделирует зависимость одной переменной (скажем, Y) от другой — X. В отличие от коэффициента корреляции, который показывает наличие взаимосвязи между переменными, при помощи парной линейной регрессии можно количественно оценить степень этой зависимости. Эта зависимость рассчитывается при помощи методов наименьших квадратов.
Уравнение парной линейной регрессии выглядит следующим образом:
Y = aX+b, где:
Y — зависимая переменная
X — объясняющая переменная
a — угловой коэффициент
b — свободный член.
Именно угловой коэффициент показывает “степень зависимости” Y от X. Иными словами, он отвечает на вопрос: чему будет равен Y при заданном X. Свободный член в этом случае показывает чему будет равен Y, если X будет равен нулю.
Подробно про парную линейную регрессию, расчет и интерпретацию ее коэффициентов можно прочитать здесь.
Для оценки коэффициентов парной линейной регрессии в гугл-таблицах применяется функция LINEST (диапазон Y переменной, диапазон X переменной, свободный член, нужно ли возвращать всю статистику регрессии).
Для прогнозирования с использованием коэффициентов парной линейной регрессии в гугл-таблицах применяется функция FORECAST (значение для которого будет строиться прогноз, диапазон Y переменной, диапазон X переменной).