상관계수(r)와 유의확율(p-value)
1. Correlation (상관관계)
- 상관관계는 두 변수간의 관계의 강도와 방향을 설명하는 척도입니다. 변수가 얼마나 밀접하게 관련되어 있는지 연구하는 데 사용되는 방법을 Correlation Analysis(상관분석)라 합니다.
그러나, 상관관계가 인과 관계를 의미하지는 않습니다. 한 변수의 변경이 다른 변수의 변경과 연관되어 있다는 사실이 실제로 다른 변수가 변경되는 것을 의미하지는 않습니다. (인관관계는 선형회귀분석으로)
2. 상관계수(r)와 상관 관계 해석
2.1 상관계수 r : 두 연속 변수 간의 연관 정도에 대한 수치.
- 계수값은 항상 -1과 1사이이며, 변수간의 선형 관계의 강도와 방향을 모두 측정함.
1) Strength(힘): 계수의 절대 값이 클수록 관계가 강해집니다.
- 0에서 +1, -1 사이의 값은 약함, 보통 및 강함 관계의 척도를 나타냅니다. 마찬가지로 R은 -1 또는 1 에 가까울 수록 관계의 강도가 증가합니다.
2) Direction(방향): 계수 기호(더하기, 빼기)는 관계의 방향을 나타냅니다.
- 양의 계수는 직접적인 상관 관계를 나타내며 한 변수가 증가하면 다른 변수도 증가합니다.
- 음의 계수는 역 상관을 나타내며, 그래프에서 하향 기울기를 생성합니다. 한 변수가 증가면 다른 변수는 감소하는 경향이 있습니다.
. 계수 1은 완전환 양의 관계를 의미합니다. 한 변수가 증가하면 다른 변수는 비례 적으로 증가합니다.
. 계수 -1은 완벽한 음의 관계를 의미합2니다. 한 변수가 증가하면 다른 변수는 비례적으로 감사합니다.
. 계수 0은 두 변수간에 관계가 없음을 의미합니다. 데이터 포인트는 그래프 전체에 흩어져 있습니다.
3. 관련수식
3.1 R : 상관계수
3.2 R Square(R제곱값: R^2) : 결정계수
- 이 값은 추세선이 데이터에 얼마나 잘 대응하는 지 나타내며, R^2가 1에 가까울수록 적합도가 더 좋습니다.
3.3 P-Value
- 유의확률. 귀무가설이 맞다고 가정할 때 얻은 결과보다 극단적인 결과가 실제로 관측될 확률이다. p-value가 작을 수록 그 정도가 약하다고 보며, 특정 값(대게 0.05나 0.01)보다 작을 경우 귀무가설을 기각하는 것이나 여기에는 여러가지 문제들이 있다.
- p-value는 보통 검정통계량(t)과 자유도(df) 로 계산됨. (엑셀에서 TDIS(t, df, false(양측검증)) 함수)
- 검정통계량(t)은 상관계수에서 아래 식을 통해서 계산할 수 있음.
- 자유도는 표본쌍(n) - 2로 계산
ps1. 결정계수 = 상관계수^2
ps2. 상관계수 = SQRT(결정계수) = 결정계수^0.5=√ℛ
ps3. 차트에 추세선 추가하고, 상단에 추세선 수식 표시. (예: y= 0.003x + 11.11 (추세선 선형 방정식 y=ax + b))
3.4 선형방정식
: 차트에서 추세선을 그리기위한 계산식. X의 min/max로 추세선을 추가하고, 산술식을 표기한다.
1) 선형방정식
Y = {0}X (+or-) {1}
- {0} : slope
- {1}: yintercept
end.
'Programming Language > 알고리즘' 카테고리의 다른 글
[주식] RSI (Relative Strength Index) (0) | 2022.03.06 |
---|---|
[주식] 이동평균 계산 (0) | 2022.03.06 |