-
가설 검정(test of hypothesis)학교 수업/1-2 공학수학1, 확률통계론 2021. 7. 12. 00:06반응형
- 확률통계론 수업을 듣고 정리한 내용입니다.
가설 검정은 어떤 가설을 만들었을 때, 이 가설이 통계적으로 유의미한지 알아내는 방법입니다.
가설은 귀무가설(H0, The Null Hypothesis)과 대립가설(H1, The Alternative Hypothesis)로 나뉘는데, 귀무가설은 검정이 되는 가설로 원래 일반적으로 통용되는 주장을 귀무가설로 넣고, 대립가설은 귀무가설과 대립되는 가설로 우리가 주장하고 싶은 가설로 설정합니다.
굳이 대립가설이 아니고 귀무가설을 검정하는 이유는 직접적으로 대립가설이 통계적으로 유의미하다고 입증하기가 어렵기 때문에 간접적으로 증명을 한다고 하네요.
그래서 귀무가설을 통해 귀무가설이 거짓이면 기각을 하여 대립가설을 채택하고, 귀무가설이 참이라면 대립가설은 쓸모가 없으니 기각하는 형태라고 합니다.
기각을 하려면 기각하려는 범위가 존재하겠죠? 이 기각하려는 범위는 기각역(Critical region)이라고 하고, 기각을 하지 않는 범위는 채택역(acceptance region)이라고 합니다. 그리고 기각역과 채택역의 경계값은 임계값(Critical value)라고 부릅니다.
이때 기각역이 1개면 one-tailed test라고 하고, 2개면 two-tailed test라고 합니다.
one-tailed test는 기각역의 위치에 따라 왼쪽에 기각역이 있으면 lower tailed test, 오른쪽에 있으면 upper tailed test라고 부릅니다.
지금까지 적은 내용을 예시를 통해 정리해봅시다.
만약 지금까지 사용하는 백신이 코로나 델타 변이에 걸리지 않는 확률이 25%라고 가정해봅시다. 그리고 이번에 새로운 백신이 나왔는데, 이 백신은 원래 사용하던 백신보다 성능이 좋아 델타 변이에 걸리지 않을 확률이 25%보다 크다고 가설을 세워봅시다.
이럴 경우 귀무가설은 '25% 이하가 나온다'일 것이고, 대립가설은 '25% 초과가 나온다'입니다. 그리고 임계값은 표본집단이 100명이라면 25명입니다. 우리는 귀무가설로 확인을 하므로 귀무가설 기준으로 채택역은 0명 이상 25명 이하일 것이고, 기각역은 25명 초과 100명 이하일 것입니다.
이것을 그림으로 그려보면 아래와 같습니다.
이 경우 기각역 1개이고 오른쪽에 존재하니 one tailed test중에서 upper tailed test라고 할 수 있겠습니다.
이제 이 가설 검정에 대한 오류를 살펴보겠습니다. 오류는 2가지가 존재합니다.
α오류라고도 부르는 Type ⅠError(제 1종 과오, 1종 오류)
β오류라고도 부르는 Type Ⅱ Error(제 2종 과오, 2종 오류)
인데, 편하게 1종 오류, 2종 오류라고 말하겠습니다.
1종 오류는 귀무가설(H0)이 참이지만 기각하여 대립가설(H1)을 채택하는 것이고,
2종 오류는 귀무가설(H0)이 거짓이지만 기각하지 않고 대립가설(H1)를 기각하는 오류입니다.
그래서 1종 오류와 2종 오류는 이 에러가 일어날 확률을 계산하는 것입니다.
귀무가설 채택 귀무가설 기각 귀무가설 = 참 옳바른 결정 1종 오류(α, p-value) 귀무가설 = 거짓 2종 오류(β) 옳바른 결정(검정력) 1종 오류와 2종 오류에는 특징이 존재합니다.
- 1종 오류와 2종 오류는 서로 관련이 있어서 한쪽 오류가 커지면 다른쪽 오류는 작아진다.
- 1종 오류는 기각역의 크기 조절을 통해 줄일 수 있다.
- 표본 크기가 증가하면 1종 오류와 2종 오류의 값은 줄어든다.
- 만약 귀무가설이 거짓인데, 참 값이 귀무가설 값과 근접할 때 2종 오류가 최대로 커진다. 반대로 멀어지면 2종 오류값이 작아진다.
위의 표에서 처음 보는 두 가지 키워드가 있는데요.
먼저 검정력(power of test)은 대립가설(H1)이 참일 때, 귀무가설(H0)를 기각할 확률로 대립가설이 참이라는 것은 귀무가설이 거짓이라는 의미이기 때문에 검정력값은 1-β로 구할 수 있습니다.
β가 귀무가설이 거짓일 때, 귀무가설을 채택하는 것인데,
1-β는 귀무가설이 거짓일 때, 귀무가설을 기각하는 것이므로 맞는 계산임을 알 수 있습니다.
그리고 p-value(유의확률)는 1종 오류가 발생할 확률로 p-value가 일정 수준 이하라면 귀무가설을 기각하고, 대립가설을 채택한다고 합니다. 여기서 "일정 수준"이라는 것은 유의수준(Significant level)이라고 부르고 보통 0.05로 잡는다고 합니다.
가설 검정을 할 때도 우리가 표본 집단을 가지고서 이용을 하기 때문에 모집단의 평균, 분산을 추정해야 합니다. 여기서 이제 정규분포, F분포, T분포, 카이제곱분포등을 사용하는데 이건 가설검정을 배우기 전에 배우는 내용이니까 패스하겠습니다.
이렇게 하면 마지막으로 적합도 검정이라는 내용이 나옵니다.
적합도 검정(Goodness-of-Fit Test)은 표본 데이터가 우리가 가정한 분포를 따르는지 확인하는 방법입니다. 여기서 얼마나 데이터가 차이가 나는지 확인하기 위해 카이제곱분포(보통 χ20.05값을 구함)를 사용하여 분포에 따르는지 아닌지 확인합니다.
예시를 들어보면 만약 어떤 주사위가 있을 때, 이게 원래 우리가 알고있는 편향되지 않는 주사위인지, 한쪽으로 치우친 편향된 주사위인지 알아보려고 합니다.
이때 주사위를 n번을 던지고 나온 데이터를 이용해 구한 카이제곱분포의 값이 1.7이라고 하면, χ20.05 = 11.070(v = 5)값보다 작으므로 편향된 주사위가 아님을 알 수 있다고 합니다.
반응형'학교 수업 > 1-2 공학수학1, 확률통계론' 카테고리의 다른 글
연립 미분 방정식(라플라스 변환) (2) 2020.11.26 라플라스 변환 (0) 2020.11.25 미분방정식 급수해법 (0) 2020.11.24 연립 미분 방정식(일반) (0) 2020.11.19 고차 미분방정식 (0) 2020.11.18