ADP 기출문제 풀이) 추정과 가설검정 문제들 w/Python
예전 다른 포스팅에서도 언급한 적 있듯이 ADP는 통계와 머신러닝을 아우르는 시험이다. 그렇기 때문에 통계 관련 문제도 항상 출제가 되고 있다. 이번 포스팅에서는 ADP 실기 기출문제들에서 출제되었던 추정과 가설 검정 문제들을 풀어보려고 한다.
7. 일표본 추정 문제
# 7-1. 12건의 광고 시간 측정. 평균 15.5초, 분산 3.2초 일때 모평균의 90% 신뢰구간을 추정하시오.
[출처: ADP 27회 실기 기출 (https://www.datamanim.com/dataset/ADPpb/00/27.html)]
모분산을 모르는 경우 모평균의 신뢰구간을 추정하는 문제이다. t분포를 사용해서 문제를 푼다.
# 7-2. 철강제품의 불량률이 0.9인 경우, 오차의 한계가 5%가 되도록하는 최소 표본 사이즈는?
[출처: ADP 26회 실기 기출 (https://www.datamanim.com/dataset/ADPpb/00/26.html)]
표본비율에 대한 최소표본규모 문제이다. 표본규모 계산 시 모비율 P를 사용하거나 표본비율 p로 계산하거나 두 정보 모두 없다면 p=0.5로 계산한다. 신뢰구간은 일반적으로 사용하는 95%를 적용하였다.
# 7-3. 표본 10개의 분산이 90일 때 신뢰도 95%로 모분산의 신뢰구간을 추정하시오.
[출처: ADP 25회 실기 기출 (https://www.datamanim.com/dataset/ADPpb/00/25.html)]
모평균을 모르는 경우 모분산의 신뢰구간을 구하는 문제이다.
# 7-4. 각 조건에서의 신뢰구간을 추정하시오.
[출처: ADP 24회 실기 기출 (https://www.datamanim.com/dataset/ADPpb/00/24.html)]
- 7-4-1. 모분산을 모르는 경우 주어진 데이터의 모평균에 대한 95% 신뢰구간을 구하시오.
모분산을 모르는 경우에는 t통계량을 활용하여 신뢰구간을 구한다.
- 7-4-2. sigma = 0.04인걸 알고 있을때의 모평균에 대한 95% 신뢰구간을 구하시오.
모분산을 아는 경우에는 z통계량을 활용하여 신뢰구간을 구한다.
8. 이표본 추정과 가설검정 문제
# 8-1. 임상 대상 20명에 대해 혈압약 투약 이전과 이후의 평균 혈압 차이가 24, 표준편차 9일 때 신뢰구간 95%으로 투약 전후 평균혈압의 차이가 존재하는지 확인하려한다. 귀무가설과 연구가설을 제시하고, 검정통계량과 유의확률을 구하여 검정 결과를 서술하시오. 평균 혈압차이의 신뢰구간도 구하시오.
[출처: ADP 25회 실기 기출 (https://www.datamanim.com/dataset/ADPpb/00/25.html)]
대응표본 t검정 문제이다. 귀무가설은 혈압약 투약 전후의 평균 혈압 차이가 없다이고, 대립가설은 혈압약 투약 전후의 평균 혈압 차이가 있다로 설정할 수 있다. 아래와 같이 검정 결과, 검정통계량의 유의확률이 유의수준인 0.05보다 작기 때문에 귀무가설을 기각할 수 있다. 즉, 혈압약 투약 전후의 평균 혈압 차이가 있다.
# 8-2. A초등학교 남학생 16명과 여학생 9명의 혈압을 측정한 pressure.csv파일을 가지고 남녀학생의 평균 혈압에 차이가 없는지 분석하라. 단, 남학생과 여학생의 혈압 데이터는 정규분포를 따르며 등분산임을 가정한다. 귀무가설과 연구가설을 제시하고, 검정통계량과 유의확률을 구하여 검정 결과를 서술하시오. 평균 혈압차이의 95% 신뢰구간도 구하시오.
[출처: ADP 26회 실기 기출 (https://www.datamanim.com/dataset/ADPpb/00/26.html)]
두 표본 집단은 독립이고 각각 정규 분포를 따르며 모분산이 동일할 때, 합동분산을 사용하여 독립표본 t검정을 진행한다. 구체적인 표본 값이 있으면 scipy 라이브러리로 간단하게 가설 검정을 진행할 수 있다. 가설 검정 결과 검정 통계량에 따른 유의확률이 0.124로 유의수준 0.05보다 크기 때문에 귀무가설을 기각할 수 없다. 즉, 남녀 학생의 평균 혈압 차이가 없다는 결론에 이른다.
수기로도 동일한 검정 결과를 얻을 수 있으며, 평균 혈압차이의 95% 신뢰구간도 계산할 수 있다.
# 8-3. 각 공장별로 12개의 제품을 추출하여 구한 정보가 A생산라인의 제품 평균은 5.7mm이고 표준편차는 0.03, B생산라인의 제품 평균은 5.6mm이고 표준편차는 0.04라면 5%유의수준으로 두 제품의 평균이 차이가 있는지 여부를 검정하시오.
[출처: ADP 24회 실기 기출 (https://www.datamanim.com/dataset/ADPpb/00/24.html)]
독립표본 t검정 문제이며, 각 공장별로 제품을 추출했다는 점에서 모분산이 다르다고 가정하고 문제를 풀었다. 이 경우, 귀무가설은 두 제품의 평균은 차이가 없다이고, 대립가설은 두 제품의 평균은 차이가 있다로 설정한다.
검정 결과, 검정통계량의 유의확률이 유의수준인 0.05보다 작기 때문에 귀무가설을 기각할 수 있다. 즉, 두 제품의 평균은 차이가 있다.