Study history/ADP 실기 합격 기록

ADP) 파이썬으로 푸는 ADP실기 데이터 분석전문가 모의고사 2회-(1)

성실한 나무 2022. 1. 22. 13:30

『ADP 실기 데이터 분석 전문가』  모의고사 2회_통계분석

Q1) 종속변수인 chance_of_admit(입학 허가 확률)와 독립변수(GRE, TOEFL, Univ_Rating, SOP, LOR, CGPA)에 대해 피어슨 상관계수를 이용한 상관관계 분석을 수행하고 그래프를 이용하여 분석결과를 설명하시오

 문제에서 제시한 feature들에 대해서 아래와 같이 데이터프레임을 만든 후 .corr()라는 간단한 방식으로 피어슨 상관계수를 이용한 상관관계 분석을 할 수 있다. 또한, 해당 메서드를 통해 만든 cor_mx 즉, 상관계수 매트릭스를 sns.heatmap(cor_mx)로 입력하면 히트맵으로 시각화도 가능하다. 이렇게 데이터프레임의 메서드를 사용하는 방법 외에도 scipy 패키지를 통해 pearsonr로 두 데이터의 상관계수와 p값(차례대로 반환함)을 확인할 수 있다. 해당 상관계수가 통계적으로 유의미한지는 p값을 제공하는 scipy 패키지를 통해서만 확인이 가능하다.

피어슨 상관계수를 이용한 상관관계 분석

 

 한편, feature들 중에서 대학 등급이라든지, 학점 등은 서열척도로 볼 수 있기 때문에 서열척도의 상관관계를 분석하는 spearman 상관계수를 구해볼 수도 있다.  df.corr() 안의 파라미터에 method를 'spearman', 'pearson' 택일하여 입력하면 된다. 결과적으로는 두 결과가 많은 차이를 보이진 않았다.

파이썬 spearman, pearson 상관계수

 

 

Q2) GRE, TOEFL, Univ_Rating, SOP, LOR, CGPA, Research가 Chance_of_Admit에 영향을 미치는지 알아보는 회귀분석을 단계적 선택법을 사용하여 수행하고 결과를 해석하시오

 회귀분석 시 유효한 회귀계수를 얻기 위해서는 feature 간 단위 차가 클 때 (혹은 그냥 무조건) scaling을 해주는 것이 좋다. 해당 데이터의 경우 GRE점수는 337인데, changce_of_admit은 0.92 수준이기 때문에 단위 차이가 커서 표준화가 필수라고 보여진다. 표준화, Min-Max scaling 등 방법이 있지만, 일반적으로 많이 사용하는 표준화 scaling을 실시했다.

회귀분석을 위한 전처리 -  StandardScaler

 

 현재로서 파이썬에서는 단계적 선택법을 통해 feature를 선택해주는 패키지가 없는 것으로 보인다. 해서 여러 사람들이 자신만의 코드를 짜서 쓰는 것으로 보인다. 아니면 수기로 feature를 하나하나 빼고 넣으면서 최소의 AIC, BIC인 feature 조합을 찾는 것도 방법일 것이다. R의 경우는 아래와 같이 간단하게 구할 수 있다.

step(lm(Chance_of_Admit~GRE+TOEFL+Univ_Rating+SOP+LOR+CGPA+Research, data=sdf), direction="both")

 나는 인터넷에서 서치한 단계적 선택법 코드로 feature를 선택해서 회귀분석을 진행했다. R의 결과와 동일한 feature를 얻을 수 있었다. 해당 코드의 경우, 각 feature들의 회귀계수들의 pvalue가 유의수준 이하가 되도록하는 feature 조합을 찾았다.

파이썬 단계적 선택법 및 회귀분석 결과 해석

 단계적 선택법을 통해 얻은 feature들을 가지고, 회귀분석을 실시하였다. statsmodels의 ols를 사용하였다. 결과 해석은 아래와 같다.

  • Change_of_Admit을 종속변수로 하고, CGPA, GRE, LOR, Research, TOEFL을 독립변수로 하는 다중선형회귀모델을 적합했다. 이 모델의 결정계수는 0.803으로 데이터의 80.3%를 설명하는 설명력이 높은 모델로 보이며 F통계량의 유의확률을 볼 때 통계적으로 유의미한 모델로 볼 수 있다. 전체 관측치는 400개이다.
  • CGPA를 제외한 모든 독립변수들이 0.05보다 낮은 유의확률을 보이며 통계적으로 유의한 회귀계수를 가진다. 모든 독립변수들의 회귀계수는 양수로서 Chance_of_Admit과 양의 인과관계를 가진다고 볼 수 있다.
  • 이 모델의 회귀식은 Chance_of_Admit = CGPA*0.121 + GRE*0.0018 + LOR*0.0228 + Reseach*0.0228 + TOEFL*0.003

 

 

Q3) 단계 선택법을 사용해 변수를 선택한 후 새롭게 생성한 회귀모형에 대한 잔차분석을 수행하고 결과를 해석하시오

 잔차분석은 잔차의 등분산성, 정규성, 독립성을 확인하였다. 등분산성은 residual plot을 그려서 확인하였고, 정규성은 QQ plot, shapiro 검정, histogram으로 확인하였고, 독립성은 위의 회귀분석 레포트에 나오는 Durbin Watson 결과값을 확인하였다.

회귀분석 잔차 분석
회귀분석 잔차분석

 

 

 


『ADP 실기 데이터 분석 전문가』 참고자료실, http://www.dataedu.kr/data/adpbook_data.php