본문 바로가기
Study history/ADP 기출문제 풀이

ADP 기출문제 풀이) 데이터 전처리 관련 문제들 w/Python

by 성실한 나무 2023. 8. 24.

나의 풀이가 만점짜리 풀이가 아닐지라도 누군가에게는 참고와 도움이 되기를 바라면서^^

(내용 상 오류나 질문들은 댓글로 달아주시면 대환영입니다)

ADP 실기 기출문제 풀이 두번째 포스팅 시작 !

 


3. 매출액 예측 데이터 (ADP 실기 24회)

features: 광고횟수, 광고비
target: 매출액

[출처] https://www.datamanim.com/dataset/ADPpb/00/24.html

 

# 3-1. 광고비 변수를 가변수 처리후 다중회귀를 수행하여 회귀계수가 유의한지 검정하시오.

범주형 변수인 광고비를 get_dummies로 더미코딩 하는 전처리를 진행하였다. 범주의 수준보다 1개의 개수가 적은 가변수를 생성함으로써 다중공선성을 피할 수 있다.

 

회귀계수의 유의성을 위해 회귀계수가 0인지 0이 아닌지에 대해 t-검정을 실시한다. t-검정에 대한 귀무가설은 회귀계수는 0과 차이가 없다이고, 대립가설은 회귀계수가 0과 차이가 있다 즉 회귀계수가 통계적으로 유의하다이다.
statsmodels를 통해 아래와 같이 각 회귀계수를 구하고, t-검정을 실시한 결과를 구하였다. 광고횟수의 회귀계수는 1.4350이고, t통계량은 19.518이며 이 때 p-value는 0.000을 나타낸다. 일반적인 유의수준 0.05보다 p-value가 작기 때문에 귀무가설을 기각하고 대립가설을 채택한다. 즉, 광고횟수의 회귀계수는 통계적으로 유의하다. 광고비의 회귀계수는 0.5227이고, t통계량은 0.975이며 p-value는 0.358이다. p-value가 유의수준보다 크기 때문에 귀무가설을 기각할 수 없으며 해당 회귀계수는 통계적으로 유의하다고 볼 수 없다.

 

# 3-2. 회귀식이 유의한지 판단하시오.

회귀식의 유의성은 다중회귀 모델의 F통계량을 통해 판단한다. 앞에서 얻은 F통계량은 221.2이고, 그 p-value는 유의수준인 0.05보다 작다. 이를 근거로 해당 회귀식은 통계적으로 유의하다고 할 수 있다.

 

 

 

4. 부동산 가격 예측 데이터 (ADP 실기 17회)

Id: id
LotArea: Lot size in square feet
LotFrontage: Linear feet of street connected to property
YearBuilt: Original construction date
1stFlrSF: First Floor square feet
2ndFlrSF: Second floor square feet
YearRemodAdd: Remodel date
TotRmsAbvGrd: Total rooms above grade (does not include bathrooms)
KitchenAbvGr: Number of kitchens
BedroomAbvGr: Number of bedrooms above basement level
GarageCars: Size of garage in car capacity
GarageArea: Size of garage in square feet
price: the property's sale price in dollars. This is the target variable that you're trying to predict.

[출처] https://www.datamanim.com/dataset/ADPpb/00/17.html

# 4-1. 데이터 EDA 및 시각화하시오.

대부분의 변수가 수치형이고, 범주형으로 YearRemodAdd, YearBuilt, TotRmsAbvGrd, KitchenAbvGr, BedroomAbvGr, GarageCars가 있는데 순서형 변수로 볼 수 있다. 이 밖에 전체 데이터가 1460개인데, LotFrontage 변수에서 결측치가 확인된다.

일부 변수들에서 이상치가 확인되며, 전처리가 필요할 것으로 보인다. LotArea,LotFrontage, 1stFlrSF,2ndFlrSF, price의 이상치를 처리하고자 한다.

 

 

# 4-2. 필요한 전처리를 나열하고, 각 전처리를 하는 이유를 작성하시오.

ID는 분석 상 별 의미가 없어 삭제하였고, 결측치가 있는 LotFrontage의 결측치를 KNNImputer로 대치하였다. YearBuilt와 YearRemodAdd는 순서가 있는 범주형 변수인데 각 연도를 그대로 쓰기보다 binning 전처리를 함으로써 더 유의미한 변수가 되고, 계산 비용도 줄이고자 하였다. 마지막으로 이상치를 조정함으로써 왜곡된 학습결과를 피하고자 하였다.

 

댓글