Study history/ADP 기출문제 풀이

ADP 기출문제 풀이) 대구 임대 아파트 데이터 분석 문제 w/Python

성실한 나무 2023. 8. 28. 12:14

이번 포스팅에서는 가장 최근에 ADP 실기 시험에서 출제된 대구 임대 아파트 데이터 분석 문제를 포스팅해보기로 한다. 기출문제 풀이 상 오류가 있을 수 있기 때문에 그 부분 감안해 주시기를 바라며, 기출문제 풀이 4번째 포스팅 시작^^

 

6. 대구 임대 아파트 데이터 (ADP 실기 29회)

features: 임대 아파트 관련 특징들 (순번, 계약구분, 거주개월 ... 등 22개)
target: 재계약횟수

[출처] https://www.data.go.kr/data/15094266/fileData.do

# 6-1. 데이터 전처리 하시오 (결측치, 이상치 처리)

결측치의 경우, 퇴거연도 변수가 전체 데이터 수 대비 3/4의 결측치를 가지고 있는 것으로 나타났다. 퇴거연도가 결측치로 나타난 이유는 계약구분 상 유효한 상황으로서 현재 입주해 있기 때문이다. 이에 따라 계약구분, 거주개월 등 변수가 퇴거연도가 의미하는 바를 나타낼 수 있을 것으로 판단하여 퇴거연도 변수를 삭제하기로 한다.

추가로 아파트 이름과 아파트 ID는 동일한 정보를 나타내기 때문에 아파트 이름을 삭제하기로 한다. 

 

이상치의 경우, 아파트 ID, 입주연도, 거주자 수의 경우, 값의 범위나 분포를 봤을 때 이상치라고 볼 수 없어서 이상치 처리를 하지 않았다.
월세, 보증금의 경우 이상치이기는 하지만 값이 잘못 기재된 것으로 보이지는 않고, 합리적인 수준의 이상치인 것으로 판단하여 이상치 처리를 하지 않았다.
대표나이, 나이의 경우 현실적으로 100세 이상의 사람들이 임대 아파트 생활을 하기 힘들 것이라고 판단하여 해당 값들을 100세로 클리핑하는 이상치 처리를 하였다.

 

# 6-2. 재계약 횟수의 중앙값 기준으로 크거나 같으면 높음, 작으면 낮음으로 재계약 횟수에 대한 이분변수를 생성하세요.

 

# 6-3. 재계약 횟수로 회귀분석을 실시하고, 새로 생성한 이분변수로 분류 분석을 수행하시오.

변수 간의 척도가 다르면 회귀계수가 왜곡될 수 있으므로, feature scaling을 진행한 후 회귀계수를 분석하기로 한다. 회귀분석 결과, 회귀계수의 절대값이 큰 거주개월, 보증금, 월세가 가장 중요한 변수로 판단된다. 로지스틱 회귀분석 결과, 회귀계수의 절대값이 큰 거주개월, 보증금, 월세, 입주연도가 가장 중요한 변수로 판단된다.

 

# 6-4. 앞서 만든 각각의 모형을 통해 확인한 중요한 변수가 무엇인지 설명하시오.

두 모형 모두 회귀계수의 절대값이 큰 거주개월, 보증금, 월세가 가장 중요한 변수로 판단된다.