본문 바로가기

Study history/ADP 실기 합격 기록25

ADP) 파이썬으로 푸는 ADP실기 데이터 분석전문가 모의고사 2회-(2) 『ADP 실기 데이터 분석 전문가』 모의고사 2회_정형데이터 Q1) cabin, embarked변수의 값 중 ""로 처리된 값을 NA로 바꾸고 아래의 데이터 테이블을 보고 문자형, 범주형 변수들을 각각 character, factor형으로 변환하시오. 또, 수치형 변수가 NA인 값을 중앙값으로 대체하고, 범주형 변수가 NA인 값을 최빈값으로 대체하고 age변수를 아래의 표와 같이 구간화하여 age_1이라는 변수를 생성하고 추가하시오. 데이터 분석 공부 입문자용으로 유명한 titanic.csv 파일을 가지고 정형데이터 마이닝을 진행한다. 문제에서 요구한 여러가지 전처리를 아래와 같이 실행하였다. 문제가 R위주로 나왔기 때문에 python에 맞지 않는 부분도 있지만 일단은 문제에서 요청한 모든 것을 적용해보.. 2022. 1. 22.
ADP) 파이썬으로 푸는 ADP실기 데이터 분석전문가 모의고사 2회-(1) 『ADP 실기 데이터 분석 전문가』 모의고사 2회_통계분석 Q1) 종속변수인 chance_of_admit(입학 허가 확률)와 독립변수(GRE, TOEFL, Univ_Rating, SOP, LOR, CGPA)에 대해 피어슨 상관계수를 이용한 상관관계 분석을 수행하고 그래프를 이용하여 분석결과를 설명하시오 문제에서 제시한 feature들에 대해서 아래와 같이 데이터프레임을 만든 후 .corr()라는 간단한 방식으로 피어슨 상관계수를 이용한 상관관계 분석을 할 수 있다. 또한, 해당 메서드를 통해 만든 cor_mx 즉, 상관계수 매트릭스를 sns.heatmap(cor_mx)로 입력하면 히트맵으로 시각화도 가능하다. 이렇게 데이터프레임의 메서드를 사용하는 방법 외에도 scipy 패키지를 통해 pearsonr로 .. 2022. 1. 22.
ADP) 파이썬으로 푸는 ADP실기 데이터 분석전문가 모의고사 1회-(3) 『ADP 실기 데이터 분석 전문가』 모의고사 1회_비정형데이터 Q1) ‘영화 기생충_review.txt’ 데이터를 읽어온 뒤 숫자, 특수 문자 등을 제거하는 전처리 작업을 시행하시오. 그리고 ‘영화 기생충_review.txt’을 사전에 등록하라. pandas의 read_table로 .txt을 불러온 후, 각 행들을 txt라는 객체 안에 하나의 string으로 모두 합치는 작업을 진행했다. 그리고나서 숫자, 특수문자 등을 제거하는 전처리 작업을 진행하게 되는데 수동으로도 하고 정규식을 사용한 자동 전처리도 해보았다. 그리고 나서 전처리 결과를 with open("경로/파일명", 'w', encoding='euc-kr') as f: f.write(txt)로 .txt 파일을 저장하였다. Q2) ‘영화 기생충_.. 2022. 1. 21.
ADP) 파이썬으로 푸는 ADP실기 데이터 분석전문가 모의고사 1회-(2) 『ADP 실기 데이터 분석 전문가』 모의고사 1회_통계분석 Q1) FIFA데이터에서 각 선수의 키는 Heghit변수에 피트와 인치로 입력되어 있습니다. 이를 cm로 변환하여 새로운 변수 Height_cm을 생성하시오. ( “ ' ” 앞의 숫자는 피트이며, “ ' ” 뒤의 숫자는 인치, 1피트 = 30cm, 1인치 = 2.5cm) df['Height']에 있는 값들은 데이터타입이 object로서 5'7의 형태로 되어 있다. 5'7은 5피트 7인치라는 의미이다. 이에 df['Height']에 lambda식을 사용하여 5'7 이라는 값을 '을 기준으로 split하여 분리하면 나오는 첫번째 값(인덱스[0])은 피트이고 두번째 값(인덱스[1])은 인치이다. 이에 각각을 int()함수를 통해 숫자로 변환한 후 30.. 2022. 1. 20.
ADP) 3-4. 파이썬 그래프 총정리 - 5탄: 서브플롯, 두개의 Y축을 가진 그래프 그리기, Seaborn palette 종류 살펴보기 기타 - 서브플롯 서브플롯 기능을 활용해서 여러 그래프를 한데 모아 그릴 수도 있다. 서브플롯의 주요 기능들을 정리하면 아래와 같다. subplot 그리기: fig, (ax1, ax2...) = pyplot.subplots() fig.subplots_adjust(wspace=플롯들 사이의 너비, hspace=플롯들 사이의 높이) fig.suptitle('전체제목/슈퍼타이틀') ax1.title.set_text('서브플롯 제목') ax1.title.set_fontsize(10) ax1.title.set_color('#000000') ax1.legend(labels=[ , ,], title='범주', bbox_to_anchor=(1,1)) ax1.grid() ax1.set(xlabel=' ', ylabel=.. 2021. 12. 17.