Study history/ADP 실기 합격 기록

ADP) 파이썬으로 푸는 ADP실기 데이터 분석전문가 모의고사 2회-(3)

성실한 나무 2022. 1. 22. 13:32

『ADP 실기 데이터 분석 전문가』  모의고사 2회_비정형데이터

Q1) ‘연설문.txt’ 데이터를 읽어온 뒤 숫자, 특수 문자 등을 제거하는 전처리 작업을 시행하시오

.txt로 된 파일은 pandas의 read_table로 읽어오거나 아래처럼 with open as f 형식으로 읽어와서 read를 하거나 readlines를 학나 하는 식으로 불러올 수 있다. 아래에서는 전체 내용을 f.read()로 읽어오고 전체 문장에서 숫자, 특수문자를 제거한 형태로 전처리를 하였다. 전처리를 할 때는 re 패키지의 sub이라는 메서드를 사용하였다. 첫번째 argument로 정규식을 입력하고 두번째 argument에 대체할 단어를 넣고, 세번째에 전처리 규칙을 적용할 텍스트를 입력하면 된다. 여기서 사용한 sub의 기능은 정규식 형태의 텍스트만 남기고 나머지는 모두 ' '로 대체하겠다는 의미이다. 정규식을 살펴보면 영어소문자, 영어 대문자, 한글 자음, 한국어만 포함하는 것으로 되어 있다.

Q2) 전처리된 데이터에서 명사를 추출하고 명사의 출현빈도를 10위까지 추출하여 막대그래프로 시각화하시오.

문장에서 명사를 추출하기 위해 konlpy 패키지에서 Okt 메서드를 사용하였다. 명사(nouns)만 추출하고 이것을 Counter로 세어서 딕셔너리 형태로 정리하였다. 그리고 나서 딕셔너리에 있는 단어들을 'word'로, 빈도들을 'freq'로 하는 데이터프레임을 만들었고, 빈도수 순으로 내림차순 정렬하고 상위 10개의 단어를 추출하였다. matplotlib로 plt.bar()해서 막대그래프를 만들수도 있지만, 여기서는 seaborn을 사용해서 barplot을 그려보았다.

 

Q3) 전처리된 데이터를 이용해 워드클라우드를 작성하고 인사이트를 추출하시오.

 wordcloud 패키지를 사용해서 워드클라우드를 만들고, 인사이트는... 생략!

 

 

 


『ADP 실기 데이터 분석 전문가』 참고자료실, http://www.dataedu.kr/data/adpbook_data.php