본문 바로가기

분류 전체보기196

ADP) 파이썬으로 푸는 ADP실기 데이터 분석전문가 모의고사 1회-(3) 『ADP 실기 데이터 분석 전문가』 모의고사 1회_비정형데이터 Q1) ‘영화 기생충_review.txt’ 데이터를 읽어온 뒤 숫자, 특수 문자 등을 제거하는 전처리 작업을 시행하시오. 그리고 ‘영화 기생충_review.txt’을 사전에 등록하라. pandas의 read_table로 .txt을 불러온 후, 각 행들을 txt라는 객체 안에 하나의 string으로 모두 합치는 작업을 진행했다. 그리고나서 숫자, 특수문자 등을 제거하는 전처리 작업을 진행하게 되는데 수동으로도 하고 정규식을 사용한 자동 전처리도 해보았다. 그리고 나서 전처리 결과를 with open("경로/파일명", 'w', encoding='euc-kr') as f: f.write(txt)로 .txt 파일을 저장하였다. Q2) ‘영화 기생충_.. 2022. 1. 21.
ADP) 파이썬으로 푸는 ADP실기 데이터 분석전문가 모의고사 1회-(2) 『ADP 실기 데이터 분석 전문가』 모의고사 1회_통계분석 Q1) FIFA데이터에서 각 선수의 키는 Heghit변수에 피트와 인치로 입력되어 있습니다. 이를 cm로 변환하여 새로운 변수 Height_cm을 생성하시오. ( “ ' ” 앞의 숫자는 피트이며, “ ' ” 뒤의 숫자는 인치, 1피트 = 30cm, 1인치 = 2.5cm) df['Height']에 있는 값들은 데이터타입이 object로서 5'7의 형태로 되어 있다. 5'7은 5피트 7인치라는 의미이다. 이에 df['Height']에 lambda식을 사용하여 5'7 이라는 값을 '을 기준으로 split하여 분리하면 나오는 첫번째 값(인덱스[0])은 피트이고 두번째 값(인덱스[1])은 인치이다. 이에 각각을 int()함수를 통해 숫자로 변환한 후 30.. 2022. 1. 20.
ValueError 발생) Found input variables with inconsistent numbers of samples: [501, 500] 해결하기 #1. cesium 패키지의 데이터로 시계열 데이터 분석 중에 에러 발생! cesium 패키지의 eeg 데이터로 feature를 추출해서 시계열 데이터를 분석하려던 참이었다. 그런데 그동안 한번도 에러가 나지 않았던 scikit learn의 train_test_split 함수에서 에러가 발생하는 것이 아닌가. ValueError) Found input variables with inconsistent numbers of samples: [501, 500] --------------------------------------------------------------------------- ValueError Traceback (most recent call last) in 1 from sklearn.mo.. 2022. 1. 10.
Scikit Learn의 기본 데이터셋 목록들 (sklearn.datasets) Scikit learn 기본 데이터셋 목록들 Sickit Learn에서는 다양한 머신러닝, 통계기법을 사용해볼 데이터셋들을 제공하고 있다. 나는 주로 분류(classification)나 회귀(regression)에 적합한 데이터 셋들을 활용해서 연습한다. 데이터 목록은 아래와 같다. Scikit learn 기본 데이터셋 불러오기 Scikit learn의 기본 데이터셋을 불러오는 방법은 매우 간단하다. 아래와 같이 datasets에서 원하는 데이터셋 함수를 불러오고, 그 안에 들어있는 데이터들을 활용하면 된다. dataset은 딕셔너리 형태로 데이터셋과 데이터 관련 정보, feature의 이름들, data(feature의 데이터), target 데이터 등을 담고 있다. dataset마다 담고 있는 내용이 .. 2021. 12. 20.
ADP) 3-4. 파이썬 그래프 총정리 - 5탄: 서브플롯, 두개의 Y축을 가진 그래프 그리기, Seaborn palette 종류 살펴보기 기타 - 서브플롯 서브플롯 기능을 활용해서 여러 그래프를 한데 모아 그릴 수도 있다. 서브플롯의 주요 기능들을 정리하면 아래와 같다. subplot 그리기: fig, (ax1, ax2...) = pyplot.subplots() fig.subplots_adjust(wspace=플롯들 사이의 너비, hspace=플롯들 사이의 높이) fig.suptitle('전체제목/슈퍼타이틀') ax1.title.set_text('서브플롯 제목') ax1.title.set_fontsize(10) ax1.title.set_color('#000000') ax1.legend(labels=[ , ,], title='범주', bbox_to_anchor=(1,1)) ax1.grid() ax1.set(xlabel=' ', ylabel=.. 2021. 12. 17.