본문 바로가기

Study history/ADP 실기 합격 기록25

ADP) 3-4. 파이썬 그래프 총정리 - 4탄: 히트맵, 체르노프 페이스, 스타차트(거미줄차트,방사형차트), 평형좌표계, 다차원척도법 비교 시각화 - 1. 히트맵 여러가지 변수를 비교할 수 있다. 한칸의 색상으로 데이터 값을 표현한다. 하나의 대상에 해당하는 한 행을 왼쪽에서 오른쪽으로 보면서 모든 변수를 파악할 수 있고, 하나의 변수에 대응하는 한 열을 위에서 아래로 읽을 수도 있다. 히트맵은 seaborn 패키지의 heatmap()함수로 구현한다. 데이터는 상관행렬 데이터를 입력해야 한다. 상관행렬 데이터는 데이터프레임객체에 .corr()함으로써 구한다. 그럼 짝지은 열 데이터 끼리의 상관계수를 반환해 준다. 아래의 cmap 파라미터는 palette와 동일하다고 보면 된다. 비교 시각화 - 2. 체르노프 페이스 데이터를 사람의 얼굴 이미지로 표현하는 방법이다. 얼굴의 가로 너비, 세로높이, 눈, 코, 잎, 귀 등 각 부위를 변수로 .. 2021. 12. 17.
ADP) 3-4. 파이썬 그래프 총정리 - 3탄: 스캐터플롯(산점도), 버블차트, 히스토그램, 페어플롯 관계 시각화 - 1. 스캐터 플롯 (산점도) 두 데이터 항목의 공통변이를 나타내는 2차원 도표이다. 데이터에서의 관계를 시각화 하는데 적합한 방법이다. 데이터 포인트들의 관련성 여부를 시각적으로 판단할 수 있다. (양의 상관관계, 음의 상관관계) plt.scatter(x축 데이터리스트, y축 데이터리스트)로 그리거나, seaborn의 sns.scatterplot()으로 그릴 수 있다. 여기서 sns.regplot()을 하게 되면 회귀선과 신뢰범위까지 음영으로 표시된다. plt.scatter에 추세선과 회귀식을 추가하고 싶다면 numpy의 polyfit과 poly1d 함수를 사용해서 기울기와 절편값을 가지고 올 수도 있다. 관계 시각화 - 2. 버블차트 세가지 요소의 상관관계를 표현할 수 있는 방법이다. .. 2021. 12. 17.
ADP) 3-4. 파이썬 그래프 총정리 - 2탄: 파이그래프/도넛차트, 트리맵, 모자이크플롯, 누적연속 선그래프, 줄기잎그림, 박스플롯/바이올린플롯 분포 시각화 - 1. 파이 그래프, 도넛차트 원 그래프는 부분과 전체, 부분과 부분 간의 비율을 알아보는데 사용되는 방법이다. 모든 조각의 합은 100%이다. 내용을 설명하기 위한 텍스트와 퍼센티지를 포함시키는 것이 좋다. 면적으로 값을 보여주고 수치를 각도로 표시한다. 도넛차트는 파이그래프와 마찬가지로 수치를 각도로 표시한다. 조각에 해당하는 수치는 조각의 면적이 아닌 도넛조각의 길이로 표시한다. 아래는 숫자리스트를 객체로 넣고, 객체.plot.pie()로 파이 그래프를 구현하고, 괄호 안 파라미터 labels에 각 숫자값에 해당하는 범주의 이름 리스트를 파라미터로 적용하였다. plt.pie(값 리스트, labels=범주 리스트)로 표현할 수도 있다. pie 그래프 하나로 파라미터를 설정함으로써 파이그.. 2021. 12. 17.
ADP) 3-1. 전처리 3탄 (변수 변환; Feature Scaling 총정리 - 수치형/범주형) 지난 전처리 2탄에서 다룬 수치형 변수변환 방법들에 이어서, https://lovelydiary.tistory.com/417 ADP) 3-1. 전처리 2탄 (변수 변환; Feature Scaling 총정리 - 수치형/범주형) 변수변환 (Feature Scaling) 변수변환이란, feature의 스케일을 바꾸는 feature 정규화를 의미한다. 입력 feature들의 스케일이 서로 크게 다른 상황에서 유용하다. 어떤 수치형 feature들은 무한히 증가하 lovelydiary.tistory.com 이번에는 전처리 3탄으로서 범주형 변수변환 방법들을 정리하는 포스팅이다. 변수 변환 방법들 전체 목차는 아래와 같고, 이번 포스팅에서는 범주형 변수 변환을 다룬다. 범주형 변수 변환 (Categorical fe.. 2021. 12. 12.
ADP) 파이썬으로 푸는 ADP실기 데이터 분석전문가 모의고사 1회-(1) 『ADP 실기 데이터 분석 전문가』 모의고사 1회 정형 데이터마이닝 Q1) 연관규칙분석을 수행하기 위해 lotto 데이터셋을 transaction 데이터로 변환하시오. 단, 본 분석에서 로또번호가 추첨된 순서는 고려하지 않고 분석을 수행하도록 한다. 그리고 변환된 데이터에서 가장 많이 등장한 상위 10개의 로또번호를 막대그래프로 출력하고 이에 대해 설명하시오. R에는 as(data, 'transactions')라는 형태로 간편하게 데이터 구조를 트랜잭션 데이터로 변환할 수 있는데, 파이썬에는 이런 함수가 없다. 그래서 최대한 비슷하게 모양을 만들어보았다. pandas의 read_csv 함수로 csv파일을 데이터프레임으로 가지고 오고, numpy의 array 함수로 각 회차 로또 번호들만 각각 하나의 ar.. 2021. 12. 10.