ADP) ADP 실기 준비 - 주제 목록
내년 시행될 ADP 실기를 앞두고 아래와 같이 코딩 연습을 할 주제의 목차들을 정해보았다. 내용은 <2021 ADsP 데이터분석 준전문가> 및 <ADP 필기 데이터 분석 전문가> 책을 기반으로 작성하였다. 가능한 한 빠뜨리는 내용 없이 모두 코드 작성을 해보려고 꼼꼼하게 고르고 골라 목록을 만들었다.
[ 1 ] 데이터마이닝
1 ] 지도학습
- 의사결정나무: CART, C5.0, C4.5, CHAID, 분리기준 (카이제곱통계량 p값, 지니 지수, 엔트로피 지수, F통계량, 분산의 감소량), 가지치기
- 앙상블분석: 배깅, 부스팅(Adaboost), 랜덤포레스트, 스태킹, 엑스트라트리, 에이다부스트
- 인공신경망
- 활성화함수(계단함수, 부호함수, 시그모이드 함수, relu함수, softmax 함수)
- 다층퍼셉트론
- ANN, DNN, CNN, RNN, GAN(InfoGAN, CycleGAN), RBM, DBN
- MLP-CNN-RNN 구현 및 비교
- ResNet, DenseNet
- AutoEncoder, VAE, DQN
- 진화 학습 (유전 알고리즘)
- 강화학습 (마르코프 결정과정)
- 대칭가중치와 심층신뢰 네트워크
- 회귀분석
- 가정검토(선형성, 등분산성-잔차도, 정규성-히스토그램/QQplot/Shapiro-wilk, 오차항의 독립성-더빈왓슨검정)
- 단순선형회귀분석(회귀계수 검정, 결정계수 계산-SST/SSR/SSE, 회귀직선의 적합도 검토)
- 다중선형회귀분석(회귀계수 검정, 회귀식, 결정계수 계산, 모형의 통계적 유의성, 교호작용, 다중공선성-PCA회귀, VIF 상위변수 제거)
- 다항회귀분석
- 스플라인 회귀
- 로지스틱 회귀
- 최적회귀방정식(전진선택법, 후진제거법, 단계적선택법 - AIC/BIC)
- 정규화 선형회귀 Regularized Linear Regression (Ridge회귀, Lasso회귀, Elastic Net 회귀)
- 일반화 선형회귀 Generalized Linear Regression
- 회귀분석의 기울기에 영향을 주는 영향점 진단: Cook's Distance, DFBETAS, DFFITS, Leverage H
- 변수 선택의 기준: 결정계수, Mallow's Cp, AIC/BIC
- 최근접 이웃법 (KNN), 가우시안 혼합모델
- 베이지안 분류
- SVM
- 판별분석
- 사례기반 추론 (Case based reasoning)
2 ] 비지도 학습
- 연관규칙학습 (패턴인식): 장바구니분석(Apriori, FP Growth, FPV, Eclat), 연관규칙, 서열분석 (순차패턴, 시차-연관분석; Sequence Analysis)
- 주성분분석(Scree plot, 누적기여율, 주성분 별 가중치, Biplot) 및 요인분석
- 차원축소, 특성추출, 매니폴드학습, PCA, NMF
- 군집분석
- 계층적군집: 합병형 Bottom-up 방식(최단연결법, 평균연결법, 와드연결법, 최장연결밥, 중심연결법), 분리형 top-down 방식 (다이아나 방법), 덴드로그램
- 분할적 군집(비계층적군집): 프로토타입 centroid-based (K-centroid 군집, K-means 군집, K-median 군집, K-medoid 군집, Fuzzy 군집), 분포기반GMM(혼합분포군집; EM알고리즘, 로그-가능도 함수), 밀도기반(중심밀도군집, DBSCAN, OPTICS, DENCLUE), 격자기반(STING, WaveCluster, CLIQUE)
- 거리: 유클리디안 거리, 마할라노비스 거리, 체비셰프 거리, 맨하탄 거리, 캔버라 거리, 민코우스키 거리, 자카드 거리, 코사인 거리
- SOM
- 타당성지표: 실루엣 계수, Dunn Index
- 사회연결망분석 (Social network)
- 네트워크 구조 파악: 중심성, 밀도, 구조적틈새, 집중도 등
- 커뮤니티 발견: walk trap, edge-betweenness
- Giraph 등
3] 기타 통계
- 탐색적 자료 분석: 요약, 기술통계 (평균, 표준편차, 중위수, 사분위수, 변동계수, 최빈값, 그래프, 왜도, 첨도), 줄기잎그림, 도넛차트, 히스토그램, 상자수염 그림
- 데이터와 표본분포 (정규분포, T분포, F분포, 이항분포, 포아송 분포 등)
- 유의성검정:
- t-test
- 정규성검정: 콜모고로프 스미르노프 검정, QQ도, Anderson-Darling test, 샤크로-윌크 검정
- 등분산검정
- 등분산성만족 못할시: Welch two sample t-test
- 일표본 T검정, 대응표본 t검정, 독립표본 t검정
- 분산분석(ANOVA)
- 일원배치 분산분석: 분산분석표, 사후분석(던칸의 MRT, 피셔의 LSD, Scheffe의 방법)
- 이원배치 분산분석: 분산분석표, 교호작용
- 교차분석: 적합도 검정, 독립성 검정(교차표), 동질성 검정(교차표)
- 다중검정
- 공분산, 상관분석 (피어슨, 스피어만, 켄달 타우, 상관계수 검정)
- t-test
- 시계열분석:
- 분해시계열, ARIMA모델 (ACF/PACF를 통한 모델 결정)
- ARIMA(p,d,q) - 정상성 (ADF, KPSS test), 차분, ACF, PACF, Ljung-Box test
- SARIMA(p,d,q)(P,D,Q)[s]
- 다차원척도법: 계량적MDS, 비계량적 MDS
- 비모수검정: 부호검정, 윌콕슨의 순위합 검정, 윌콕슨의 부호순위합검정, 만위트니의 U검정, 런검정
- 성과분석
- 분류분석: 정분류율, 오분류율, 특이도, 민감도, 정확도, 재현율, F1 Score, RoC Curve, AUROC, Lift Chart (Frequency of buy, captured response, response, lift), cross validation
- 연관성분석: 지지도, 신뢰도, 향상도
- Bias-variance Trade-off
- 과대적합, 과소적합, 일반화
[ 2 ] 텍스트마이닝
- 말뭉치 전처리와 가공, 텍스트 벡터화와 변환 파이프라인, 텍스트 데이터 플래트닝, 필터링, 청킹
- Tokenization, Pos Tagging, Stemming/Lemmazation, Remove Stopwords, One-hot encoding, N-Gram, TF-IDF, Cosine Similarity
- 텍스트 분석을 위한 분류, 텍스트 유사성 군집화, 문맥인식 텍스트 분석
- 텍스트 시각화, 텍스트 그래프 분석
- 감성분석
- 워드클라우드 분석
- 텍스트마이닝 모델링
- 나이브 베이지안 분류
- LDA (Latent Dirichlet Allocation)
- Word2Vec
- Perplexity
[ 3 ] 데이터 가공 및 시각화
- 전처리
- 결측값 처리: 단순대치, 평균 대치, 단순확률 대치 (Hot-deck, nearest neighbor), 다중 대치, knnImputation, centralimputation
- 클래스불균형: 업샘플링 (SMOTE, Boaderline SMOTE, Adasyn), 다운샘플링
- 이상값 처리: 극단값 절단, 조정
- 변수 변환, 스케일링: 수치형 변수 변환(로그변환, 제곱근변환, 지수변환, 제곱변환, Box-cox 변환, 표준화, 정규화), 범주형 변수 변환(범주형 변수 인코딩, 대규모 범주형 변수처리), 날짜 및 변수 변환, 피쳐스케일링
- 원핫인코딩(더미변수), 컬럼 트랜스퍼, 구간분할, 이산화, 피쳐선택
- 표본 추출: 단순랜덤 추출법, 계통추출법, 집락추출법, 층화추출법
- 데이터 분할: 구축/검정/시험용, 홀드아웃방법, 교차확인방법 (10 fold 교차분석), 부트스트랩
- 그래프 그리기:
- 산점도, 막대그래프, 선그래프, 히트맵, 서브플롯, 트리맵, 도넛차트, 버블차트, 히스토그램, 체르노프 페이스, 스타차트, 다차원척도법, 평행좌표계
- 도식화와 시각화
[ 4 ] 기타
- Numpy 배열과 벡터 계산, Pandas 시작하기
- 모델구축, 모델튜닝 (하이퍼파라미터), 그리드서치, 기타기법
가도와키 다이스케, 사카타 류지, 호사카 게이스케, 히라마쓰 유지, 데이터가 뛰어노는 AI 놀이터, 캐글 (서울: 한빛미디어)
로웰 아티엔자, 케라스로 구현하는 고급 딥러닝 알고리즘 (경기: 위키북스, 2019)
벤자민 벵포트, 레베카 빌브로, 토니 오제다, 파이썬으로 배우는 응용 텍스트 분석 (경기: 제이펍, 2019)
스티븐 마슬랜드, 알고리즘 중심의 머신러닝 가이드 제2판 Machine Learning: An Algorithmic Perspective, Second Edition (경기: 제이펍, 2017)
안드레아스 뮐러, 세라 가이도, 파이썬 라이브러리를 활용한 머신러닝 번역개정판 (서울: 한빛미디어, 2019)
앨리스 젱, 아만다 카사리, 피처 엔지니어링 제대로 시작하기 (서울: 에이콘, 2019)
에일린 닐슨, 실전 시계열 분석 (서울: 한빛미디어, 2021)
웨스 맥키니, 파이썬 라이브러리를 활용한 데이터 분석 (서울: 한빛미디어, 2016)
윤종식, ADP 데이터 분석 전문가 (부산: (주)데이터에듀, 2021)
윤종식, ADsP 데이터 분석 준전문가 (부산: (주)데이터에듀, 2021)
피터 브루스, 앤드루 브루스, 피터 게데크, 데이터 과학을 위한 통계 2판 (서울: 한빛미디어, 2021)