ADP) ADP 실기 준비 - 주제 목록

내년 시행될 ADP 실기를 앞두고 아래와 같이 코딩 연습을 할 주제의 목차들을 정해보았다. 내용은 <2021 ADsP 데이터분석 준전문가> 및 <ADP 필기 데이터 분석 전문가> 책을 기반으로 작성하였다. 가능한 한 빠뜨리는 내용 없이 모두 코드 작성을 해보려고 꼼꼼하게 고르고 골라 목록을 만들었다.

[ 1 ] 데이터마이닝

1 ] 지도학습

의사결정나무: CART, C5.0, C4.5, CHAID, 분리기준 (카이제곱통계량 p값, 지니 지수, 엔트로피 지수, F통계량, 분산의 감소량), 가지치기
앙상블분석: 배깅, 부스팅(Adaboost), 랜덤포레스트, 스태킹, 엑스트라트리, 에이다부스트
인공신경망
- 활성화함수(계단함수, 부호함수, 시그모이드 함수, relu함수, softmax 함수)
- 다층퍼셉트론
- ANN, DNN, CNN, RNN, GAN(InfoGAN, CycleGAN), RBM, DBN
- MLP-CNN-RNN 구현 및 비교
- ResNet, DenseNet
- AutoEncoder, VAE, DQN
- 진화 학습 (유전 알고리즘)
- 강화학습 (마르코프 결정과정)
- 대칭가중치와 심층신뢰 네트워크
회귀분석
- 가정검토(선형성, 등분산성-잔차도, 정규성-히스토그램/QQplot/Shapiro-wilk, 오차항의 독립성-더빈왓슨검정)
- 단순선형회귀분석(회귀계수 검정, 결정계수 계산-SST/SSR/SSE, 회귀직선의 적합도 검토)
- 다중선형회귀분석(회귀계수 검정, 회귀식, 결정계수 계산, 모형의 통계적 유의성, 교호작용, 다중공선성-PCA회귀, VIF 상위변수 제거)
- 다항회귀분석
- 스플라인 회귀
- 로지스틱 회귀
- 최적회귀방정식(전진선택법, 후진제거법, 단계적선택법 - AIC/BIC)
- 정규화 선형회귀 Regularized Linear Regression (Ridge회귀, Lasso회귀, Elastic Net 회귀)
- 일반화 선형회귀 Generalized Linear Regression
- 회귀분석의 기울기에 영향을 주는 영향점 진단: Cook's Distance, DFBETAS, DFFITS, Leverage H
- 변수 선택의 기준: 결정계수, Mallow's Cp, AIC/BIC
최근접 이웃법 (KNN), 가우시안 혼합모델
베이지안 분류
SVM
판별분석
사례기반 추론 (Case based reasoning)

2 ] 비지도 학습

연관규칙학습 (패턴인식): 장바구니분석(Apriori, FP Growth, FPV, Eclat), 연관규칙, 서열분석 (순차패턴, 시차-연관분석; Sequence Analysis)
주성분분석(Scree plot, 누적기여율, 주성분 별 가중치, Biplot) 및 요인분석
- 차원축소, 특성추출, 매니폴드학습, PCA, NMF
군집분석
- 계층적군집: 합병형 Bottom-up 방식(최단연결법, 평균연결법, 와드연결법, 최장연결밥, 중심연결법), 분리형 top-down 방식 (다이아나 방법), 덴드로그램
- 분할적 군집(비계층적군집): 프로토타입 centroid-based (K-centroid 군집, K-means 군집, K-median 군집, K-medoid 군집, Fuzzy 군집), 분포기반GMM(혼합분포군집; EM알고리즘, 로그-가능도 함수), 밀도기반(중심밀도군집, DBSCAN, OPTICS, DENCLUE), 격자기반(STING, WaveCluster, CLIQUE)
- 거리: 유클리디안 거리, 마할라노비스 거리, 체비셰프 거리, 맨하탄 거리, 캔버라 거리, 민코우스키 거리, 자카드 거리, 코사인 거리
- SOM
- 타당성지표: 실루엣 계수, Dunn Index
사회연결망분석 (Social network)
- 네트워크 구조 파악: 중심성, 밀도, 구조적틈새, 집중도 등
- 커뮤니티 발견: walk trap, edge-betweenness
- Giraph 등

3] 기타 통계

탐색적 자료 분석: 요약, 기술통계 (평균, 표준편차, 중위수, 사분위수, 변동계수, 최빈값, 그래프, 왜도, 첨도), 줄기잎그림, 도넛차트, 히스토그램, 상자수염 그림
데이터와 표본분포 (정규분포, T분포, F분포, 이항분포, 포아송 분포 등)
유의성검정:
1. t-test
  - 정규성검정: 콜모고로프 스미르노프 검정, QQ도, Anderson-Darling test, 샤크로-윌크 검정
  - 등분산검정
  - 등분산성만족 못할시: Welch two sample t-test
  - 일표본 T검정, 대응표본 t검정, 독립표본 t검정
2. 분산분석(ANOVA)
  - 일원배치 분산분석: 분산분석표, 사후분석(던칸의 MRT, 피셔의 LSD, Scheffe의 방법)
  - 이원배치 분산분석: 분산분석표, 교호작용
3. 교차분석: 적합도 검정, 독립성 검정(교차표), 동질성 검정(교차표)
4. 다중검정
5. 공분산, 상관분석 (피어슨, 스피어만, 켄달 타우, 상관계수 검정)
시계열분석:
- 분해시계열, ARIMA모델 (ACF/PACF를 통한 모델 결정)
- ARIMA(p,d,q) - 정상성 (ADF, KPSS test), 차분, ACF, PACF, Ljung-Box test
- SARIMA(p,d,q)(P,D,Q)[s]
다차원척도법: 계량적MDS, 비계량적 MDS
비모수검정: 부호검정, 윌콕슨의 순위합 검정, 윌콕슨의 부호순위합검정, 만위트니의 U검정, 런검정
성과분석
- 분류분석: 정분류율, 오분류율, 특이도, 민감도, 정확도, 재현율, F1 Score, RoC Curve, AUROC, Lift Chart (Frequency of buy, captured response, response, lift), cross validation
- 연관성분석: 지지도, 신뢰도, 향상도
- Bias-variance Trade-off
- 과대적합, 과소적합, 일반화

[ 2 ] 텍스트마이닝

말뭉치 전처리와 가공, 텍스트 벡터화와 변환 파이프라인, 텍스트 데이터 플래트닝, 필터링, 청킹
- Tokenization, Pos Tagging, Stemming/Lemmazation, Remove Stopwords, One-hot encoding, N-Gram, TF-IDF, Cosine Similarity
텍스트 분석을 위한 분류, 텍스트 유사성 군집화, 문맥인식 텍스트 분석
텍스트 시각화, 텍스트 그래프 분석
감성분석
워드클라우드 분석
텍스트마이닝 모델링
- 나이브 베이지안 분류
- LDA (Latent Dirichlet Allocation)
- Word2Vec
- Perplexity

[ 3 ] 데이터 가공 및 시각화

전처리
- 결측값 처리: 단순대치, 평균 대치, 단순확률 대치 (Hot-deck, nearest neighbor), 다중 대치, knnImputation, centralimputation
- 클래스불균형: 업샘플링 (SMOTE, Boaderline SMOTE, Adasyn), 다운샘플링
- 이상값 처리: 극단값 절단, 조정
- 변수 변환, 스케일링: 수치형 변수 변환(로그변환, 제곱근변환, 지수변환, 제곱변환, Box-cox 변환, 표준화, 정규화), 범주형 변수 변환(범주형 변수 인코딩, 대규모 범주형 변수처리), 날짜 및 변수 변환, 피쳐스케일링
- 원핫인코딩(더미변수), 컬럼 트랜스퍼, 구간분할, 이산화, 피쳐선택
표본 추출: 단순랜덤 추출법, 계통추출법, 집락추출법, 층화추출법
데이터 분할: 구축/검정/시험용, 홀드아웃방법, 교차확인방법 (10 fold 교차분석), 부트스트랩
그래프 그리기:
- 산점도, 막대그래프, 선그래프, 히트맵, 서브플롯, 트리맵, 도넛차트, 버블차트, 히스토그램, 체르노프 페이스, 스타차트, 다차원척도법, 평행좌표계
- 도식화와 시각화

[ 4 ] 기타

Numpy 배열과 벡터 계산, Pandas 시작하기
모델구축, 모델튜닝 (하이퍼파라미터), 그리드서치, 기타기법

가도와키 다이스케, 사카타 류지, 호사카 게이스케, 히라마쓰 유지, 데이터가 뛰어노는 AI 놀이터, 캐글 (서울: 한빛미디어)

로웰 아티엔자, 케라스로 구현하는 고급 딥러닝 알고리즘 (경기: 위키북스, 2019)

벤자민 벵포트, 레베카 빌브로, 토니 오제다, 파이썬으로 배우는 응용 텍스트 분석 (경기: 제이펍, 2019)

스티븐 마슬랜드, 알고리즘 중심의 머신러닝 가이드 제2판 Machine Learning: An Algorithmic Perspective, Second Edition (경기: 제이펍, 2017)

안드레아스 뮐러, 세라 가이도, 파이썬 라이브러리를 활용한 머신러닝 번역개정판 (서울: 한빛미디어, 2019)

앨리스 젱, 아만다 카사리, 피처 엔지니어링 제대로 시작하기 (서울: 에이콘, 2019)

에일린 닐슨, 실전 시계열 분석 (서울: 한빛미디어, 2021)

웨스 맥키니, 파이썬 라이브러리를 활용한 데이터 분석 (서울: 한빛미디어, 2016)

윤종식, ADP 데이터 분석 전문가 (부산: (주)데이터에듀, 2021)

윤종식, ADsP 데이터 분석 준전문가 (부산: (주)데이터에듀, 2021)

피터 브루스, 앤드루 브루스, 피터 게데크, 데이터 과학을 위한 통계 2판 (서울: 한빛미디어, 2021)

저작자표시 비영리 동일조건 (새창열림)

'Study history > ADP 실기 합격 기록' 카테고리의 다른 글

ADP) 3-1. 전처리 1탄 (결측치, 이상값, 클래스 불균형 처리방법들) (5)	2021.12.02
ADP) 1-3-1. 탐색적 자료 분석: 요약, 기술통계 (평균, 표준편차, 중위수, 사분위수, 변동계수, 최빈값, 그래프, 왜도, 첨도), 줄기잎그림, 도넛차트, 히스토그램, 상자수염 그림 (0)	2021.12.01
ADP) 의사결정나무 예제 (+파이썬으로 분류트리, 회귀트리 구현하기) (0)	2021.12.01
ADP) ADP 실기 기출문제 모음 (17, 18, 19, 20, 21, 22, 23, 24, 25, 26회) (29)	2021.11.26
30회 ADsP 및 23회 ADP 필기 시험 합격 후기 (+비전공) (0)	2021.11.16

울창한 데이터 숲

ADP) ADP 실기 준비 - 주제 목록

[ 1 ] 데이터마이닝

1 ] 지도학습

2 ] 비지도 학습

3] 기타 통계

[ 2 ] 텍스트마이닝

[ 3 ] 데이터 가공 및 시각화

[ 4 ] 기타

'Study history > ADP 실기 합격 기록' 카테고리의 다른 글

댓글

티스토리툴바

ADP) ADP 실기 준비 - 주제 목록

[ 1 ] 데이터마이닝

1 ] 지도학습

2 ] 비지도 학습

3] 기타 통계

[ 2 ] 텍스트마이닝

[ 3 ] 데이터 가공 및 시각화

[ 4 ] 기타

'Study history > ADP 실기 합격 기록' 카테고리의 다른 글

관련글

댓글

티스토리툴바