본문 바로가기
Study history/ADP 실기 합격 기록

ADP) ADP 실기 준비 - 주제 목록

by 성실한 나무 2021. 11. 25.

 내년 시행될 ADP 실기를 앞두고 아래와 같이 코딩 연습을 할 주제의 목차들을 정해보았다. 내용은 <2021 ADsP 데이터분석 준전문가> 및 <ADP 필기 데이터 분석 전문가> 책을 기반으로 작성하였다. 가능한 한 빠뜨리는 내용 없이 모두 코드 작성을 해보려고 꼼꼼하게 고르고 골라 목록을 만들었다.

 

[ 1 ] 데이터마이닝

 1 ] 지도학습

  1. 의사결정나무: CART, C5.0, C4.5, CHAID, 분리기준 (카이제곱통계량 p값, 지니 지수, 엔트로피 지수, F통계량, 분산의 감소량), 가지치기
  2. 앙상블분석: 배깅, 부스팅(Adaboost), 랜덤포레스트, 스태킹, 엑스트라트리, 에이다부스트
  3. 인공신경망
    • 활성화함수(계단함수, 부호함수, 시그모이드 함수, relu함수, softmax 함수)
    • 다층퍼셉트론
    • ANN, DNN, CNN, RNN, GAN(InfoGAN, CycleGAN), RBM, DBN
    • MLP-CNN-RNN 구현 및 비교
    • ResNet, DenseNet
    • AutoEncoder, VAE, DQN
    • 진화 학습 (유전 알고리즘)
    • 강화학습 (마르코프 결정과정)
    • 대칭가중치와 심층신뢰 네트워크
  4. 회귀분석
    • 가정검토(선형성, 등분산성-잔차도, 정규성-히스토그램/QQplot/Shapiro-wilk, 오차항의 독립성-더빈왓슨검정)
    • 단순선형회귀분석(회귀계수 검정, 결정계수 계산-SST/SSR/SSE, 회귀직선의 적합도 검토)
    • 다중선형회귀분석(회귀계수 검정, 회귀식, 결정계수 계산, 모형의 통계적 유의성, 교호작용, 다중공선성-PCA회귀, VIF 상위변수 제거)
    • 다항회귀분석
    • 스플라인 회귀
    • 로지스틱 회귀
    • 최적회귀방정식(전진선택법, 후진제거법, 단계적선택법 - AIC/BIC)
    • 정규화 선형회귀 Regularized Linear Regression (Ridge회귀, Lasso회귀, Elastic Net 회귀)
    • 일반화 선형회귀 Generalized Linear Regression
    • 회귀분석의 기울기에 영향을 주는 영향점 진단: Cook's Distance, DFBETAS, DFFITS, Leverage H
    • 변수 선택의 기준: 결정계수, Mallow's Cp, AIC/BIC
  5. 최근접 이웃법 (KNN), 가우시안 혼합모델
  6. 베이지안 분류
  7. SVM
  8. 판별분석
  9. 사례기반 추론 (Case based reasoning)

 

 2 ] 비지도 학습

  1. 연관규칙학습 (패턴인식): 장바구니분석(Apriori, FP Growth, FPV, Eclat), 연관규칙, 서열분석 (순차패턴, 시차-연관분석; Sequence Analysis)
  2. 주성분분석(Scree plot, 누적기여율, 주성분 별 가중치, Biplot) 및 요인분석
    • 차원축소, 특성추출, 매니폴드학습, PCA, NMF
  3. 군집분석
    • 계층적군집: 합병형 Bottom-up 방식(최단연결법, 평균연결법, 와드연결법, 최장연결밥, 중심연결법), 분리형 top-down 방식 (다이아나 방법), 덴드로그램
    • 분할적 군집(비계층적군집): 프로토타입 centroid-based (K-centroid 군집, K-means 군집, K-median 군집, K-medoid 군집, Fuzzy 군집), 분포기반GMM(혼합분포군집; EM알고리즘, 로그-가능도 함수), 밀도기반(중심밀도군집, DBSCAN, OPTICS, DENCLUE), 격자기반(STING, WaveCluster, CLIQUE)
    • 거리: 유클리디안 거리, 마할라노비스 거리, 체비셰프 거리, 맨하탄 거리, 캔버라 거리, 민코우스키 거리, 자카드 거리, 코사인 거리
    • SOM
    • 타당성지표: 실루엣 계수, Dunn Index
  4. 사회연결망분석 (Social network)
    • 네트워크 구조 파악: 중심성, 밀도, 구조적틈새, 집중도 등
    • 커뮤니티 발견: walk trap, edge-betweenness
    • Giraph 등

 

 3] 기타 통계

  1. 탐색적 자료 분석: 요약, 기술통계 (평균, 표준편차, 중위수, 사분위수, 변동계수, 최빈값, 그래프, 왜도, 첨도), 줄기잎그림, 도넛차트, 히스토그램, 상자수염 그림
  2. 데이터와 표본분포 (정규분포, T분포, F분포, 이항분포, 포아송 분포 등)
  3. 유의성검정:
    1. t-test
      • 정규성검정: 콜모고로프 스미르노프 검정, QQ도, Anderson-Darling test, 샤크로-윌크 검정
      • 등분산검정
      • 등분산성만족 못할시: Welch two sample t-test
      • 일표본 T검정, 대응표본 t검정, 독립표본 t검정
    2. 분산분석(ANOVA)
      • 일원배치 분산분석: 분산분석표, 사후분석(던칸의 MRT, 피셔의 LSD, Scheffe의 방법)
      • 이원배치 분산분석: 분산분석표, 교호작용
    3. 교차분석: 적합도 검정, 독립성 검정(교차표), 동질성 검정(교차표)
    4. 다중검정
    5. 공분산, 상관분석 (피어슨, 스피어만, 켄달 타우, 상관계수 검정)
  4. 시계열분석:
    • 분해시계열, ARIMA모델 (ACF/PACF를 통한 모델 결정)
    • ARIMA(p,d,q) - 정상성 (ADF, KPSS test), 차분, ACF, PACF, Ljung-Box test
    • SARIMA(p,d,q)(P,D,Q)[s]
  5. 다차원척도법: 계량적MDS, 비계량적 MDS
  6. 비모수검정: 부호검정, 윌콕슨의 순위합 검정, 윌콕슨의 부호순위합검정, 만위트니의 U검정, 런검정
  7. 성과분석
    • 분류분석: 정분류율, 오분류율, 특이도, 민감도, 정확도, 재현율, F1 Score, RoC Curve, AUROC, Lift Chart (Frequency of buy, captured response, response, lift), cross validation
    • 연관성분석: 지지도, 신뢰도, 향상도
    • Bias-variance Trade-off
    • 과대적합, 과소적합, 일반화

 

[ 2 ] 텍스트마이닝

  1. 말뭉치 전처리와 가공, 텍스트 벡터화와 변환 파이프라인, 텍스트 데이터 플래트닝, 필터링, 청킹
    • Tokenization, Pos Tagging, Stemming/Lemmazation, Remove Stopwords, One-hot encoding, N-Gram, TF-IDF, Cosine Similarity
  2. 텍스트 분석을 위한 분류, 텍스트 유사성 군집화, 문맥인식 텍스트 분석
  3. 텍스트 시각화, 텍스트 그래프 분석
  4. 감성분석
  5. 워드클라우드 분석
  6. 텍스트마이닝 모델링
    • 나이브 베이지안 분류
    • LDA (Latent Dirichlet Allocation)
    • Word2Vec
    • Perplexity

 

[ 3 ] 데이터 가공 및 시각화

  1.  전처리
    • 결측값 처리: 단순대치, 평균 대치, 단순확률 대치 (Hot-deck, nearest neighbor), 다중 대치, knnImputation, centralimputation
    • 클래스불균형: 업샘플링 (SMOTE, Boaderline SMOTE, Adasyn), 다운샘플링
    • 이상값 처리: 극단값 절단, 조정
    • 변수 변환, 스케일링: 수치형 변수 변환(로그변환, 제곱근변환, 지수변환, 제곱변환, Box-cox 변환, 표준화, 정규화), 범주형 변수 변환(범주형 변수 인코딩, 대규모 범주형 변수처리), 날짜 및 변수 변환,  피쳐스케일링
    • 원핫인코딩(더미변수), 컬럼 트랜스퍼, 구간분할, 이산화, 피쳐선택
  2. 표본 추출: 단순랜덤 추출법, 계통추출법, 집락추출법, 층화추출법
  3. 데이터 분할: 구축/검정/시험용, 홀드아웃방법, 교차확인방법 (10 fold 교차분석), 부트스트랩
  4. 그래프 그리기:
    • 산점도, 막대그래프, 선그래프, 히트맵, 서브플롯, 트리맵, 도넛차트, 버블차트, 히스토그램, 체르노프 페이스, 스타차트, 다차원척도법, 평행좌표계
    • 도식화와 시각화

 

[ 4 ] 기타

  1. Numpy 배열과 벡터 계산, Pandas 시작하기
  2. 모델구축, 모델튜닝 (하이퍼파라미터), 그리드서치, 기타기법

 


 

가도와키 다이스케, 사카타 류지, 호사카 게이스케, 히라마쓰 유지, 데이터가 뛰어노는 AI 놀이터, 캐글 (서울: 한빛미디어)

로웰 아티엔자, 케라스로 구현하는 고급 딥러닝 알고리즘 (경기: 위키북스, 2019)

벤자민 벵포트, 레베카 빌브로, 토니 오제다, 파이썬으로 배우는 응용 텍스트 분석 (경기: 제이펍, 2019)

스티븐 마슬랜드, 알고리즘 중심의 머신러닝 가이드 제2판 Machine Learning: An Algorithmic Perspective, Second Edition (경기: 제이펍, 2017)

안드레아스 뮐러, 세라 가이도, 파이썬 라이브러리를 활용한 머신러닝 번역개정판 (서울: 한빛미디어, 2019)

앨리스 젱, 아만다 카사리, 피처 엔지니어링 제대로 시작하기 (서울: 에이콘, 2019)

에일린 닐슨, 실전 시계열 분석 (서울: 한빛미디어, 2021)

웨스 맥키니, 파이썬 라이브러리를 활용한 데이터 분석 (서울: 한빛미디어, 2016)

윤종식, ADP 데이터 분석 전문가 (부산: (주)데이터에듀, 2021)

윤종식, ADsP 데이터 분석 준전문가 (부산: (주)데이터에듀, 2021)

피터 브루스, 앤드루 브루스, 피터 게데크, 데이터 과학을 위한 통계 2판 (서울: 한빛미디어, 2021)

댓글