본문 바로가기
Python notes/Statistical Analysis

데이터, 통계학 입문 수업 요약 (1)

by 성실한 나무 2021. 4. 2.

#1. 데이터 과학의 범위

 

1)  통계학 지식: 샘플링, 확률분포, 가설검정, p-value

2) 데이터 큐레이션: 빅데이터 다룰 수 있는 기술

3) 데이터 시각화: 공간지도분석, 다차원 그래픽)

4) 데이터윤리, 데이터 보안

5) 데이터 도메인에 대한 지식과 분석능력, 현실문제의 해결능력

 

--> 데이터 분석의 최종 목적: insight 도출

 

 

 

#2. 통계의 필요성

 

빅데이터 --- 통계:

-> 요약된 정보 제공, 과거 데이터를 통해 미래를 예측, 숨겨진 패턴 발견

--> 올바른 의사결정을 도움

 1) 고객 이동경로(customer journey) 분석: 고객 이탈 막고, 유입 추진

 2) 정부 정책의 근거자료

 3) 법정 소송 근거자료 등

 

 

 

#3. 데이터 분석 시 주의할 점

 

 1) 올바른 방법으로 데이터 수집할 것

    (너무 적은 양의 데이터, 편향된 표본 추출, 데이터의 왜곡 및 훼손에 주의)

 2) 결측치 문제 고려

 

 

 

#4. 공유데이터와 오픈소스

 

 1) 공유데이터: 

   - 통계청 kostat.go.kr

   - 공공데이터포털 data.go.kr

   - 서울열린데이터광장 data.seoul.go.kr

   - 네이버 데이터랩 datalab.naver.com/opendata.naver

 

 2) 오픈소스:

   - 오픈소스 통계분석 프로그램: R, Python

   - 분산, 병렬 처리 프로그램: hadoop, spark

   - 머신러닝과 신경망 연구를 위한 SW: 구글 TensorFlow

   - 인공지능 알고리즘 테스트: 구글 DeepMind lab

   --> 오픈소스 플랫폼 예) Github, 프로그램 소스를 공유함으로써 협업 및 개발이 가능하게 함

 

 

 

#5. 표본이 적합하게 추출되었는지 평가하는 방법

 

 1) 편의(Bias)가 적은지: 표본을 추출할 때 표본으로부터 얻어지는 통계치의 기대값이 모수의 참값과 유사한지

 2) 정확도(Precision)이 높은지: 반복해서 표본을 추출할 때 얼마나 유사한 값들이 나오는지

 

 

 

 #6. 데이터 중심위치 척도: 평균(mean), 중앙값(median), 최빈값(mode)

 

 1) 평균은 표본이 적은 경우, 아주 큰 값이나 작은 값 (outlier)에 민감함

     때로는 중앙값이 평균보다 더 적합한 중심척도인 경우도 있음

 2) 중앙값

   - n개의 관측치를 크기순으로 배열했을 때 중앙의 위치에 놓이게 되는 값

   - 데이터의 수가 작고 이상치(outlier)가 있을 때 평균보다 더 정확한 모집단의 중심값이 됨

 3) 최빈값

  - 전체 데이터 중 가장 빈도(frequency)가 높은 값

  - 데이터의 수가 많아질수록 평균과 가까워짐

 

 

 

#7. 분산

 - 편차들의 제곱합을 (n-1)로 나눔

    **(n-1)로 나누는 이유는 자유도와 관련, 평균값으로 표본평균을 사용하므로 1개의 자유도를 잃게 되서... 

    ***표준편차는 분산에 제곱근을 취함 -> 원래 단위로 복원

 - 분산이 높으면,

    데이터의 산포정도가 크다

    데이터가 중간에 몰려있지 않고 멀리 퍼져있다

    데이터가 중심위치로부터 멀리 퍼져있다

    데이터의 평균과 데이터들의 차이가 크다

 

 

 

#8.  

 1) 인사이트를 얻는다

 2) 최적의 의사결정이 가능

   예1) 데이터 탐색: 평균, 산포, 불량률을 추정 -> 변동상황을 관리도(control chart)로 표현 -> 이상요인 사전 탐지

   예2) 통계적 관리: 관리상한선(UCL), 관리하한선(LCL), 중심선을 구해서 관리도 만들 수 있음    

   예3) 데이터의 숨겨진 패턴을 분석해서 분류 분석

   예4) 웹 마이닝을 통한 트렌드 분석 (검색어 트렌드 분석을 통해 향후 트렌드 예측)

         *Weighted Moving Average: 과거 트렌드를 반영하되 먼 과거의 데이터보다 가까운 시점의 데이터를 더 중요시함

 

 

#9. 데이터 시각화와 통계적 해석

 1) 데이터 분석단계: 수집(data gathering) - 정제(data processing) - 시각화(data visualization) - 예측모형/분석(data analysis)

 2) 데이터시각화: infographic, histogram, box plot(상자그림), scatter plot(산점도)

 3) 데이터 시각화 도구: R, Python, 엑셀 등

 4) 그래프의 유용성: skewed(비대칭, 왜도), outlier(이상치) 확인 용이

 5) 시각화 방법:

   - 히스토그램: a) 축의 범위, 간격 등을 잘 정해야 함  b) 그래프를 보는 사람의 수준 고려  c) 그래프 종류 별 장단점을 파악하고 사용

   - 상자그림: 중앙값, 일사분위수(크기순으로 배열한 데이터의 25% 지점의 값),

                      삼사분위수(크기순으로 배열한 데이터의 75% 지점의 값), 최대값, 최소값 정보를 제공

          a) 데이터 분포의 대칭성, 치우침, 이상치를 쉽게 파악할 수 있음

          b) 이상치 표시: 일사분위로부터 -(1.5)*사분위범위를 넘는 관측치, 삼사분위로부터 +(1.5)*사분위범위를 넘는 관측치

                                 (사분위범위=삼사분위수-일사분위수)

   **히스토그램과 상자그림은 1변량, 변수 1개의 데이터 분포를 살펴보는 반면, 산점도는 두 변수 사이의 관계를 확인할 수 있음

    - 산점도:

          변수간 관계의 방향(positive, negative, no direction), 형태;트렌드(linear, curved, clusters, no pattern),

          강도(점들이 얼마나 가까운지)를 살펴볼 수 있음

          a) x축(독립변수, independent/explanatory variable, 원인 역할), y축(종속변수, dependent/response variable, 결과 관측)

          b) 상관계수(Correlation, r): 두 변수 간 선형적인 상관관계의 강도를 나타냄

              -1부터 +1까지 존재. *산점도에서 상관관계란 선형적인 상관관계만 의미함

 

 

#10. 확률과 분포

 1) 확률(probability): 어떤 특정한 사건이 일어날 가능성을 0과 1사이의 값으로 나타낸 것, P(A)=사건/표본공간

     사건: 표본공간에서 관심의 대상인 부분집합 예) 합집합 사건, 교집합 사건, 여집합 사건, 배반사건 (mutually exclusive)

     표본공간: 확률실험의 모든 가능한 결과의 집합

     확률변수: 확률실험으로부터 나타난 결과에 실수를 할당한 함수

     기대값: 확률변수의 중심척도 (평균값?)

 

 2) 조건부 확률(conditional probability): 어떤 사건(B)이 발생한다는 조건 하에서 다른 사건(A)이 발생하게 될 확률

     통계적 독립(independent): 사건 B가 일어난다는 정보가 사건 A의 발생에 전혀 영향을 주지 않을 때

     *단, 통계적 독립과 배반 사건은 다른 개념임

     베이즈 정리: 주어진(사전정보) 가설에 새로운 정보(B)가 주어졌을 때 사후확률을 계산

                        사후확률을 사전확률과 가능도를 이용하여 계산할 수 있도록 해 주는 확률 변환식

                         머신러닝기법 중 '나이브베이즈 분류' 기법 계산에서 베이즈 정리가 활용됨

 

 3) 확률분포: 이산형(discrete, 점이 띄엄띄엄)분포와 연속형(continuous, 점이 연속적으로)분포가 있음

     a) 이산형 분포(확률변수가 이산형): 이항분포, 다항분포, 초기하분포, 포아송분포 등

           - 이항분포: 시행의 결과가 단순히 성공 또는 실패로 나타낼 수 있을 때 (베르누이 시행) 성공이 나오는 횟수에 대한 확률 분포 

           - 포아송분포: 단위 시간 안에 어떤 사건이 몇 번 발생하는가에 대한 확률 분포 

     b) 연속형 분포(확률변수가 연속형): 정규 분포(Normal distribution), 카이제곱 분포, F분포

           - 표준정규분포: 평균이 0이고 분산이 1인 정규 분포 

             *구간의 면적을 미리 구해두면 이것을 이용해서 모든 정규분포의 면적을 바로 구할 수 있음

 

 4) 중심극한정리(central limit theorem)

    - 이항분포에서 표본의 수가 증가함에 따라 표본들의 전체 합이 점점 정규분포에 근접해짐

    - 지수분포에서도 표본 수의 증가에 따른 표본평균의 분포는 점점 정규분포의 비슷해짐을 볼 수 있음

    - 모집단의 분포를 몰라도 중심극한정리를 이용하면 표본평균의 통계적 검정과 추정이 가능해짐

 

 

[출처: 데이터 사이언스를 위한 통계학 입문, pabi.smartlearn.io/]

 

+추가로 발견한 확률과 통계 배우기 좋은 사이트 추천:

  ko.khanacademy.org/math/statistics-probability

 

확률과 통계 | 수학 | Khan Academy

확률과 통계를 배워보세요. 기술통계학과 추리통계학에 대해 알고 싶었던 것을 모두 배워보세요.

ko.khanacademy.org

 

 

 

댓글