본문 바로가기

Python notes/Statistical Analysis16

파이썬) 단순선형회귀 분석 결과 해석하기 (+statsmodel OLS Regression Results) #1. 단순선형회귀 분석을 위한 데이터 준비 단순선형회귀는 독립변수 1개와 그에 대응하는 종속변수 1개를 가진 데이터프레임 df를 정의하여 분석을 한다. 데이터 프레임을 정의한 후 데이터 프레임 객체인 df에 df.head(10) 함수를 적용하여, 데이터가 잘 정의되었는지 앞 10행의 데이터를 아래와 같이 확인해 본다. #2. 단순선형회귀 분석 진행 statsmodels 패키지에 있는 ols 함수를 사용하면 간편하게 단순선형회귀 분석을 진행할 수 있다. 먼저 (Mac의 경우) 터미널에서 pip3 install statsmodels를 사용하여 statsmodels패키지를 설치하고, from statsmodels.formula.api import ols 를 실행함으로써 ols 함수를 불러온다. 그리고 ols.. 2021. 6. 23.
파이썬) statsmodels로 logit함수 이해하기 (+Logit Regression Results 해석) #1. logit함수값과 오즈비는 무엇인가? statsmodels패키지를 설치하면 from statsmodels.formula.api import logit을 통해 logit 함수를 사용할 수 있다. logit함수값을 구하기 위해서는 logit('종속변수명 ~ 독립변수명1 + 독립변수명2 + 독립변수명3', data=데이터프레임객체).fit().summary() 의 형태로 코드를 구성하는데, 아래와 같이 그 결과값들을 확인할 수 있다. 이중에서 맨 아래에서 coef가 바로 각 독립변수들의 logit함수 계수들이다. 해당 값이 0에 가까울수록 종속변수에 미치는 영향이 적고, 해당 값이 0에서 멀수록 종속변수에 영향력이 있다고 볼 수 있다. 로짓함수식에서 Intercept는 절편이고, coef는 해당 독립변.. 2021. 6. 22.
파이썬) 다중선형회귀그래프 그리기 (+sklearn, mpl_toolkits) #1. 단순선형회귀 그래프 예제는 많다: 1개의 독립변수와 1개의 종속변수를 선정하여 그 인과관계를 시각화하는 방법 중 하나인 단순선형회귀그래프는 직관적으로 x축, y축으로 좌표평면 상에 그려 이해하기 쉽고 코드도 단순해서 그런지 예제들이 엄청 많다. x축을 독립변수, y축을 종속변수로 하는 좌표 평면상에 전체 데이터들의 (x, y) 좌표값을 점으로 좌표평면 상에 그리면 산점도가 된다. 그리고 그 산점도의 경향성을 따라 계산한 추세식을 위에 덧붙여 그리면 단순선형회귀 그래프가 완성된다. 자세한 내용은 별도로 포스팅한 적이 있다: https://lovelydiary.tistory.com/339 파이썬) 추세선 식 그리기 (+numpy.polyfit, numpy.poly1d) #1. 값들의 리스트를 가지고 .. 2021. 6. 17.
파이썬) 단순선형회귀 그래프 그리기 (+추세선, 회귀식 구하기 with polyfit, poly1d, ols) #1. 단순선형회귀 그래프는 무엇인가? 단순선형회귀 그래프는 독립변수 1개, 종속변수 1개를 가진 데이터를 시각화한 그래프이다. 먼저, 독립변수의 값과 종속변수 값을 각각 x, y로 두고 전체 데이터의 (x, y) 좌표들을 만들어서 좌표 평면 상에 그 점들을 찍으면 그것은 산점도라고 한다. 그리고 해당 점들이 회귀하는 것으로 보이는(모이는 것으로 보이는) 직선을 찾아내어 그은 선을 회귀선이라고 한다. 단순선형회귀 그래프는 일반적으로 이 두 가지를 동시에 시각화하여 나타낸다. #2. 단순선형회귀 그래프 그리기 1) 단순선형회귀 그래프를 그리기 위해 필요한 패키지들을 설치하고 필요한 함수들을 불러온다. 회귀선(추세선)을 그리기 위해 추세식을 계산하는 함수 polyfit, poly1d를 사용하기 위해 nump.. 2021. 6. 1.
데이터, 통계학 입문 수업 요약 (2) #1. 통계검정방법 1) 신뢰구간:실제 모수가 존재할 가능성이 높은 구간으로 추정 - 모평균, 모비율 등 모수를 포함할 확률 - 신뢰수준(confidence level): 구간에 모수가 포함될 확률 - 95% 신뢰구간의 의미: 100번의 샘플링으로 얻은 평균과 편차로 계산한 100개의 신뢰구간 중 5개는 실제모평균을 포함하지 않는다 - 정확도를 생각했을 때는 신뢰구간이 좁아야 함 (신뢰구간이 90, 95, 99%인 경우를 비교) - 신뢰구간에서 허용오차에 영향을 미치는 요소: 표본의 크기, 표준편차, 유의수준 2) 통계적 검정: 가설의 진위 여부를 판단, 증명, 검정하는 통계적 추론 방식 - 귀무가설(null hypothesis, H0): 기각을 목표로 함, 검정 대상이 되는 가설, 대립가설(altern.. 2021. 4. 6.