본문 바로가기

Python notes/Statistical Analysis16

Python-Statistics) 파이썬으로 연속형 확률분포 계산 (+scipy cdf 사용법) #1. 연속형 확률분포란? 연속형 확률분포(Continuous Probability Distribution)는 확률변수 x가 두 값 a, b 사이의 가능한 모든 값을 취할 수 있을 때 적용하는 확률분포이며, 확률값은 어느 구간의 누적확률(면적)로 표시된다. 그래프로 나타내면 x축은 확률변수 y축은 확률밀도함수(probability density function)인데 특정 이산형 x에 대한 y값은 0으로 본다. 다만 x의 구간이 a~b로 주어지면 그 사이에 생기는 면적을 구해서 이를 확률값으로 얻을 수 있다. 연속형 확률분포로는 정규분포, 지수분포, 균등분포, 베타분포, 와이블분포, 감마분포, 코시분포 등이 있다. 연속형 확률분포 중에서도 표본의 평균, 분산, 분산비가 따르는 연속형 확률분포를 t분포, 카.. 2022. 7. 1.
Python-Statistics) 파이썬으로 이산형 확률분포 계산 (+scipy pmf, cdf, ppf 사용법) **아래 코드는 kaggle code에서 다운로드 받을 수 있음 >> https://www.kaggle.com/janejo/statistics-1-discrete-random-variable #1. 이산형 확률분포란? 이산형 확률분포는 확률변수 x가 이산형(Discrete)인 경우 각 x의 확률이 어떻게 분포되는지를 나타낸다. 그래프로 그리면 막대그래프로 x 축에 확률변수를 놓고, y축에 확률값을 표시할 수 있다. 그리고 이 확률값을 구하기 위한 함수는 확률질량함수(Probability Mass Function)이라고 하며 각 확률 분포 별로 구하는 공식이 다르다. 이 확률질량함수 값이 y축에 놓이게 된다. #2. 파이썬 Scipy로 이산형 확률분포 계산 파이썬에서 자주 쓰이는 통계 패키지 중 하나인 s.. 2022. 6. 29.
Python-Statistics) 이산형 확률 변수, 연속형 확률변수의 기대값, 분산 계산 (+numpy, sympy) #1. 이산형 확률변수 파이썬으로 이산형 확률변수의 기대값과 분산을 계산해본다. 이 때 필요한 패키지는 numpy이다. 코드를 구현하기에 앞서 이산형 확률변수 x의 기대값(=평균)과 분산을 구하는 공식은 아래와 같다. 기대값 E(x)는 확률변수와 그의 확률값을 각각 곱한 후 전체를 합하여 구한다. 분산 Var(x)는 확률변수 x를 제곱하여 그의 확률값을 각각 곱한 후 전체를 합한 값에 기대값의 제곱을 빼서 구한다. 이를 파이썬 코드로 구현하면 아래와 같다. 표준편차는 분산에 제곱근을 씌워서 구한다. numpy의 sqrt() 함수를 사용하면 쉽게 계산할 수 있다. #2. 연속형 확률변수 연속형 확률변수는 이산형 확률변수 계산보다 조금 더 복잡하다. 적분을 해야 하기 때문이다. 개인적으로 문과라서 미적분을 .. 2022. 6. 28.
Python-Statistics) 파이썬으로 베이지안 방법, 사후 확률 구하기 베이지안 방법을 파이썬 코드로 보기 쉽게 정리해보려고 한다. 이를 위해 먼저 전확률의 정리와 베이즈의 정리의 개념을 알아본다. 전확률의 정리와 베이즈의 정리가 성립하기 위해서는 아래와 같이 표본공간 S를 이루고 있는 n개의 부분집합 A들이 있어야 한다. 즉, 부분집합 A들은 서로 겹치는 부분이 없어야 하고(교집합이 공집합), A들의 확률을 다 합쳤을 때 1이 되어야 한다. #1. 전확률의 정리 (Theorem of Total Probability) 전확률의 정리는 아래와 같이 정리할 수 있는데 쉽게 말하면, 사건 B의 확률을 구하는 방법이다. 사건 B의 확률을 구하기 위해 위에서 언급했던 서로 겹치지 않는 부분집합 A들을 사용한다. A1이 일어날 때 B가 일어날 확률(조건부 확률)에 A1이 일어날 확률을.. 2022. 6. 22.
파이썬) 비모수적 검정 방법들 (+부호검정, 순위합검정, 부호순위합검정) 통계적 검정에서 모집단의 모수에 대한 검정은 모수적 검정 방법과 비모수적 검정 방법(non-parametric test)이 있다. 모수적 검정방법은 모집단의 분포에 대해 가정을 하고 검정을 한다. 반면, 비모수적 검정 방법은 자료가 추출된 모집단의 분포에 대해 아무런 제약을 가하지 않고 검정을 실시한다. 비모수적 검정방법의 가설은 비교하고자 하는 그룹들이 '분포의 형태가 동일한지' 또는 '분포의 형태가 동일하지 않은지'와 같이 분포의 형태에 대해 설정한다. 비모수적 검정 방법은 다음과 같은 경우에 사용한다. 관측된 자료가 특정분포를 따른다고 가정할 수 없는 경우. 관측된 자료의 수가 30개 미만으로 적은 경우. 자료가 개체간의 서열관계를 나타내는 경우. 비모수적 검정방법은 관측값의 절대적인 크기에 의존하.. 2021. 9. 18.