본문 바로가기

Python notes118

Python-Statistics) 파이썬으로 연속형 확률분포 계산 (+scipy cdf 사용법) #1. 연속형 확률분포란? 연속형 확률분포(Continuous Probability Distribution)는 확률변수 x가 두 값 a, b 사이의 가능한 모든 값을 취할 수 있을 때 적용하는 확률분포이며, 확률값은 어느 구간의 누적확률(면적)로 표시된다. 그래프로 나타내면 x축은 확률변수 y축은 확률밀도함수(probability density function)인데 특정 이산형 x에 대한 y값은 0으로 본다. 다만 x의 구간이 a~b로 주어지면 그 사이에 생기는 면적을 구해서 이를 확률값으로 얻을 수 있다. 연속형 확률분포로는 정규분포, 지수분포, 균등분포, 베타분포, 와이블분포, 감마분포, 코시분포 등이 있다. 연속형 확률분포 중에서도 표본의 평균, 분산, 분산비가 따르는 연속형 확률분포를 t분포, 카.. 2022. 7. 1.
Python-Statistics) 파이썬으로 이산형 확률분포 계산 (+scipy pmf, cdf, ppf 사용법) **아래 코드는 kaggle code에서 다운로드 받을 수 있음 >> https://www.kaggle.com/janejo/statistics-1-discrete-random-variable #1. 이산형 확률분포란? 이산형 확률분포는 확률변수 x가 이산형(Discrete)인 경우 각 x의 확률이 어떻게 분포되는지를 나타낸다. 그래프로 그리면 막대그래프로 x 축에 확률변수를 놓고, y축에 확률값을 표시할 수 있다. 그리고 이 확률값을 구하기 위한 함수는 확률질량함수(Probability Mass Function)이라고 하며 각 확률 분포 별로 구하는 공식이 다르다. 이 확률질량함수 값이 y축에 놓이게 된다. #2. 파이썬 Scipy로 이산형 확률분포 계산 파이썬에서 자주 쓰이는 통계 패키지 중 하나인 s.. 2022. 6. 29.
Python-Statistics) 이산형 확률 변수, 연속형 확률변수의 기대값, 분산 계산 (+numpy, sympy) #1. 이산형 확률변수 파이썬으로 이산형 확률변수의 기대값과 분산을 계산해본다. 이 때 필요한 패키지는 numpy이다. 코드를 구현하기에 앞서 이산형 확률변수 x의 기대값(=평균)과 분산을 구하는 공식은 아래와 같다. 기대값 E(x)는 확률변수와 그의 확률값을 각각 곱한 후 전체를 합하여 구한다. 분산 Var(x)는 확률변수 x를 제곱하여 그의 확률값을 각각 곱한 후 전체를 합한 값에 기대값의 제곱을 빼서 구한다. 이를 파이썬 코드로 구현하면 아래와 같다. 표준편차는 분산에 제곱근을 씌워서 구한다. numpy의 sqrt() 함수를 사용하면 쉽게 계산할 수 있다. #2. 연속형 확률변수 연속형 확률변수는 이산형 확률변수 계산보다 조금 더 복잡하다. 적분을 해야 하기 때문이다. 개인적으로 문과라서 미적분을 .. 2022. 6. 28.
Python-Statistics) 파이썬으로 베이지안 방법, 사후 확률 구하기 베이지안 방법을 파이썬 코드로 보기 쉽게 정리해보려고 한다. 이를 위해 먼저 전확률의 정리와 베이즈의 정리의 개념을 알아본다. 전확률의 정리와 베이즈의 정리가 성립하기 위해서는 아래와 같이 표본공간 S를 이루고 있는 n개의 부분집합 A들이 있어야 한다. 즉, 부분집합 A들은 서로 겹치는 부분이 없어야 하고(교집합이 공집합), A들의 확률을 다 합쳤을 때 1이 되어야 한다. #1. 전확률의 정리 (Theorem of Total Probability) 전확률의 정리는 아래와 같이 정리할 수 있는데 쉽게 말하면, 사건 B의 확률을 구하는 방법이다. 사건 B의 확률을 구하기 위해 위에서 언급했던 서로 겹치지 않는 부분집합 A들을 사용한다. A1이 일어날 때 B가 일어날 확률(조건부 확률)에 A1이 일어날 확률을.. 2022. 6. 22.
Python Errors) ValueWarning: a date index has been provided, but it has no associated frequency information and so will be ignored when e.g. forecasting 해결! 시계열 데이터 분석 중 ValueWarning을 발견했다. 그 내용은 아래와 같다. ValueWarning: a date index has been provided, but it has no associated frequency information and so will be ignored when e.g. forecasting 데이트 인덱스가 제공되었지만, 빈도 정보가 없어서 forecasting할 때 무시될 것이라는 내용이었다. 시계열 데이터 분석을 하려면 데이터 값에서 날짜 정보 열은 인덱스로 지정을 해주어야 하고, 그 날짜에 대해 frequency, 즉 시계열 데이터 term에 대한 정보가 있어야 한다. 일반적으로 일, 혹은 월, 년 단위로 이미 전처리가 되어 있는 데이터라면 상관이 없는데, 데이.. 2022. 6. 13.